如何把一个网页的内容下载下来
我不是通过浏览器下载一个网页内容,我想通过编程!用c/c++!应该怎么做?
[解决办法]
如果是普通的简单的文件,很容易实现。
方法1,直接使用licurl这个库,十来行代码就能把一个文件内容下载下来。
方法2,直接用TCP socket,连接到服务器的80端口,构造一个HTTP REQUEST,使用GET方法发送过去。然后服务器就会回复一个HTTP RESPONSE,并开始转送文件数据给你。
如果是一个完整的网页,包括图片、脚本、flash等,这就比较麻烦,
意味着你下载的不仅仅是一个文件,文件中可能还嵌入了N个其它文件,它们都是独立存在的,需要你:
1、用前面的方法下载a.htm
2、写代码分析a.htm中的<IMG><Script>这类标签,提取里面的文件URL。
3、再把提取出的内嵌文件下载下来。
浏览器就是按这个方式动作的。
当然,如果网站本身还有https参与或者存在账号验证,那就麻烦一点,一两句也说不清。