关于抓取网页后,网页与图片链接问题
目前正在自己动手写一个小型的单线程爬虫程序,但是抓取的网页打开后图片上全是叉子,是不是在提取URL时还需要提取<img src这样的标签,但是这样又产生了个问题,那就是把图片下载到本地后,当打开html网页时,html是怎么与本地下载的图片链接上的,是不是还需要处理一些内容?
[解决办法]
<img src="xxx">
这个是HTML里图片的标识,你都把它下载到本地,当然就要把这个src改成本地的文件。
[解决办法]
最好是把图片也下载下来,然后relink成本地连接,这样目标网站做什么更改,不会影响你这边,缺点是多占点地方。各有利弊