Python 下载网页 正文 与 图片 求解。。。。。
RT 传过一个 URL 用python 写一个下载此URL 网页的图片 与正文。。 额 最好用多线程
[解决办法]
下载网页,然后下载css.
1, 正则匹配网页, 取出其中的<img>中的src, 放入队列, 让线程池取走去下载.
2, 正则匹配css, 取出其中的url(比如backgroud-image:url('xxxx.jpg')), 放入队列, 让线程池取走去下载.
队列使用module:queue.
线程使用Posix thread, python的高级thread是假并发.
[解决办法]
就一个URL ,有必要多线程么?-----------------没必要啊,
下载图片与正文------------------------------正则表达式解析+urlretrieve下载
[解决办法]