Python 下载网页 本文 与 图片 求解。
Python 下载网页 正文 与 图片求解。。。。。本帖最后由 glpython 于 2012-09-19 09:40:59 编辑RT传过一个 URL
Python 下载网页 正文 与 图片 求解。。。。。
本帖最后由 glpython 于 2012-09-19 09:40:59 编辑 RT 传过一个 URL 用python 写一个下载此URL 网页的图片 与正文。。 额 最好用多线程
[解决办法]
下载网页,然后下载css.
1, 正则匹配网页, 取出其中的<img>中的src, 放入队列, 让线程池取走去下载.
2, 正则匹配css, 取出其中的url(比如backgroud-image:url('xxxx.jpg')), 放入队列, 让线程池取走去下载.
队列使用module:queue.
线程使用Posix thread, python的高级thread是假并发.
[解决办法]
就一个URL ,有必要多线程么?-----------------没必要啊,
下载图片与正文------------------------------正则表达式解析+urlretrieve下载
[解决办法]
楼主是希望下页面里的所有url, 线程池是非常必要的。
urlretrieve即将被废弃,不要再用了。
[解决办法]传过一个 URL 用python 写一个下载此URL 网页的图片 与正文。。
-------------------------------
你,读了么?