要用PYTHON写一个爬虫,主要是爬百度贴吧。需要学哪些东西?我现在有python基础了。也会django
要用PYTHON写一个爬虫,主要是爬百度贴吧。需要学哪些东西?我现在有python基础了。也会django
是直接用PYTHON写一个爬虫。把数据放在dedecms phome这样的网站里放出来好还是直接用web.py django写个网站放出数据来?请指点一下。。谢谢了。
[解决办法]
至少要熟悉 html ?
[解决办法]
了解HTTP协议
学习python的urllib2/urllib模块足以
[解决办法]
哥,正则是必须的
[解决办法]
python2.7+urllib2+BeautifulSoup+正则等。
[解决办法]
你都用python 那就用web.py吧
[解决办法]
会用队列,会用正则,会用curl,没了。
[解决办法]
根据偶之前实现的BlogsToWordpress,实现将百度空间(新版和旧版),网易163,新浪Sina,QQ空间(腾讯博客),人人网,CSDN,搜狐Sohu,博客大巴Blogbus等博客搬家到wordpress的经验来说。
需要掌握下面几个模块:
1.urllib,urllib2:主要是利用此模块实现http请求,以获得网页的源码
2.re:学会利用正则表达式解析网页源码,得到自己所需要的内容。
3.Beautifulsoup:【可选】(极大地)方便了网页源码解析。
当然,本身解析网页源码很多工作,如果本身对正则表达式式足够熟悉,也是可以不用此beautifulsoup的,但是用Beautifulsoup会显得方便而已。
BlogsToWordpress的相关代码,可以去这里找到:
http://code.google.com/p/blogs-to-wordpress/
另外,我之前也总结了很多这方面的函数,比如getUrlRepHtml,用于直接获得某url地址的网页源码,你可以去这里找到:
网络方面的函数
http://www.crifan.com/files/doc/docbook/python_summary/release/html/python_summary.html#id9274721