首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

抓取赶集网遇到的有关问题,郁闷死了

2013-08-09 
抓取赶集网遇到的问题,郁闷死了今天用python抓取“赶集网”中的招聘频道下边的公司及商户,搞了一天了,还是搞

抓取赶集网遇到的问题,郁闷死了
今天用python抓取“赶集网”中的招聘频道下边的公司及商户,搞了一天了,还是搞不定,郁闷死了。
之前抓取别的网站的时候,都是直接抓,如果需要cookie验证机制的话,加入就可以了。但是抓取赶集网不知道为什么?直接抓取的话,抓取一个网页以后,再抓取下一个网页就不能抓取了,总是连接超时,我以为是cookie的问题,加入了cookie以后,还是不行,还是那个问题,谁能帮帮我?怎么解决这个总是连接失败的问题。
[解决办法]
urllib2.urlopen(url).read()

把url换成http://bj.ganji.com/zpdianhuaxiaoshou/连着执行两回,没发现什么问题啊?
[解决办法]
可能的原因:
1.缺少对应的referer
2.cookie没有真正送过去
3.或许涉及到自动跳转等过程,但是你没有处理好

原理上可参考:
【总结】静态网页抓取,动态网页抓取,模拟登陆的注意事项

更多参考内容:
Python专题教程:抓取网站,模拟登陆,抓取动态网页




热点排行