抓取赶集网遇到的有关问题，郁闷死了

2013-08-09

抓取赶集网遇到的问题，郁闷死了今天用python抓取“赶集网”中的招聘频道下边的公司及商户，搞了一天了，还是搞

抓取赶集网遇到的问题，郁闷死了
今天用python抓取“赶集网”中的招聘频道下边的公司及商户，搞了一天了，还是搞不定，郁闷死了。
之前抓取别的网站的时候，都是直接抓，如果需要cookie验证机制的话，加入就可以了。但是抓取赶集网不知道为什么？直接抓取的话，抓取一个网页以后，再抓取下一个网页就不能抓取了，总是连接超时，我以为是cookie的问题，加入了cookie以后，还是不行，还是那个问题，谁能帮帮我？怎么解决这个总是连接失败的问题。
[解决办法]
urllib2.urlopen(url).read()

把url换成http://bj.ganji.com/zpdianhuaxiaoshou/连着执行两回，没发现什么问题啊？
[解决办法]
可能的原因：
1.缺少对应的referer
2.cookie没有真正送过去
3.或许涉及到自动跳转等过程，但是你没有处理好

原理上可参考：
【总结】静态网页抓取，动态网页抓取，模拟登陆的注意事项

更多参考内容：
Python专题教程：抓取网站，模拟登陆，抓取动态网页

热点排行

perl python

抓取赶集网遇到的有关问题，郁闷死了