批量抓取网页时，怎么才能避免被认定为恶意程序

2013-11-20

批量抓取网页时，如何才能避免被认定为恶意程序最近在做一个关键词排名工具，目的是为了能够批量抓取搜索结

批量抓取网页时，如何才能避免被认定为恶意程序
最近在做一个关键词排名工具，目的是为了能够批量抓取搜索结果页，并对网页进行分析。具体步骤是用webbrowser访问搜索结果页，然后分析webbrowser的 document.body.innerhtml
结果刚跑了20来个词，就被当成了恶意程序，只能读取到一个验证页面
如何才能避免这种情况出现呢？所有的自动化查询都不允许，还是只有指定的一些类型的自动化查询不被允许？我在每个词的处理间隙加了sleep随机的一段时间都不行。
[解决办法]
区别一个访客是真人还是一个三流程序员写的蠢笨的自动化程序并不需要什么特别的技巧。但是反过来，你想做坏事还不被发现，那你得费点心思了，没本事干坏事都干不来。
[解决办法]
你应该尊重人家网站，人家说你的是流氓，你说你自己不是，但是你改变不了人家。如果你硬要做那种事，首先要踏实地承认。
[解决办法]
写个换IP的过程不就行了。看抓几个挂了，私网不行就控制路由页换

热点排行

VB Dotnet

批量抓取网页时，怎么才能避免被认定为恶意程序