求助--------有过站长经验的师傅 爬虫频率的合理取值是多少
我编写了一个主题爬虫 一切基本就绪 就是一个问题还没有解决
爬取频率 !
我周围没有人当过站长 所以我不知道 对于一个网站来说 怎样的爬取频率算是合理
给别人方便就是给自己方便 所以我不想我的爬虫给人家的网站 带来过分的负荷
本来想参考 百度爬虫 和谷歌爬虫 他们的频率是多少 可是 百度了半天也没有找到 所以 请大家帮个忙
请保守的告诉 1 合理的爬虫的爬取频率
2 百度爬虫的爬取频率
3 谷歌爬虫的爬取频率
4 站长介意的是一天访问数,还是每秒的访问数,还是两个他都介意。 解释如下:
站长介意的是 每秒的访问数 还是一天的访问数总和
为什么这么问 我是想 如果人家规定一天不能超过 1000次的话 那我可以 连续爬取1000后停止 不对每秒的访问次数设限制 这样程序以最快的速度爬取1000次后停止 节约程序运行的时间
如果人家介意的每秒的爬取数 比如说 每秒不能超过10次的话 那我可以设为每秒2次 然后让程序24小时 自己跑去
谢谢!!!
[解决办法]
通常的网站分为几种形式:
1、租用空间
这种模式通常是由空间提供商为每个租用的站点做限制,关键参数如:同时连接数、CPU占用率、
空间大小、支持脚本或技术等。通常这种类型的网站都是些门户型的网站,对于这类网站,通常
的站长不会很专业,即使你去刷它也没关系,因为数据量不算大,刷一下就没数据了,而且对于
系统资源,也会被空间提供商限制,不会赵成什么太大的影响。
2、租用虚拟主机
这种方式其实就是在服务器开几个虚拟机,然后有几个IP通道出去,每个虚拟机相对都是独立的,
可以像真实的主机一样进行远程控制和配置系统,区别在于资源可能比独立真实的主机少点,但
可以完成很多租用空间做不到的工作,比如自己定制 ISAPI、CGI 接口处理特殊脚本或安装特殊
组件等,还可以自己配置虚拟主机的安全。对于这类型的站点,通常要求服务器管理人员有一定
的服务器管理基础和 WEB 开发基础,不然服务器很容易被黑客或病毒攻击。对于这类型的站点对
方有可能采用各种手段来处理他们的站点,如 ISAPI、NSAPI、CGI、ActiveX、COM、BHO 等
技术综合来处理关键的 WEB 信息,若是对方拥有应用程序的 WEB 开发技术、架构和整个 HTTP
协议都比较了解,如过对方有心要识别和验证用户的来源,那是很难刷的。
3、主机托管或主机租用
这种方式其实和虚拟主机差不多,只是得到更大的资源和速度。
这么说吧,无论什么类型的站点,如果他的站点访问的人比较多,每个站长都不会觉得自己的站点快,
所以总会做一些防止盗链或刷网的东西来提高正常使用的效率,对于大多数站长而言,能具备应用程序
与 WEB 开发和管理技术的并不多,通常对方只是从 WEB 脚本和服务器管理上入手,所以很多站点都
可以很容易的刷他们。至于所谓的控制频率,只不过是你想隐藏自己的一种手法,但别人发现你在刷他
并采取行动未必就只靠这个参数对你做出识别。所以只要你按照你人工方式的速度来弄,基本上不会因
为这个参数被发现,至于其他的,你还得研究对方的手段再做出针对性的处理。
其实这种事情就像攻防战一样,很累人的,要想程序正常只有不停的改,不停的去适应变化。即使你成功
了一段时间,对方发现了也会做出相应的调整,那时候如果你不去应对,程序就废了。
[解决办法]
相关的你可以去落伍者问问看看吧,全国最大的站长集聚地,好像id注册还得邀请码的。。