首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > VB >

-有过站长经验的师傅 爬虫频率的合理取值是多少

2012-01-15 
求助--------有过站长经验的师傅爬虫频率的合理取值是多少我编写了一个主题爬虫一切基本就绪就是一个问题

求助--------有过站长经验的师傅 爬虫频率的合理取值是多少
我编写了一个主题爬虫 一切基本就绪 就是一个问题还没有解决  
爬取频率 !
我周围没有人当过站长 所以我不知道 对于一个网站来说 怎样的爬取频率算是合理  
给别人方便就是给自己方便 所以我不想我的爬虫给人家的网站 带来过分的负荷  
本来想参考 百度爬虫 和谷歌爬虫 他们的频率是多少 可是 百度了半天也没有找到 所以 请大家帮个忙

请保守的告诉 1 合理的爬虫的爬取频率  
  2 百度爬虫的爬取频率
  3 谷歌爬虫的爬取频率
  4 站长介意的是一天访问数,还是每秒的访问数,还是两个他都介意。 解释如下:
站长介意的是 每秒的访问数 还是一天的访问数总和  
为什么这么问 我是想 如果人家规定一天不能超过 1000次的话 那我可以 连续爬取1000后停止 不对每秒的访问次数设限制 这样程序以最快的速度爬取1000次后停止 节约程序运行的时间  
如果人家介意的每秒的爬取数 比如说 每秒不能超过10次的话 那我可以设为每秒2次 然后让程序24小时 自己跑去


谢谢!!!

[解决办法]
通常的网站分为几种形式:
1、租用空间
这种模式通常是由空间提供商为每个租用的站点做限制,关键参数如:同时连接数、CPU占用率、
空间大小、支持脚本或技术等。通常这种类型的网站都是些门户型的网站,对于这类网站,通常
的站长不会很专业,即使你去刷它也没关系,因为数据量不算大,刷一下就没数据了,而且对于
系统资源,也会被空间提供商限制,不会赵成什么太大的影响。
2、租用虚拟主机
这种方式其实就是在服务器开几个虚拟机,然后有几个IP通道出去,每个虚拟机相对都是独立的,
可以像真实的主机一样进行远程控制和配置系统,区别在于资源可能比独立真实的主机少点,但
可以完成很多租用空间做不到的工作,比如自己定制 ISAPI、CGI 接口处理特殊脚本或安装特殊
组件等,还可以自己配置虚拟主机的安全。对于这类型的站点,通常要求服务器管理人员有一定
的服务器管理基础和 WEB 开发基础,不然服务器很容易被黑客或病毒攻击。对于这类型的站点对
方有可能采用各种手段来处理他们的站点,如 ISAPI、NSAPI、CGI、ActiveX、COM、BHO 等
技术综合来处理关键的 WEB 信息,若是对方拥有应用程序的 WEB 开发技术、架构和整个 HTTP
协议都比较了解,如过对方有心要识别和验证用户的来源,那是很难刷的。
3、主机托管或主机租用
这种方式其实和虚拟主机差不多,只是得到更大的资源和速度。

这么说吧,无论什么类型的站点,如果他的站点访问的人比较多,每个站长都不会觉得自己的站点快,
所以总会做一些防止盗链或刷网的东西来提高正常使用的效率,对于大多数站长而言,能具备应用程序
与 WEB 开发和管理技术的并不多,通常对方只是从 WEB 脚本和服务器管理上入手,所以很多站点都
可以很容易的刷他们。至于所谓的控制频率,只不过是你想隐藏自己的一种手法,但别人发现你在刷他
并采取行动未必就只靠这个参数对你做出识别。所以只要你按照你人工方式的速度来弄,基本上不会因
为这个参数被发现,至于其他的,你还得研究对方的手段再做出针对性的处理。
其实这种事情就像攻防战一样,很累人的,要想程序正常只有不停的改,不停的去适应变化。即使你成功
了一段时间,对方发现了也会做出相应的调整,那时候如果你不去应对,程序就废了。
[解决办法]
相关的你可以去落伍者问问看看吧,全国最大的站长集聚地,好像id注册还得邀请码的。。

热点排行