应对网络爬虫的解决办法
应对网络爬虫的解决方法不遵守robots.txt里协议的爬虫确实有点过分,每秒并发量太大,对服务器是一种致命的
应对网络爬虫的解决方法
不遵守robots.txt里协议的爬虫确实有点过分,每秒并发量太大,对服务器是一种致命的消耗。
我测试过tomcat6.018这个版本的应用服务器,每秒一万并发的时候就Heap out of Memory了,不是我我的机器不行吧?嘻嘻,如果用来攻击那些小型的网站,真合适不过。不过没那心情,也没那意思。
说了这么多废话,怎么解决呢?很简单,首页做成flash格式的。
爬虫通过网页源码来解析,好像爬虫不会解析flash吧?嘿嘿
第二种方式,首页用JavaScript载入网页。如果爬虫能执行JavaScript,就没办法了吗?
尼尼,呵呵。
还有其他解决方案,暂时保密。O(∩_∩)O哈哈哈~
1 楼 yajie 2009-07-21 我想各位的智商都比我高,都发表意见吧 2 楼 night_stalker 2009-07-21 google 有解析 flash 的算法,爬----墙看 googleblog …… 3 楼 yajie 2009-07-21 night_stalker 写道google 有解析 flash 的算法,爬----墙看 googleblog ……
据Google官方博客报道,Google已经开发了一种新的索引算法,可以索引Flash菜单、按钮以及横幅,或者其他有内容的Flash文件,最近,由Adobe公司提供的Flash技术,Google正在改善搜索引擎索引SWF文件的效果,新的Flash索引算法整合来Adobe的Flash Player技术。这将大为改善Flash内容的搜索效果。不过,尽管搜索引擎现在已经可以索引SWF文件中的静态文字和超级连接,但是复杂的动态Flash内容目前搜索引擎依旧无法索引。
目前,只能识别和索引Flash文件中的文本内容。如果您的Flash文件里只有图片,将不能识别和索引出现在这些图片中的任何文字。类似地,如果一个Flash按钮没有任何附属的文字的话,我们将无法对这类指向特定链接的Flash按钮生成任何錨文本
不足之处:
1、Googlebot不能执行某些类型的JavaScript程序。因此,如果您的网页通过JavaScript加载Flash文件的话,Google可能无法识别该Flash文件,在这种情况下,它将不会被索引到。
2、目前,我们还无法把那些通过您的Flash文件加载的外来内容和您的Flash文件整合起来。也就是说,如果您的Flash文件加载了一个HTML文件,或一个XML文件,或另一个SWF文件等等,Google将分别索引这些资源,但是它们将不会被认为是您Flash文件内容的一部分。
3、虽然我们能够索引在网络上出现的几乎所有语种的Flash,但在识别用双向语言书写的Flash内容还有一定困难。在这个问题解决之前,我们将无法识别和索引Flash文件中的希伯来文或阿拉伯文的内容。
唯一能解析flash的google也只不过解析点皮毛而已。 4 楼 execoo 2011-10-11 首页做成flash,别逗了~如果是个企业的网站,可能还有点谱~要是信息门户。。咳。。