关于网络蜘蛛的有关问题

2012-02-16

高分求教关于网络蜘蛛的问题对那些需要用户口令的页面网络蜘蛛是如何抓取的？而且有时候google也给我这种感

高分求教关于网络蜘蛛的问题
对那些需要用户口令的页面网络蜘蛛是如何抓取的？而且有时候google也给我这种感觉，有很多论坛，确实可以搜到，但是打开的时候确实需要登陆才能访问。这个我就实在不太明白了！他们是通过什么来抓取的？难道有后门？另外对于动态网页的抓取又是如何实现的？

[解决办法]
我查到的资料是，类似于BAIDU，GOOGLE ，网站们会给他们留出专门的后门，好像是专门的用户名和密码。好方便他们登录进入抓取。

而对于普通的论坛之类，编程实现时应该是传递cookie值，来登录进入。并抓取。如果你计算不出来这个论坛的cookie，也可以用手工在浏览器里登录，生成了cookie之后，再用蜘蛛程序传递这个cookie的方法登录进入。

我现在在用c# 编写蜘蛛程序，因为是刚学c# 不知道怎么传递cookie，正在郁闷。网上的资料好少。

以上是我的实现思路，不一定全部正确，希望能够对你有帮助。

我是新手，刚开始学着搞搜索，发现网上适合新手的资料好少。希望能和你交个朋友，大家能够共同学习，好过自己孤军奋战。呵呵。我的QQ是 549489 有兴趣的话加我。加我时请注明搜索引擎。^_^
[解决办法]
LS...nod
天下没有免费的午餐,一些开源的论坛可以留后门的。
你查查登录后Cookie的样式，模拟一个
[解决办法]
cookie是放到HTTP头中的，发送GET/POST命令时把COOKIE值带过去就可以了。

关于动态网页，没有什么特殊的抓取方法，无论是静态还是动态，抓取后都是
HTML/JS/CSS等BROWSE客户端脚本语言。动态网页的问题在于动态网页的
URL可能是多个参数合成的，有可能不同URL得到的是完全相同或类似的页面，
所以搜索引擎在处理这些页面时复杂度和需要存储的内容成级数增长，没有
静态页面处理那么顺畅。不过现有的搜索引擎对动态网页的抓取已经很成熟了。

这里是一个搜索引擎原型演示：
http://netsoft.cnstar.ca/topic.php?a=disp&id=16

热点排行

网络基础

关于网络蜘蛛的有关问题