搜索引擎怎么获取库中的数据
如题,网页比较好获取,但是比如论坛,他们是以库的形式表现的,怎么获取库中的数据
[解决办法]
搜索引擎不太可能搜索到库一级的。
索引这种资源,更大程度要靠网民自己,比如百度百科就是一类把互联网上你说的这种“库”资源调动起来为大家服务的一种更好的方式。
爬虫搜索一般都用在新闻网站上。
[解决办法]
论坛中的内容....爬虫可以去分析各个动态网页URL之间的参数...找到规律...就能遍历全部网页,从而抓取到数据库中存储的数据.
当然,对于动态网页,搜索引擎一般不太喜欢去抓,除非一些RANK值特别高的网页.
[解决办法]
楼上...nod
动态网页呈现是有规律的,比如fid=***&tid=...,你根据论坛不同的子类和下面不同的帖子,看看URL的变化规律,就可以抓了,实在不行,可以先用一些工具试试,如火车头