不通过现有的搜索引擎,怎么采集网址?
现在需要写个项目,需求每天都能够采集到十万左右不同的有效网站。
不通过现有的搜索引擎(原因是经常封IP),怎么采集网址?
搜索引擎是怎么一天找到几千万甚至几亿个网址的?
路过的大神们讨论下吧。了解这个技术的透露一下啊!
[解决办法]
有一种叫“爬虫”之类的技术,具体也没做过,搜索下看,应该有示例的。
除了收集网站(址),一般还有收集邮箱、手机、QQ、电话等