定时自动抓取百度网页内容的解决方案
我想实现这样一个功能,在我的asp.net网站首页后台代码中,实现定时抓取百度指数页的相关数据,比如搜索程序员的结果:
http://zhishu.baidu.com/main/word.php?word=%B3%CC%D0%F2%D4%B1
折取这里几个关键字:
[img=http://my.csdn.net/my/album/detail/1100689#][/img]
大概5天左右,自动抓取一次,存到数据库。请给个详细思路参考下。谢谢。
[解决办法]
你这个最好单独写个cs程序,单独抓取数据,然后放到数据库。
时间间隔的话可以用Timer。
[解决办法]
你把这个页面down下来,然后用正则分析html代码不就OK了。
用HttpWebRequest、WebClient,内容是异步的话用WebBrowser
然后把匹配出来的东西存到数据库,类似网络爬虫。
自己去查查相关资料