首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > C++ Builder >

怎么抓取论坛文本

2013-12-05 
如何抓取论坛文本我想要抓取一些股票论坛上的评论,但是现在思路不太清晰。1.抓取前的关键字如何确定?2.抓下

如何抓取论坛文本
我想要抓取一些股票论坛上的评论,但是现在思路不太清晰。
1.抓取前的关键字如何确定?2.抓下来以后的页面是什么格式,如何导入数据库呢?3.请问有可以直接利用的网络爬虫工具吗?4.如果没有,需要学习哪些语言或软件?
拜谢!
[解决办法]

1)如果要抓取页面信息的话基本上有两种方式,一种是使用OLE连接IE或内嵌的CppWebBrowser或WebBrowser

这种方式的优点是功能强大,可以通过运行JS脚本等手段直接提取任何数据;缺点也很明显,就是速度慢,消耗系统资源多,适合于提取少量数据或复杂的功能性页面的数据

2)另一种就是直接通过IdHTTP控件下载网页,下载后的文件保存为html格式,这种方法的优点是速度快,消耗系统资源少,缺点也很明显,就是网页脱离了原始域名后无法提取功能性数据,某些网页的数据可能无法下载到

当你要操作一些特殊网页,如淘宝、大多数股票网站数据时建议使用第一种方法;当你仅仅对网页文本感兴趣的,如小说网站、论坛数据等可以使用第二种方法

1.抓取前的关键字如何确定?
第一种方法关键字可以是控件或JS函数名来找到或执行后直接取得最直接的数据,第二种方法可以是正文两端的特殊字符串,然后用正则提取,比如csdn页面是“置顶推荐锁定移动编辑删除帖子加分帖子高亮结帖发帖回复”和“管理菜单 ”,通过这两个关键字就可以提取到论坛帖子的正文了。

2.抓下来以后的页面是什么格式,如何导入数据库呢?

第一种是文本,第二种是html,导入数据库的方法要根据你的需求

3.请问有可以直接利用的网络爬虫工具吗?
有好多,网上一大把

4.如果没有,需要学习哪些语言或软件?
大多数语言和开发工具都可以,比如用bcb就可以了,第一种方法你可能需要学习一点JavaScript

热点排行