要开发一个论坛帖子采集系统,请各位给些意见
工作需要,要开发一个能采集各大论坛帖子的系统,是采用JAVA开发。
有些过类似的定向采集系统的朋友吗?能不能说下怎么做比较好?
已经试用了下nutch和heritrix,还试图定制heritrix的一些模块,但是感觉比较麻烦。
难道要自己用httpclient开始写?!
[解决办法]
看你想要做到什么程度了。。 其实简单的采集就用正则就好了。。 无非就是一些规则的更改。。去噪可能稍微麻烦点。。。
[解决办法]
帮顶起来,不让帖子沉了
[解决办法]
需要针对某个论坛的话,那就简单啊,直接去查看那里面的HTML源码,看看自己需要的内容在哪个地方,取取来就行