网页信息提取解决方法

2013-01-02

网页信息提取请大家帮帮忙，我最近想从博客中提取信息，包括该文章的标题和正文，忽略网页中的其他部分（广告，

网页信息提取
请大家帮帮忙，我最近想从博客中提取信息，包括该文章的标题和正文，忽略网页中的其他部分（广告，导航等），想做的通用，适合任何博客文章的标题和正文提取，有什么解决方案？在线等
[解决办法]
标题倒是很可能的。比如这个网页标题就在
《title》里
正文是不可能的了
[解决办法]
包括该文章的标题和正文

哥文章的标题一定有标签的

正文的话。

恐怕你要多分析些网页了
[解决办法]
方案1：提取所有标签之间的字符，一般最长那个就是正文了
方案2：把这个网站里的所有博客网页随机提取一部分出来，让机器自己从平均意义分析哪一段文字是正文的可能性大一些，然后再按这个规则去提取
方案3：人为设置一些特征，按这些特征去识别
[解决办法]
设立配置文件把每一类网站的格式放到配置文件中让程序按照配置文件对相应类的网站进行提取这样做对每一类网站只要在配置文件中添加格式就可以了这样算半通用的把。。。

[解决办法]
这个说来话长。可以让网页进行投票的方法~~具体去看看论文
[解决办法]
我知道可以实现的， http://61.128.196.27/txt/

热点排行

网络基础

网页信息提取解决方法