网页信息提取
请大家帮帮忙,我最近想从博客中提取信息,包括该文章的标题和正文,忽略网页中的其他部分(广告,导航等),想做的通用,适合任何博客文章的标题和正文提取,有什么解决方案?在线等
[解决办法]
标题倒是很可能的。比如这个网页标题就在
《title》里
正文是不可能的了
[解决办法]
包括该文章的标题和正文
哥 文章的标题 一定有标签的
正文的话。
恐怕你要多分析些网页 了
[解决办法]
方案1:提取所有标签之间的字符,一般最长那个就是正文了
方案2:把这个网站里的所有博客网页随机提取一部分出来,让机器自己从平均意义分析哪一段文字是正文的可能性大一些,然后再按这个规则去提取
方案3:人为设置一些特征,按这些特征去识别
[解决办法]
设立配置文件 把每一类网站的格式放到配置文件中 让程序按照配置文件对相应类的网站进行提取 这样做对每一类网站只要在配置文件中添加格式就可以了 这样算半通用的把。。。
[解决办法]
这个说来话长。可以让网页进行投票的方法~~具体去看看论文
[解决办法]
我知道可以实现的, http://61.128.196.27/txt/