首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

网页信息提取解决方法

2013-01-02 
网页信息提取请大家帮帮忙,我最近想从博客中提取信息,包括该文章的标题和正文,忽略网页中的其他部分(广告,

网页信息提取
请大家帮帮忙,我最近想从博客中提取信息,包括该文章的标题和正文,忽略网页中的其他部分(广告,导航等),想做的通用,适合任何博客文章的标题和正文提取,有什么解决方案?在线等
[解决办法]
标题倒是很可能的。比如这个网页标题就在
《title》里
正文是不可能的了
[解决办法]
包括该文章的标题和正文

哥  文章的标题 一定有标签的

正文的话。

恐怕你要多分析些网页 了
[解决办法]
方案1:提取所有标签之间的字符,一般最长那个就是正文了
方案2:把这个网站里的所有博客网页随机提取一部分出来,让机器自己从平均意义分析哪一段文字是正文的可能性大一些,然后再按这个规则去提取
方案3:人为设置一些特征,按这些特征去识别
[解决办法]
设立配置文件   把每一类网站的格式放到配置文件中   让程序按照配置文件对相应类的网站进行提取 这样做对每一类网站只要在配置文件中添加格式就可以了    这样算半通用的把。。。

[解决办法]
这个说来话长。可以让网页进行投票的方法~~具体去看看论文
[解决办法]
我知道可以实现的, http://61.128.196.27/txt/

热点排行