首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

题目抽取效果:baidu vs google

2012-07-15 
标题抽取效果:baiduvsgoogle最近在做标题抽取的工作。基于相似度的效果较之前改进了一点点,90.6%提高到91.5

标题抽取效果:baidu vs google

最近在做标题抽取的工作。基于相似度的效果较之前改进了一点点,90.6%提高到91.56%。
测试了一下百度和google关于北大信息科学技术学院的”非标准网页“的标题抽取效果,发现google的比百度的强,至于我的方法因为没有抓取北大的 网页没法测;郑大的则由于google抓郑大的数据很少,也没法比较,不过可以和百度大学搜索比较,方法效果比百度的强:),直接看截图吧。

图中可以发现,google的效果比baidu的好很多,虽然也有部分错误。方法肯定是用机器学习训练出来的。

百度大学搜索:北大内 搜索“信息技术学院”


google搜索:北大信息科学技术学院内搜索“信息技术学院”


百度大学搜索:郑州大学内搜“信息工程学院”

p.s.? 附件中图片效果。
题目抽取效果:baidu  vs  google
?
题目抽取效果:baidu  vs  google
?
题目抽取效果:baidu  vs  google

?

天网搜索:信息技术学院

?


题目抽取效果:baidu  vs  google

?

眉湖通搜索:信息工程学院。


题目抽取效果:baidu  vs  google

1 楼 yycao 2010-07-17   最近也在做关于网页主题(标题)的提取工作,大体上通过统计大量网页中标题的标签特征,如位置,字体大小,标签名等来判别,但效果不是很理想,楼主能分享下心得,交流下提取方法嘛。 2 楼 shimo 2010-07-18   yycao 写道最近也在做关于网页主题(标题)的提取工作,大体上通过统计大量网页中标题的标签特征,如位置,字体大小,标签名等来判别,但效果不是很理想,楼主能分享下心得,交流下提取方法嘛。

我不是利用统计各个“单位文本”的属性特征(字体大小,颜色、位置etc.)来判别的。而是利用文本之间的相似度来算的,然后找出权值较大的,通过一些规则取其中一条。

热点排行