标题抽取效果:baidu vs google
最近在做标题抽取的工作。基于相似度的效果较之前改进了一点点,90.6%提高到91.56%。
测试了一下百度和google关于北大信息科学技术学院的”非标准网页“的标题抽取效果,发现google的比百度的强,至于我的方法因为没有抓取北大的 网页没法测;郑大的则由于google抓郑大的数据很少,也没法比较,不过可以和百度大学搜索比较,方法效果比百度的强:),直接看截图吧。
图中可以发现,google的效果比baidu的好很多,虽然也有部分错误。方法肯定是用机器学习训练出来的。
百度大学搜索:北大内 搜索“信息技术学院”
google搜索:北大信息科学技术学院内搜索“信息技术学院”
百度大学搜索:郑州大学内搜“信息工程学院”
p.s.? 附件中图片效果。
?
?
?
天网搜索:信息技术学院
?
?
眉湖通搜索:信息工程学院。