首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

正文抽取算法怎么知道recall和precision

2012-03-04 
正文抽取算法如何知道recall和precision?有的是用一个手工标注的测试集,但是我没有这个测试集啊,不知道有

正文抽取算法如何知道recall和precision?
有的是用一个手工标注的测试集,但是我没有这个测试集啊,不知道有没有好心人可以提供的?

偶写毕业论文~ 

另外的,就是随机挑选10多个网站,跑一遍,也不知道他们的结果是怎么算出来的,估计水分很大。

多谢~ 

比如说,这个算法的效果可以达到98%的准确率,没听人说过这样的话。

另外,10多个网站,我觉得这个样本怎么都比较少了,global的抽取器面对的是成千上万的网站,

一个网站取300个网页,有什么意思呢?结构都很雷同的。找300个网站,每个网站取10页还差不多。

最好是在google的库里,随机挑10万个内容页。哪位大侠帮我提供一下~

非常感谢啊~

[解决办法]
用TREC(TEXT RETRIEVAL CONFERENCE)吧!学术界通用的检索结果评估工具,包括标准查询语句和手工标注RELEVANT DOCUMENTS。

热点排行