正文抽取算法怎么知道recall和precision

2012-03-04

正文抽取算法如何知道recall和precision？有的是用一个手工标注的测试集，但是我没有这个测试集啊，不知道有

正文抽取算法如何知道recall和precision？
有的是用一个手工标注的测试集，但是我没有这个测试集啊，不知道有没有好心人可以提供的?

偶写毕业论文~

另外的，就是随机挑选10多个网站，跑一遍，也不知道他们的结果是怎么算出来的，估计水分很大。

多谢~

比如说，这个算法的效果可以达到98%的准确率，没听人说过这样的话。

另外，10多个网站，我觉得这个样本怎么都比较少了，global的抽取器面对的是成千上万的网站，

一个网站取300个网页，有什么意思呢？结构都很雷同的。找300个网站，每个网站取10页还差不多。

最好是在google的库里，随机挑10万个内容页。哪位大侠帮我提供一下~

非常感谢啊~

[解决办法]
用TREC（TEXT RETRIEVAL CONFERENCE）吧！学术界通用的检索结果评估工具，包括标准查询语句和手工标注RELEVANT DOCUMENTS。

热点排行

网络基础

正文抽取算法怎么知道recall和precision