正文抽取算法如何知道recall和precision?
有的是用一个手工标注的测试集,但是我没有这个测试集啊,不知道有没有好心人可以提供的?
偶写毕业论文~
另外的,就是随机挑选10多个网站,跑一遍,也不知道他们的结果是怎么算出来的,估计水分很大。
多谢~
比如说,这个算法的效果可以达到98%的准确率,没听人说过这样的话。
另外,10多个网站,我觉得这个样本怎么都比较少了,global的抽取器面对的是成千上万的网站,
一个网站取300个网页,有什么意思呢?结构都很雷同的。找300个网站,每个网站取10页还差不多。
最好是在google的库里,随机挑10万个内容页。哪位大侠帮我提供一下~
非常感谢啊~
[解决办法]
用TREC(TEXT RETRIEVAL CONFERENCE)吧!学术界通用的检索结果评估工具,包括标准查询语句和手工标注RELEVANT DOCUMENTS。