首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

seq2sparse(六)之TFIDFPartialVectorReducer源码分析

2013-09-05 
seq2sparse(6)之TFIDFPartialVectorReducer源码分析首先更正前篇博客中的错误的地方,看图即可看出来:可以

seq2sparse(6)之TFIDFPartialVectorReducer源码分析

首先更正前篇博客中的错误的地方,看图即可看出来:

seq2sparse(六)之TFIDFPartialVectorReducer源码分析

可以看到和前面猜测的值不对应,第一个怎么是93563,而不是93564?这个看源码就可以看出来了,我当时没有想透彻,key.get()应该是从零开始的,所以一共有93563个单词,key.get()获得的最大值应该是93562,然后最后加上++部分代码,就是93563了,这个确实是我当时没想好。

接着前篇blog的内容,本次应该分析到第六个Job了,且看源代码:

public double calculate(int tf, int df, int length, int numDocs) {    // ignore length    return sim.tf(tf) * sim.idf(df, numDocs);  }
上面代码参考 DefaultSimilarity API 即可看到公式。

分享,快乐,成长


转载请注明出处:http://blog.csdn.net/fansy1990 



热点排行