seq2sparse(6)之TFIDFPartialVectorReducer源码分析
首先更正前篇博客中的错误的地方,看图即可看出来:
可以看到和前面猜测的值不对应,第一个怎么是93563,而不是93564?这个看源码就可以看出来了,我当时没有想透彻,key.get()应该是从零开始的,所以一共有93563个单词,key.get()获得的最大值应该是93562,然后最后加上++部分代码,就是93563了,这个确实是我当时没想好。
接着前篇blog的内容,本次应该分析到第六个Job了,且看源代码:
public double calculate(int tf, int df, int length, int numDocs) { // ignore length return sim.tf(tf) * sim.idf(df, numDocs); }上面代码参考 DefaultSimilarity API 即可看到公式。
分享,快乐,成长
转载请注明出处:http://blog.csdn.net/fansy1990