首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

seq2sparse(三)之TFParitialVectorReducer源码分析

2013-09-06 
seq2sparse(3)之TFParitialVectorReducer源码分析接着上篇seq2sparse系列,本次主要分析TFParitialVectorRe

seq2sparse(3)之TFParitialVectorReducer源码分析

接着上篇seq2sparse系列,本次主要分析TFParitialVectorReducer的源码。

打开该类文件,首先分析逻辑流。TFParitialVectorReducer有两个函数分别是setup和reduce,setup函数,主要是读取基本的参数设置,然后就是读取一个相对来说比较重要的变量(从文件中读取),如下代码:

  • --maxNGramSize (-ng) ngramSize      (Optional) The maximum size of ngrams to    
  •                                       create (2 = bigrams, 3 = trigrams, etc)     
  •                                       Default Value:1             由于默认是1,所以直接进入else中,代码如下:

    [sophomore->78643, moon's->59206, flamewar->38539, indiscriminately->47036, 
    下面是reduce中的for循环,首先第一个单词是from,在dictionary中查到的数字是39560,然后一次循环后vector值为{39560:1.0};两次循环后值为:{56411:1.0,39560:1.0}

    三次循环后:{56411:2.0,39560:1.0},由于第二次和第三次的单词一样,所以其对应的数字也是一样的,这样就会在vector中产生一个值,但是它的value是2;


    分享,快乐,成长


    转载请注明出处:http://blog.csdn.net/fansy1990 


  • 热点排行