首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

Twenty Newsgroups Classification任务之二seq2sparse(五)

2013-10-08 
Twenty Newsgroups Classification任务之二seq2sparse(5)接上篇blog,继续分析。接下来要调用代码如下:这里

Twenty Newsgroups Classification任务之二seq2sparse(5)

接上篇blog,继续分析。接下来要调用代码如下:


这里就再次说明了reduce接受的key的个数比单词数多了一个即93564;

其次,在新建dictionary块的时候也有不同的地方,首先调用的类是TFIDFConverter。但是其操作基本一样,看到下面的代码:

if (key.get() >= 0) {          freqWriter.append(key, value);        } else if (key.get() == -1) {          vectorCount = value.get();        }        featureCount = Math.max(key.get(), featureCount);      }      featureCount++;      Long[] counts = {featureCount, vectorCount};      return new Pair<Long[], List<Path>>(counts, chunkPaths);
这里确实是有多一个key为-1的记录,然后featureCount应该是记录vector的key值,在++之前应该是18846,在++之后就是18847了,所以counts应该为[18847,93564];这个可以通过设置断点来查看;具体下次分析,还有下面两个Job其实应该是和seq2sparse(3)、(4)类似了,只是分析的数据的vector由单词转换为了数值,其他都一样,这样分析之后,后面两个Job就很简单了,然后就是最后的算法精髓了。然后就这个算法就分析完了吧(感觉看了好久的样子。。。)

分享,快乐,成长


转载请注明出处:http://blog.csdn.net/fansy1990 


热点排行