首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

Twenty Newsgroups Classification任务之二seq2sparse(一)

2013-09-06 
Twenty Newsgroups Classification任务之二seq2sparse(1)seq2sparse对应于mahout中的org.apache.mahout.ve

Twenty Newsgroups Classification任务之二seq2sparse(1)

seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles,从昨天跑的算法中的任务监控界面可以看到这一步包含了7个Job信息,分别是:(1)DocumentTokenizer(2)WordCount(3)MakePartialVectors(4)MergePartialVectors(5)VectorTfIdf Document Frequency Count(6)MakePartialVectors(7)MergePartialVectors。打印SparseVectorsFromSequenceFiles的参数帮助信息可以看到如下的信息:

key:4096,document[today, also, late.what, about, tomorrow]
其中,TokenStream有一个stopwords属性,值为:[but, be, with, such, then, for, no, will, not, are, and, their, if, this, on, into, a, or, there, in, that, they, was, is, it, an, the, as, at, these, by, to, of],所以当遇到这些单词的时候就不进行计算了。

额,又太晚了。哎,早困了,刷个牙线。。。



分享,快乐,成长


转载请注明出处:http://blog.csdn.net/fansy1990 



热点排行