首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 互联网 >

streaming kmean cluster 聚类算法实现跟分析

2013-10-15 
streaming kmean cluster 聚类算法实现和分析在项目开始的时候,对聚类算法作了调研,总共调研了三种算法,分

streaming kmean cluster 聚类算法实现和分析

    在项目开始的时候,对聚类算法作了调研,总共调研了三种算法,分别是kmeans 算法、streaming kmean算法、fast streaming kmean算法,这是在公司的第一个项目,收获还是很多的,无论是在项目还是在思维方式上,先说下自己在项目进行中的思维变化。

    场景选择

    之所以采用场景这个词,觉得还是很有代表性的,从学生到公司的员工,场景在变,学生的思维到员工的思维也在变,就拿算法来说,相同算法也是根据场景的变化。三种算法中,我一开始比较倾向于选择第三种,因为第二、三种算法都是来自顶级会议的论文,貌似很牛逼,自己花了2天时间分别实现了其中的算法也进行了评测,最终我们选择的是常规的kmeans算法,并稍作改进基本能满足系统要求,而且性能比后面两种要高很多。

    教训

    1.简单的算法往往非常有效2.算法都有它的应用场景,论文的算法到工程应用要做的改进有很多3.算法性能的优化是个长期的过程,而且工程中可以在时间和准确率上寻找到一个良好的平衡。4.工程中算法只是一个小模块,烂的算法可以靠其它的方法来补充达到比较好的效果。

    算法简介

    上面大体是从工作到现在的一些体会,基本都会在工作初期碰到,下面主要介绍下streaming kmeans的算法思想,虽然项目中没有用到,但其中的思想还是很有借鉴意义的,感兴趣的可以搜论文原文看看。从streaming可以看出,算法是基于流式的,文件中的数据只参与计算一次,算法对加入一篇文档到新的类别和产生新类的代价分别进行评估,当满足一定的阈值才会将文档添加到聚类中去或者产生新的聚类。算法和常见的kmeans算法主要有如下区别:

    a)所有文档只参与计算一次,不会重复参与计算

    b)聚类的个数是变化的,但是最终产生的聚类数目是小于等于k的

    c)添加到新类和产生新类需要满足一定条件的,不一定会选择最相似的类加入

    d)聚类的数目是动态变化的,而且文档的总数需要预估,文档的数量可以无限大,预估主要是为了对训练参数进行计算评估。

    算法的缺点:

    a)文档加入新类和产生新的聚类满足一定阈值和随机性,意味着聚类可能会越聚越不靠谱,中心点的偏差会逐渐变大

    b)训练参数过多,调试参数的过程比较痛苦,而且不一定能找到很有效的参数

    算法的源代码如下:

    cluster表示聚类,封装了些基本的操作。

由于这个算法的缺点比较明显,而且不适合我们的应用场景,项目没有用到这个算法,但是其思想我们还是借鉴了很多,而且对项目的提升也帮助很大,对于此算法可能的改进方式如下: a)去除随机的算法,采用基于共现的方法计算相似度 b)采用稀疏存储,对词建立索引,只和拥有相同词的聚类和文档计算,降低计算量。

热点排行