streaming kmean cluster 聚类算法实现跟分析

2013-10-15

streaming kmean cluster 聚类算法实现和分析在项目开始的时候，对聚类算法作了调研，总共调研了三种算法，分

streaming kmean cluster 聚类算法实现和分析

在项目开始的时候，对聚类算法作了调研，总共调研了三种算法，分别是kmeans 算法、streaming kmean算法、fast streaming kmean算法，这是在公司的第一个项目，收获还是很多的，无论是在项目还是在思维方式上，先说下自己在项目进行中的思维变化。

场景选择

之所以采用场景这个词，觉得还是很有代表性的，从学生到公司的员工，场景在变，学生的思维到员工的思维也在变，就拿算法来说，相同算法也是根据场景的变化。三种算法中，我一开始比较倾向于选择第三种，因为第二、三种算法都是来自顶级会议的论文，貌似很牛逼，自己花了2天时间分别实现了其中的算法也进行了评测，最终我们选择的是常规的kmeans算法,并稍作改进基本能满足系统要求，而且性能比后面两种要高很多。

教训

1.简单的算法往往非常有效2.算法都有它的应用场景，论文的算法到工程应用要做的改进有很多3.算法性能的优化是个长期的过程，而且工程中可以在时间和准确率上寻找到一个良好的平衡。4.工程中算法只是一个小模块，烂的算法可以靠其它的方法来补充达到比较好的效果。

算法简介

上面大体是从工作到现在的一些体会，基本都会在工作初期碰到，下面主要介绍下streaming kmeans的算法思想，虽然项目中没有用到，但其中的思想还是很有借鉴意义的，感兴趣的可以搜论文原文看看。从streaming可以看出，算法是基于流式的，文件中的数据只参与计算一次，算法对加入一篇文档到新的类别和产生新类的代价分别进行评估，当满足一定的阈值才会将文档添加到聚类中去或者产生新的聚类。算法和常见的kmeans算法主要有如下区别：

a)所有文档只参与计算一次，不会重复参与计算

b)聚类的个数是变化的，但是最终产生的聚类数目是小于等于k的

c)添加到新类和产生新类需要满足一定条件的，不一定会选择最相似的类加入

d)聚类的数目是动态变化的，而且文档的总数需要预估，文档的数量可以无限大，预估主要是为了对训练参数进行计算评估。

算法的缺点：

a)文档加入新类和产生新的聚类满足一定阈值和随机性，意味着聚类可能会越聚越不靠谱，中心点的偏差会逐渐变大

b)训练参数过多，调试参数的过程比较痛苦，而且不一定能找到很有效的参数

算法的源代码如下：

cluster表示聚类，封装了些基本的操作。

#!/usr/bin/python#-*-coding:utf-8-*-import sysimport osfrom streamkcluster import *import string"""    @author: xyl    test the streamkmeans"""def streamkm(corpus,numCluster):    skcluster = streamkcluster()    contentstream = open(corpus)    lindex = 0    offset = 0    dimension = 0    for line in contentstream:        arr = line.strip().split()        if lindex == 0:            if len(arr)!=2:print "parameters error!";sys.exit()            row = int(arr[0])            dimension = int(arr[1])            skcluster.confInit(numCluster,row,2.0,2.0,2.0,216.25,42.25)            skcluster.clusterInit()            skcluster.outparam()            lindex +=1        else:            ids = int(arr[0])            point = []            for p in xrange(dimension):point.append(0.0)            for cindex in xrange(1,len(arr)):                ar = arr[cindex].split(':')                column = int(ar[0])                val = string.atof(ar[1])                point[column] = val            skcluster.addVectors(point,ids)            print "adding point:",ids    skcluster.outResult()   streamkm(sys.argv[1],sys.argv[2])

由于这个算法的缺点比较明显，而且不适合我们的应用场景，项目没有用到这个算法，但是其思想我们还是借鉴了很多，而且对项目的提升也帮助很大，对于此算法可能的改进方式如下： a)去除随机的算法，采用基于共现的方法计算相似度 b)采用稀疏存储，对词建立索引，只和拥有相同词的聚类和文档计算，降低计算量。

热点排行

互联网

streaming kmean cluster 聚类算法实现跟分析