【hadoop】大规模中文网站聚类kmeans的mapreduce实现(上)
由于前段时间期末考和放假,这篇文章推后了很多才出来。这是一个课程设计,主要是应用mapreduce对大规模的中文网站使用kmeans进行聚类,最后将相关的网站标记为同一类输出。
输入的每一行是网站的全局编号,对应有该网站的所有内容,包括未经处理的html等格式标记,输出为网站的全局编号,对应该网站属于的聚类编号。主要代码已经同步到github中,https://github.com/shenguojun/hadoop/tree/master/WebKmeans具体处理如下。
一 概述 大规模中文网站聚类可以应用在检测相似内容网页,以及对大量网页进行分类的应用中由于在互联网中有大量的中文的网页,普通的计算机无法对百万数量级以上的网页进行处理,因此使用 Hadoop 分布式计算平台对这些大规模的网页进行存储以及Mapreduce计算模型进行聚类分析处理。
输入数据说明(未经处理的原始网页):
Key (LongWritable) 每一个网页的全局 ID 号
Value (Text) 网页内容
输出数据说明(对每一个网页进行聚类标注):
Key (LongWritable) 每一个网页的全局 ID 号
Value (IntWritable) 该网页所属聚类中心编号
主要的流程分别为:提取中文字符,分词,去除停用词,统计每个单词在每个网页中出现的次数以及在多少个网页中出现、每个网页的总词数以及总共有多少个网页并计算 Tfidf值,生成网页向量,建立词表,随机选取 k 个网页作为中心点,迭代进行 kmeans 计算,经过最大的迭代次数或者中心点不再改变时输出最终的中心点,最后根据最终的中心点判断一次每个网页属于哪个哪一类并输出最后结果。关键的流程如下图所示。
项目类说明(代码请见https://github.com/shenguojun/hadoop/tree/master/WebKmeans) WordFrequenceInDocument:提取中文,分词,去停词,统计词频 下面对每个类进行具体的说明。
在其中提取中文使用正则表达式完成,主要代码如下:
输出类似如下:
中国公民@783 4
中国共产党@36 2
中国共产党@519 7
输出类似如下:
中国公民@783 4/1232
中国共产党@36 2/2895
中国共产党@519 7/3240
输出类似如下:
中国公民@783 0.02922078
中国共产党@36 0.00563378
中国共产党@519 0.01761862
词表:
中国公民 1859
中国共产党 1860