PyMining - 基于Python的数据挖掘平台来进行文本分类
http://code.google.com/p/python-data-mining-platform/
?
里面有介绍一些关于机器学习的一些算法。
?
从搜狗实验室下载语料
http://www.sogou.com/labs/dl/c.html
注:这些都是分好类别的?http://code.google.com/p/python-data-mining-platform/wiki/Additional_Tools
解压到d盘。
?
检出pymining代码?http://python-data-mining-platform.googlecode.com/svn/trunk/
?
将整个代码复制到一个python的项目。
?
将搜狗的语料转换成pymining的语料格式。
tools/sogou_importer.py
?
?
?一共8个类别,自行判断每个文件夹的新闻类别
?
将格式化后的语料复制到项目的example/data/目录下。在example目录下新建mining目录
?
?
开始测试分类的准确性:
在example/data/sougou_train.txt中复制一个语料保存到example/data/sougou_test.txt中(后面带一个数字,这个数字代表的一个新闻的类别)。格式要与sougou_train.txt的格式保持一致。
运行?example/naive_bayes_only_test.py
?
?
?
example/mining目录下会生成一些文件,这是pymining的一些学习模型,分类的时候可以加载这些文件来判别新的新闻来分类,或者直接在线的学习不加载这些文件。
参考http://code.google.com/p/python-data-mining-platform/wiki/Tutorial?
?
?
?
朝鲜人民军总参谋长李英浩被解职后,美韩不断猜测朝鲜内幕。据环球网报道,韩国《京乡新闻》22日分析称,“炸铜像事件可能成为朝鲜半岛紧张的新火种”,甚至揣测朝鲜可能借此牵制美国并实施第三次核试验。据京华时报报道,7月19日,朝方当天在首都平壤召开记者会,一名嫌疑人自称受韩国和美国情报机构指使,企图炸毁朝鲜建国领袖金日成的铜像。朝鲜外务省发言人20日表示,由于美国不改变其对朝敌视政策,朝鲜“不得不全面重新考虑核问题”。((0, 3.9413063433550935e-60), (1, 1.5063156437023602e-39), (2, 6.35241774643204e-48), (3, 2.2260167379491118e-68), (4, 7.13553884486322e-30), (5, 7.708008674579432e-40), (6, 1.5767993409024485e-48), (7, 0.06578001159339009), (8, 0.9342199884066099))?
(8, 0.9342199884066099)从这个可以看出,这个新闻属于我们的新闻类别中的第8类。
?
?