首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 数据库 > 数据库开发 >

PyMining - 基于Python的数据挖掘平台回进行文本分类

2012-10-30 
PyMining - 基于Python的数据挖掘平台来进行文本分类http://code.google.com/p/python-data-mining-platfo

PyMining - 基于Python的数据挖掘平台来进行文本分类

http://code.google.com/p/python-data-mining-platform/

?

里面有介绍一些关于机器学习的一些算法。

?

从搜狗实验室下载语料

http://www.sogou.com/labs/dl/c.html

注:这些都是分好类别的?http://code.google.com/p/python-data-mining-platform/wiki/Additional_Tools

解压到d盘。

?

检出pymining代码?http://python-data-mining-platform.googlecode.com/svn/trunk/

?

将整个代码复制到一个python的项目。

?


PyMining - 基于Python的数据挖掘平台回进行文本分类

将搜狗的语料转换成pymining的语料格式。

tools/sogou_importer.py

?

?

?

一共8个类别,自行判断每个文件夹的新闻类别

?

将格式化后的语料复制到项目的example/data/目录下。在example目录下新建mining目录

?

?

开始测试分类的准确性:

在example/data/sougou_train.txt中复制一个语料保存到example/data/sougou_test.txt中(后面带一个数字,这个数字代表的一个新闻的类别)。格式要与sougou_train.txt的格式保持一致。

运行?example/naive_bayes_only_test.py

?

?

?

example/mining目录下会生成一些文件,这是pymining的一些学习模型,分类的时候可以加载这些文件来判别新的新闻来分类,或者直接在线的学习不加载这些文件。

参考http://code.google.com/p/python-data-mining-platform/wiki/Tutorial?

?

?

?

朝鲜人民军总参谋长李英浩被解职后,美韩不断猜测朝鲜内幕。据环球网报道,韩国《京乡新闻》22日分析称,“炸铜像事件可能成为朝鲜半岛紧张的新火种”,甚至揣测朝鲜可能借此牵制美国并实施第三次核试验。据京华时报报道,7月19日,朝方当天在首都平壤召开记者会,一名嫌疑人自称受韩国和美国情报机构指使,企图炸毁朝鲜建国领袖金日成的铜像。朝鲜外务省发言人20日表示,由于美国不改变其对朝敌视政策,朝鲜“不得不全面重新考虑核问题”。((0, 3.9413063433550935e-60), (1, 1.5063156437023602e-39), (2, 6.35241774643204e-48), (3, 2.2260167379491118e-68), (4, 7.13553884486322e-30), (5, 7.708008674579432e-40), (6, 1.5767993409024485e-48), (7, 0.06578001159339009), (8, 0.9342199884066099))

?

(8, 0.9342199884066099)从这个可以看出,这个新闻属于我们的新闻类别中的第8类。

?

?

热点排行