weka预测新浪微博有效用户
下载和安装就不说了
?
参考文档:
1. Use Weka in your Java code?? ==>? http://weka.wikispaces.com/Use+Weka+in+your+Java+code#Examples
2. 图形化界面使用步骤? ==>? http://www2.tech.purdue.edu/cit/Courses/CIT499d/
3. Weka使用笔记? ==>? http://hi.baidu.com/luowenhan2008/blog/item/e9e37f19f20093a14bedbce8.html
4. weka软件中bayes分类器的使用==> http://hi.baidu.com/%CF%FE%D4%C2%B7%C9%B7%C9/blog/item/d3062c1eab3ae869f624e4e4.html
?
中文乱码解决:将安装文件夹内的RunWeka.ini文件打开,将fileEncoding的值Cp1252换成Cp936
1. txt文件转化为arff文件:
?
一、Weka使用:
1. 启动Weka-3-6/Weka 3.6,打开窗口Weka GUI Chooser如下
?
2. 点击Explorer按钮后出现如下窗口
?
--Preprocess选项卡:
??? (1)Open file,浏览到.artff文件(我抓取的用户信息,经过人工识别有效用户)
? ? (2)Class: 有效用户(Nom),表示统计的变量是“有效用户”这一个属性
??????? Visualize All,可以观察到的每张柱状图是“某个属性的划分的个数统计”;蓝色表示有效用户,红色表示无效用户。
?
--Classify选项卡:
? ? (1)Classifier/Choose按钮可以选择分类“方法”
??? (2)Test options
?? ? ??? Percentage split %80,表示.artff文件中前80%为训练集,后%20为测试集
???????? (Nom)有效用户,表示NaiveBayes分类中的“类别”是属性“有效用户”的几个划分(∈{y,n})
???????? 点击 Start按钮 就开始按照上面的设置“将.artff文件前80%作为训练集构造NaiveBayes分类器,然后将20%作为测试集评估分类器”
实验结果如下:
类比“入侵检测”中:降低误报率,降低漏报率。两者是矛盾的,如何权衡
?
注:写一个文件编码转换器 i.e. gbk->utf-8