数据挖掘简单快速方法
估计上csdn找资料的也不会搞的太深,所以我这套入门级的方法应该够用了。很简单方便。
用spoon搞定一切(基于kettle)。
spoon的文档比较恶心。好多东西得自己去摸索。
Perspective实际上把spoon分成了不同的3个软件,做预提取用第一个,做分析用第二个(Model),第3个是从第二个跳过去的。
第一个就别管job这种东西了。直接新建一个转换,框图的每一步叫step,step列表在左边核心对象那。
用输入模块的组建读取数据(我一般用文本文件),里面各个按钮的设置得自己摸索,文档有说,建议对着官方文档来摸索,注意正则表达式在spoon中到处都是。例如匹配所有字符串 .* 具体的网上有个20分钟学会正则表达式。
转换模块的各个组建都该自己挨个摸索一下,这种主要用到的。主要包括域(field)操作和字符串操作两种,建议不要过早把字符串转换成数值类型(字段选择),多用字符串操作。
还有就是整个系统最有用的是flow里面的 过滤记录 组件 和 脚本里面的正则表达式计算。一个能过滤你不想要的记录,或者是选出某种符合条件记录进行特殊操作,一个能在原field很方便的产生新field(通过正则表达式匹配,用括号括起来的部分就是新field,例如.*(\d\d\d\d_\d\d).* ,中间括号里的数字序列就是新域。
输出的很简单,建议用数据库表输出。挨个研究下那个表输出组件的里面的意思吧。建议在组建里执行sql语句建表,别在数据库里。还有spoon默认的sql语句对大小的分配不是很好,记得自己调整。
model域,直接读入数据进行分析的,界面很简单,一看一般用analyzer不用report,文件那新建一个model后,傻子都会操作啦。
model添加完属性,点go,就跳转到第三个perspective分析了,几乎能得出任何你想要的信息的。除非你要查关联、聚类或分类啥的数据挖掘操作,如果真要用到的话,查查weka有没有,不过没有专业背景很难入手的,而且weka的算法很少,rapidminer好很多。不过还是用matlab吧。