数据挖掘分类及常用算法
基于学习策略的分类
机械学习
传授学习
类比学习
归纳学习
基于解释的学习
基于学习方式的分类
(1)有导师学习(监督学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。
(2)无导师学习(非监督学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。
(3)强化学习(增强学习):以环境反馈(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法
基于数据形式的分类
(1)结构化学习:以结构化数据为输入,以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。
(2)非结构化学习:以非结构化数据为输入,典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。
基于学习目标的分类
(1)概念学习:即学习的目标和结果为概念,或者说是为了获得概念的一种学习。典型的概念学习有示例学习。
(2)规则学习:即学习的目标和结果为规则,或者说是为了获得规则的一种学习。典型的规则学习有决策树学习。
(3)函数学习:即学习的目标和结果为规则,或者说是为了获得函数的一种学习。典型的函数学习有神经网络学习。
(4)类别学习:即学习的目标和结果为对象类,或者说是为了获得类别的一种学习。典型的类别学习有聚类分析。
(5)贝叶斯网络学习:即学习的目标和结果是贝叶斯网络,或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和参数学习。
数据挖掘任务有两类:
第一类是描述性挖掘任务:刻划数据库中数据的一般特性;
第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。
定义:关联分析 (association analysis):发现关联规则,这些规则展示“属性—值”频繁地在给定数据集中一起出现的条件。
(2)实例
age(x, “20..29”) ? income(X, “20K..29K”) ?
buys(X, “CD_player”) [support = 2%, confidence = 60%]
Diaper ? Beer [0.5%, 75%]
定义
分类 (classification):通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。
(2)分类模型的导出方式
分类规则(IF-THEN)、决策树、数学公式、神经网络等。决策树 gini系数确定分裂属性
定义
聚类 (clustering):将类似的数据归类到一起,形成一个新的类别进行分析。
(2)聚类或分组的原则
“最大化类内的相似性、最小化类间的相似性”
对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。
聚类(簇):数据对象的集合
在同一个聚类(簇)中的对象彼此相似
不同簇中的对象则相异
聚类分析
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
聚类是一种无指导的学习:没有预定义的类编号
聚类分析的数据挖掘功能
作为一个独立的工具来获得数据分布的情况
作为其他算法(如:特征和分类)的预处理步骤
?给定k, k-平均算法由以下四步来完成::
?把对象划分为k个非空的子集
?随机的选择一些种子点作为目前划分的簇的质心。质心是簇的中心(平均点)
?把每一个对象赋给最近的种子点
?重复第二步,直到没有新的分配
详见本人百度文库