商家名称 | 信用等级 | 购买信息 | 订购本书 |
数据库:数据仓库与数据挖掘技术[平装] | |||
数据库:数据仓库与数据挖掘技术[平装] |
《数据仓库与数据挖掘技术》是教育部“高等学校教学质量与教学改革工程”立项项目。
第1章 数据挖掘和数据仓库概述1
1.1 数据挖掘引论1
1.1.1 数据挖掘的由来1
1.1.2 数据挖掘的定义2
1.1.3 数据挖掘的功能3
1.1.4 数据挖掘的常用方法4
1.2 数据仓库引论5
1.2.1 数据仓库的产生与发展5
1.2.2 数据仓库的定义6
1.2.3 数据仓库与数据挖掘的联系与区别6
1.3 数据挖掘的应用7
1.3.1 数据挖掘的应用领域7
1.3.2 数据挖掘案例9
1.4 常用数据挖掘工具12
1.4.1 数据挖掘工具的种类13
1.4.2 评价数据挖掘工具优劣的指标14
1.4.3 常用数据挖掘工具14
小结18
习题118
第2章 数据仓库20
2.1 数据仓库的基本概念20
2.2 数据仓库的体系结构25
2.2.1 元数据26
2.2.2 粒度的概念28
2.2.3 分割问题29
2.2.4 数据仓库中的数据组织形式30
2.3 数据仓库的数据模型31
2.3.1 概念数据模型32
2.3.2 逻辑数据模型32
2.3.3 物理数据模型33
2.3.4 高层数据模型、中间层数据模型和低层数据模型33
2.4 数据仓库设计步骤34
2.4.1 概念模型设计34
2.4.2 技术准备工作36
2.4.3 逻辑模型设计36
2.4.4 物理模型设计38
2.4.5 数据仓库的生成38
2.4.6 数据仓库的使用和维护39
2.5 利用sql server 2005构建数据仓库41
小结50
习题250
第3章 联机分析处理技术51
3.1 olap概述51
3.1.1 olap的由来51
3.1.2 olap的一些基本概念51
3.1.3 olap的定义与特征52
3.2 olap中的多维分析操作52
3.2.1 钻取53
3.2.2 切片和切块53
3.2.3 旋转53
3.3 olap的基本数据模型55
3.3.1 多维联机分析处理55
3.3.2 关系联机分析处理56
3.3.3 molap和rolap的比较57
3.3.4 混合型联机分析处理58
3.4 olap的衡量标准58
3.5 基于sql server 2005的olap实现60
小结72
习题372
第4章 数据预处理73
4.1 数据预处理概述73
4.1.1 原始数据中存在的问题73
4.1.2 数据预处理的方法和功能74
4.2 数据清洗74
4.2.1 属性选择与处理74
4.2.2 空缺值处理75
4.2.3 噪声数据处理76
4.2.4 不平衡数据的处理79
4.3 数据集成和变换80
4.3.1 数据集成80
4.3.2 数据变换81
4.4 数据归约84
4.4.1 数据归约的方法84
4.4.2 数据立方体聚集84
4.4.3 维归约84
4.4.4 数据压缩86
4.4.5 数值归约86
4.4.6 离散化与概念分层生成89
小结92
习题493
第5章 关联规则方法94
5.1 关联规则的概念和分类94
5.1.1 关联规则的概念94
5.1.2 关联规则的分类95
5.2 apriori算法96
5.2.1 产生频繁项集96
5.2.2 产生频繁项集的实例97
5.2.3 从频繁项集产生关联规则99
5.3 fp-growth算法100
5.3.1 fp-growth算法计算过程100
5.3.2 fp-growth算法示例101
5.4 利用sql server 2005进行关联规则挖掘102
小结119
习题5120
第6章 决策树方法121
6.1 信息论的基本原理121
6.1.1 信息论原理121
6.1.2 互信息的计算122
6.2 常用决策树算法124
6.2.1 id3算法124
6.2.2 c4.5算法127
6.3 决策树剪枝130
6.3.1 先剪枝130
6.3.2 后剪枝130
6.4 由决策树提取分类规则130
6.4.1 获得简单规则131
6.4.2 精简规则属性131
6.5 利用sql server 2005进行决策树挖掘132
6.5.1 数据准备132
6.5.2 挖掘模型设置132
6.5.3 挖掘流程133
6.5.4 挖掘结果分析135
6.5.5 挖掘性能分析138
小结139
习题6139
第7章 统计学习方法140
7.1 朴素贝叶斯分类140
7.1.1 贝叶斯定理140
7.1.2 朴素贝叶斯分类141
7.2 贝叶斯信念网络143
7.2.1 贝叶斯信念网络143
7.2.2 贝叶斯网络的特点143
7.2.3 贝叶斯网络的应用144
7.3 em算法144
7.3.1 估计k个高斯分布的均值144
7.3.2 em算法的一般表述146
7.4 回归分析147
7.4.1 一元线性回归147
7.4.2 多元线性回归148
7.4.3 非线性回归149
7.5 利用sql server 2005进行线性回归分析150
小结155
习题7155
第8章 人工神经网络方法156
8.1 人工神经网络的基本概念156
8.1.1 人工神经元原理156
8.1.2 人工神经网络拓扑结构158
8.1.3 人工神经网络学习算法158
8.1.4 人工神经网络泛化160
8.2 误差反向传播(bp)神经网络160
8.2.1 bp神经网络的拓扑结构160
8.2.2 bp神经网络学习算法161
8.2.3 bp神经网络设计163
8.3 自组织特征映射(sofm)神经网络163
8.3.1 sofm神经网络的拓扑结构163
8.3.2 sofm神经网络聚类的基本算法164
8.3.3 sofm神经网络学习算法分析165
8.4 elman神经网络165
8.4.1 elman神经网络的拓扑结构165
8.4.2 elman神经网络权值计算166
8.5 hopfield神经网络166
8.5.1 hopfield神经网络的拓扑结构167
8.5.2 hopfield神经网络学习算法概述167
8.5.3 离散hopfield神经网络167
8.5.4 连续hopfield神经网络168
8.6 利用sql server 2005神经网络进行数据挖掘169
8.6.1 数据准备169
8.6.2 挖掘流程170
小结174
习题8174
第9章 聚类分析175
9.1 聚类概述175
9.1.1 聚类简介175
9.1.2 聚类的定义175
9.1.3 聚类的要求175
9.2 聚类分析中的相异度计算176
9.2.1 聚类算法中的数据结构176
9.2.2 区间标度变量及其相异度计算177
9.2.3 二元变量及其相异度计算178
9.2.4 标称型变量及其相异度计算179
9.2.5 序数型变量及其相异度计算180
9.2.6 比例标度型变量及其相异度计算180
9.2.7 混合类型变量的相异度计算180
9.3 基于划分的聚类方法181
9.3.1 k-平均算法181
9.3.2 k-中心点算法182
9.4 基于层次的聚类方法183
9.5 谱聚类方法184
9.5.1 谱聚类的步骤184
9.5.2 谱聚类的优点185
9.5.3 谱聚类实例185
9.6 利用sql server 2005进行聚类分析186
9.6.1 挖掘流程186
9.6.2 结果分析188
小结191
习题9192
第10章 粗糙集方法193
10.1 粗糙集的基本概念193
10.1.1 等价关系与等价类193
10.1.2 信息表与决策表194
10.1.3 下近似与上近似195
10.2 基于粗糙集的属性约简196
10.2.1 属性约简的有关概念196
10.2.2 基于粗糙集的几种属性约简算法198
10.3 基于粗糙集的决策规则约简199
10.3.1 决策规则的定义199
10.3.2 决策规则的约简200
10.4 粗糙集的优缺点201
10.4.1 粗糙集的优点201
10.4.2 粗糙集的缺点201
小结201
习题10202
第11章 复杂结构数据挖掘203
11.1 文本数据挖掘203
11.1.1 文本数据的特点203
11.1.2 文本挖掘的定义203
11.1.3 文本挖掘的主要任务204
11.1.4 文本挖掘的一般过程204
11.1.5 文本挖掘的应用207
11.2 web数据挖掘207
11.2.1 web数据的特点208
11.2.2 web挖掘的定义208
11.2.3 web挖掘分类208
11.2.4 web挖掘过程209
11.2.5 web数据挖掘的应用209
11.3 空间数据挖掘210
11.3.1 空间数据的复杂性特征210
11.3.2 空间数据挖掘的定义210
11.3.3 空间数据挖掘知识的类型211
11.3.4 空间数据挖掘的用途211
11.4 多媒体数据挖掘211
11.4.1 多媒体数据挖掘的概念211
11.4.2 多媒体挖掘的分类211
小结212
习题11 212
参考文献213
版权页:
插图:
通过遥感、地理信息系统、医学和卫星图像等多种数据采集设备收集到了大量的空间数据,这些空间数据远远超过了人脑的分析能力。空间数据不同于关系数据,它一般具有空间拓扑或距离信息,通常需要以复杂的多维空间索引结构组织,另外空间数据的处理还常常需要空间推理、几何计算和空间知识表示技术。这些特性使得从空间数据中挖掘信息具有很多挑战性。
11.3.1 空间数据的复杂性特征
空间数据的复杂性特征主要表现在以下几个方面。
1.空间属性之间的非线性关系
空间属性之间的非线性关系是空间系统复杂性的重要标志,其中蕴含着系统内部运作的复杂机制,因而被作为空间数据挖掘的主要任务之一。
2.空间数据的多尺度特征
空间数据的多尺度性是指空间数据在不同观察层次上所遵循的规律以及体现出不尽相同的特征。多尺度特征是空间数据复杂性的又一表现形式,利用该性质可以探究空间信息在泛化和细化过程中所反映出的特征渐变规律。
3.空间信息的模糊性
空间数据复杂性的另一个特征就是模糊性。模糊性几乎存在于各种类型的空间信息中,如空间位置的模糊性、空间相关性的模糊性以及模糊的属性值等。
4.空间维数的增高
空间数据的属性增加极为迅速,如在遥感领域,由于传感技术的飞速发展,波段的数目也由几个增加到几十甚至上百个,如何从几十甚至几百维空间中提取信息、发现知识成为研究中的又一难点。
5.空间数据的缺值
数据的缺值现象源自于某种不可抗拒的外力而使数据无法获得或发生丢失。如何对丢失数据进行恢复并估计数据的固有分布参数,成为解决数据复杂性的难点。
11.3.2 空间数据挖掘的定义
空间数据挖掘是指在空间数据库的基础上,综合利用各种技术方法,从大量的空间数据中自动挖掘事先未知的且潜在有用的知识,提取非显式存在的空间关系或其他有意义的模式等,揭示出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势,实现知识的自动获取,从而提供技术决策与经营决策的依据。
更多图书资讯可访问读书人图书频道:http://www.reader8.com/book/