数据挖掘系列之四:数据仓库设计
1. OLAP(联机分析处理)与OLTP(联机事务处理)主要区别
用户和系统的面向性:OLTP面向事务,日常操作;OLAP面向分析,用于决策支持。
数据内容:OLTP当前数据;OLAP历史数据
数据库设计:OLTP使用ER图、面向应用;OLAP使用星形模式或雪花,面向主题。
视图:OLTP是详细的,一般的关系;OLTP汇总的,多维的。
访问模式:OLTP读写操作都有,需要并行控制和恢复机制;OLAP多为读
2. 多维数据模型数据仓库和OLAP基于多维数据模型。此模型用数据方表示数据。
方体:数据汇总
方体的格:根据不同的汇总级别或维的不同子集,构造方体的格。
数据方:方体的格即为一个数据方。数据方由维和度量组成。
原语:立方体定义 (事实表):
define dimension <dimension_name> as (<attribute_or_subdimension_list>)3. 多维数据库模式
多维数据模型可以以星形模式、雪花模式、事实星座模式形式存在。
星形模式:(1)一个大的、包含大批数据、不含冗余的中心表(事实表);(2)一组小的附属表(维表),每维一个。
雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。雪花模式比星形模式的维表更规范,这样减少了冗余,但是可能需要更多的join操作,性能降低。数据仓库设计中,星形模式更多。
事实星座模式(星系模式):多个事实表共享维表。
4. 数据仓库设计须考虑的四种视图:
-自顶向下视图:选择数据仓库所需的有关信息
-数据源视图:揭示被操作数据库系统捕获、存储、和管理的信息
-数据仓库视图:包括事实表和维表
-商务查询视图:从最终用户的角度透视数据仓库中的数据
典型的数据仓库设计过程:
-选取待建模的商务处理, 例如, 订单, 发票, 库存等.
-选取商务处理的粒度, 例如,单个事务、一天的快照等
-选取用于每个事实表记录的维, 如,时间、商品、顾客、供应商、仓库、事务类型和状态 等
-选取将安放在事实表中的度量. 典型的度量是可加的数值量, 如dollars_sold和units_sold
参考文献:
[1]数据挖掘:概念与技术