首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 数据库 > 数据库开发 >

数据挖掘系列之4:数据仓库设计

2012-12-14 
数据挖掘系列之四:数据仓库设计1. OLAP(联机分析处理)与OLTP(联机事务处理)主要区别用户和系统的面向性:OL

数据挖掘系列之四:数据仓库设计
1. OLAP(联机分析处理)与OLTP(联机事务处理)主要区别

用户和系统的面向性:OLTP面向事务,日常操作;OLAP面向分析,用于决策支持。

数据内容:OLTP当前数据;OLAP历史数据

数据库设计:OLTP使用ER图、面向应用;OLAP使用星形模式或雪花,面向主题。

视图:OLTP是详细的,一般的关系;OLTP汇总的,多维的。

访问模式:OLTP读写操作都有,需要并行控制和恢复机制;OLAP多为读

2. 多维数据模型

数据仓库和OLAP基于多维数据模型。此模型用数据方表示数据。

方体:数据汇总

方体的:根据不同的汇总级别或维的不同子集,构造方体的格。

数据方:方体的格即为一个数据方。数据方由维和度量组成。

原语:立方体定义 (事实表):

define dimension <dimension_name> as (<attribute_or_subdimension_list>)

3. 多维数据库模式

多维数据模型可以以星形模式、雪花模式、事实星座模式形式存在。

星形模式:(1)一个大的、包含大批数据、不含冗余的中心表(事实表);(2)一组小的附属表(维表),每维一个。

雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。雪花模式比星形模式的维表更规范,这样减少了冗余,但是可能需要更多的join操作,性能降低。数据仓库设计中,星形模式更多。

事实星座模式(星系模式):多个事实表共享维表。

4. 数据仓库设计

须考虑的四种视图:
-自顶向下视图:选择数据仓库所需的有关信息
-数据源视图:揭示被操作数据库系统捕获、存储、和管理的信息
-数据仓库视图:包括事实表和维表
-商务查询视图:从最终用户的角度透视数据仓库中的数据

典型的数据仓库设计过程
-选取待建模的商务处理, 例如, 订单, 发票, 库存等.
-选取商务处理的粒度, 例如,单个事务、一天的快照等 
-选取用于每个事实表记录的, 如,时间、商品、顾客、供应商、仓库、事务类型和状态 等
-选取将安放在事实表中的度量.  典型的度量是可加的数值量, 如dollars_sold和units_sold 

参考文献:

[1]数据挖掘:概念与技术


热点排行