数据仓库相关知识
?
1,步骤:
a.确定企业数据仓库的需求
b.向业务用户理解业务需求
c.决定软件需求:
MS SQL Ssever 2005&2008
MS SSIS(ETL Tool)
MS SSAS(Analytic Cube Tool)
MS SSRS & Excel(Reporting Tool)
SharePoint for Deploying Reports over Company Intranet
d.设计和开发数据仓库
2,整体架构图如下:
?
?
3,星型模型
?
星型模型的优点:
1,更易于系统集成
2,提供极高的性能
3,层级支持以及钻取
PS:Ralph Kimball开发了当前的星型模型业界标准-维度和事实
?
4,数据仓库的项目周期(如图):
5,缓慢变化维:
Type1-覆盖存在的维度行
1,在不需要保留历史数据的情况下可以使用
2,可以被用来更正坏数据
Type2-创建一个新的维度行
1,使用数据或者非活跃字段来识别当前和非活跃数据行
Type3-保留旧的,同时在维度行中添加新的属性
1,允许可变的事实同时存在于一个维度行中
缓慢变化维一般由ETL处理。
还了解到对于type2这种情况,利用CRC来进行行记录的校验,从而确定该行记录是否发生变化,如果变化了,则插入新的记录。使用循环冗余校验可以很大程度上提高效率,而不需要一个个字段的进行对比。
?
6,维度的类型:
7,事实表的类型: