数据仓库和数据挖掘的OLAP 技术
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理决策制定
?
面向主题的:数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是构造组织机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。
集成的:通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量的一致性。
时变的:数据存储从历史的角度(例如,过去5-10年)提供信息。数据仓库中的关键结构,
隐式或显式地包含时间元素。
非易失的:数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并行控制机制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。
?
联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理
(OLTP)系统。,数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为联机分析处理(OLAP)系统。
?
“为什么不直接在这种数据库上进行联机分
析处理,而是另外花费时间和资源去构造一个分离的数据仓库?”分离的主要原因是提高两个系统的性能。
操作数据库是为已知的任务和负载设计的,如使用主关键字索引和散列,检索特定的记录,
和优化“罐装的”查询。另一方面,数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。在操作数据库上处理OLAP查询,可能会大大降低操作任务的性能。此外,操作数据库支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保一致性和事务的强健性。,数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同
?
数据方允许以多维对数据建模和观察。它由维和事实定义。
?
维是透视或关于一个组织想要记录的实体;每一个维都有一个表与之相关联。该表称为维表,它进一步描述维。
?
多维数据模型围绕中心主题(例如,sales)组织。该主题用事实表表示。事实是数值度
量的。把它们看作数量,是因为我们想根据它们分析维之间的关系
?