DW2.0与第一代数据仓库的区别
DW2.0新一代数据仓库环境的架构。DW2.0和第一代数据仓库有很大的差别。四个最大的差别如下:
*随着数据进入并存储于数据仓库,产生了对数据生命周期的认识。
*数据仓库总包含非结构化数据。
*DW2.0环境包含元数据。
*DW2.0的技术基础能够随着时间而变化。
DW2.0有四个主要的生命周期区:
*交互区,数据仓库以更新模式在交易响应时间水平下完成构建。
*整合区,数据在这里经过整合并完成分析处理。
*近线去,作为整合区数据的一个缓存区域。
*归档区,存放访问概率显著下降但仍有可能被访问的数据。
DW2.0既包含结构化数据,也包含非结构化数据。非结构化文本进入数据仓库之前必须首先要经过一个整合过程。整合过程对于为文本分析提供非结构化文本非常必要。如果非结构化文本未经整合,就无法有效地进行文本分析。
为非结构化数据进入DW2.0环境做准备的主要任务之一就是清楚“废话”。另一项必做的工作就是术语规范化。文本必须同时拥有特殊的和一般的两种参考,以便成功地进行文本分析。
元数据是DW2.0的一个重要组成部分,它有以下几个级别:
*企业级
*本地级
*业务级
*技术级
要想获得成功,DW2.0环境必须建立在可随时间变化的技术基础之上。