数据仓库基本架构描述
数据仓库的目的是为了分析最终支持决策,其本身仅仅是存储数据,尽可能的保证数据的细粒度,数据从源头经过ETL然后达到DW,然后再次经过ETL达到ODS或者直接达到应用分析层,然后支持分析。
其描述图如下所示:
?
源头:
包括各种结构化、半结构化和非结构化数据。
结构化也就是我们传统机遇ER模型的数据;
半结构化类似xml、json型数据,通过属性描述含义;
非结构化也就是图片,无规律文本(网页,评论等),流(视频,音频等)
数据仓库存储部分:
1.粒度控制
2.是否需要ods层
3.面向分析主题,各维度控制,汇总聚合等
4.非结构化数据抽象(视频可以抽象出:视频名称,播放时间,作者,创建日期,关键词等)
5.元数据管理
应用层:
主要对数据进行分析然后结果展示,是最终的目的
各层直接数据流转都经过了ETL。