商家名称 | 信用等级 | 购买信息 | 订购本书 |
数据仓库生命周期工具箱(第2版) [平装] | |||
数据仓库生命周期工具箱(第2版) [平装] |
《数据仓库生命周期工具箱(第2版)》特色:以业务需求为核心标准进行讨论;以人为本,详细讨论项目团队各成员的职责及其应该关注的内容;以Kimball生命周期路线图为主线进行讲述,结构清晰;用维度建模来解析业务需求,同时保持查询的高效。
作者:(美国)金博尔(Ralph Kimball) 等 译者:唐富年 孙媛媛
Ralph Kimball,斯坦福大学电子工程专业博士,他是Kimball集团的创始人,也是自1 982年以来数据仓库行业最具有远见卓识的专家之一。他所提出的许多概念已经成为行业标准,而其Kimball生命周期方法更成为世界上大量正在运行和准备部署的数据仓库所遵循的开发准则。他和本书其他作者是数据仓库建设领域方面的先行者,同时他们还培养了数以万计的数据仓库开发人员。
第1章 Kimball生命周期导论
1.1 生命周期的历史
1.2 生命周期里程碑
1.2.1 项目/项目群规划
1.2.2 项目/项目群管理
1.2.3 业务需求定义
1.2.4 技术路线
1.2.5 数据路线
1.2.6 商业智能应用路线
1.2.7 部署
1.2.8 维护
1.2.9 增长
1.3 使用生命周期图
1.4 生命周期导航帮助
1.5 生命周期相关术语简介
1.5.1 数据仓库与商业智能
1.5.2 ETL系统
1.5.3 业务过程维度模型
1.5.4 商业智能应用程序
1.6 小结
第2章 项目,项目群的启动与管理
2.1 确定项目
2.1.1 评估DW/Bl项目的准备就绪情况
2.1.2 弥补不足并确定下步工作
2.1.3 确定初步范围和章程
2.1.4 建立商业报告和合理性证明
2.2 项目规划
2.2.1 确立项目标识
2.2.2 项目人员配备
2.2.3 制定项目计划
2.2.4 制定沟通计划
2.3 项目管理”
2.3.1 召开项目团队启动会议
2.3.2 监控项目状态
2.3.3 维护项目计划
2.3.4 整理项目文档
2.3.5 范围管理
2.3.6 期望管理
2.3.7 辨识项目陷入困境的征兆
2.4 项目群管理
2.4.1 确立管理职责和管理过程
2.4.2 将数据管理员的地位提升到企业层
2.4.3 利用高效的方法和架构最优方法
2.4.4 进行定期评估
2.4.5 沟通,沟通,沟通
2.5 小结
2.6 管理工作和降低风险
2.7 质量保证
2.8 关键角色
2.9 关键提交内容
2.10 作量估计
2.11 站资源
2.12 任务列表
第3章 收集业务需求
3.1 需求定义的各种方法
3.1.1 个别访谈VS集体促谈会
3.1.2 收集业务需求应避免使用的方法
3.2 访谈准备
3.2.1 确定访谈小组
3.2.2 研究业务机构
3.2.3 选择受访者
3.2.4 设计访谈问卷
3.2.5 确定访谈时间表
3.2.6 通知受访者做好准备
3.2.7 访谈中的基本规则综述
3.3 进行访谈
3.3.1 项目群层面的业务访谈
3.3.2 项目群层面上的IT访谈
3.3.3 项目群合规性/安全性访谈
3.4 总结访谈
3.4.1 确定项目群成功的标准
3.4.2 致谢并告辞
3.5 审查访谈结果
3.6 准备和发布项目群需求文档
3.6.1 访谈书面说明
3.6.2 项目群需求调查结果文档
3.7 区分业务优先次序和商定下步工作
3.7.1 以优先级的审查和确定结束会议
3.7.2 结束本轮访谈
3.8 项目层需求的调整
3.8.1 走近项目层
3.8.2 为项目需求访谈做准备
3.8.3 进行访谈
3.8.4 深入调查数据
3.8.5 审查访谈结果
3.8.6 准备和发布项目提交材料
3.8.7 协商下一步工作并结束本轮访谈
3.9 应对富有挑战性的受访者
3.9.1 受过打击的用户
3.9.2 超负荷的用户/替换用户
3.9.3 昏昏欲睡的用户
3.9.4 过分热心的用户
3.9.5 自以为无所不知的用户
3.9.6 一窍不通的用户
3.9.7 用户的缺位
3.10 小结
3.11 管理工作和降低风险
3.12 保证质量
3.13 关键角色
3.14 关键提交内容
3.15 工作量估计
3.16 网站资源
3.17 任务列表
第4章 技术架构介绍
4.1 架构的价值
4.2 技术架构综述
4.2.1 从源系统到用户桌面的流程
4.2.2 常见架构特征
4.2.3 DW/BI架构评估
4.3 后台架构
4.3.1 ETL一般性需求
4.3.2 创建与购买
4.3.3 后台ETL流程
4.3.4 源系统
4.3.5 抽取
4.3.6 清洗和一致化
4.3.7 提交
4.3.8 ETL管理服务
4.3.9 其他后台服务和趋势
4.3.1 0ETL数据存储
4.3.1 1ETL元数据
4.3.1 2后台总结
4.4 呈现服务器架构
4.4.1 信息方面的业务需求
4.4.2 细节原子数据
4.4.3 聚集
4.4.4 呈现服务器设计规定
4.4.5 调整呈现服务器架构
4.4.6 机构考虑事项
4.4.7 呈现服务器元数据
4.4.8 呈现服务器总结
4.5 前台架构
4.5.1 BI应用程序类型
4.5.2 BI管理服务
4.5.3 BI数据存储
4.5.4 桌面工具架构方法
4.5.5 BI元数据
4.5.6 前台总结
4.6 底层设施
4.6.1 底层设施驱动因素
4.6.2 后台和呈现服务器底层设施因素
4.6.3 并行处理硬件架构
4.6.4 硬件性能推进器
4.6.5 数据库平台因素
4.6.6 前台底层设施要素
4.6.7 底层设施总结
4.8 元数据
4.8.1 元数据集成的价值
4.8.2 元数据集成的供选方案
4.8.3 元数据总结
4.9 安全性
4.9.1 安全方面的弱点
4.9.2 安全性总结
4.10 小结
第5章 创建架构计划和选择产品
5.1 创建架构
5.1.1 架构开发过程
5.1.2 设计应用程序架构计划
5.2 选择产品
5.2.1 保留一个业务关注点
5.2.2 主要DW/BI评估领域
5.2.3 评估供选方案并挑选产品
5.2.4 后台和呈现服务器方面的考虑事项
5.2.5 前台考虑事项
5.2.6 管理元数据
5.2.7 任命元数据管理员
5.2.8 创建元数据策略
5.3 保护系统安全
5.3.1 保护硬件和操作系统的安全
5.3.2 保护开发环境的安全
5.3.3 保护网络安全
5.3.4 用户验证
5.3.5 数据保护
5.3.6 监视使用情况和保证合规性
5.3.7 备份和恢复计划
5.3.8 创建底层设施图
5.4 安装硬件和软件
5.5 小结
5.6 管理工作和降低风险
5.7 质量保证
5.8 关键角色
5.9 关键提交内容
5.10 工作量估计
5.10.1 创建架构计划
5.10.2 选择产品
5.10.3 元数据
5.10.4 安全性
5.11 网站资源
5.12 任务列表
第6章 维度建模介绍
6.1 使用维度建模的场合
6.1.1 什么是维度建模
6.1.2 怎样进行规范化建模?
6.1.3 维度建模的好处
6.2 维度建模入门
6.2.1 事实表
6.2.2 维度表
6.2.3 四步维度设计过程
6.3 企业数据仓库总线架构
6.3.1 规划危机
6.3.2 总线架构
6.3.3 价值链的意义
6.3.4 通用矩阵的常见问题
6.3.5 坚持使用一致性维度
6.4 对维度的深入讨论
6.4.1 日期和时间
6.4.2 退化维
6.4.3 缓慢变化维
6.4.4 角色扮演维
6.4.5 杂项维
6.4.6 雪花型和支架
6.4.7 处理层次结构
6.4.8 使用桥接表的多值维
6.5 更多关于事实的讨论
6.5.1 三个基本粒度
6.5.2 不同粒度的事实及其分配
6.5.3 多种货币和度量单位
6.5.4 无事实的事实表
6.5.5 合并事实表
6.6 有关维度建模的错觉和误区
6.6.1 将关注点集中在部门报表上导致的错误观点
6.6.2 提前汇总导致的错误观点
6.6.3 过于重视规范化导致的错误观点
6.7 小结
第7章 维度模型设计
7.1 建模过程综述
7.2 组建团队
7.2.1 确定参加设计的人员
7.2.2 回顾需求
7.2.3 使用建模工具
7.2.4 确立命名约定
7.2.5 为源数据调查和数据探查做准备
7.2.6 获取场所和用品
7.3 再论四步建模过程
7.3.1 第1步:选择业务过程
7.3.2 第2步:声明粒度
7.3.3 第3步:识别维度
7.3.4 第4步:识别事实
7.4 设计维度模型
7.4.1 建立高层维度模型
7.4.2 开发详细的维度模型
7.4.3 审查和验证模型
7.4.4 设计文档定稿
7.5 拥抱数据管理
7.6 小结
7.7 管理工作和降低风险
7.8 保证质量
7.9 关键角色
7.10 关键提交内容
7.11 工作量估计
7.12 网站资源
7.13 任务列表
第8章 物理数据库设计与性能规划
8.1 制定标准
8.1.1 遵守命名约定
8.1.2 为空还是不为空
8.1.3 设置登台表
8.1.4 制定文件位置标准
8.1.5 对用户访问的表使用代用名或者视图
8.1.6 主键
……
第9章 抽取、转换和装载介绍
第10章 设计和开发ETL系统
第11章 商务智能应用程序介绍
第12章 设计和开发商务智能应用程序
第13章 DW/BI系统的部署和支持
第14章 扩展DW/BI系统
术语表
在《数据仓库生命周期工具箱》第一版出版之后的九年里,数据仓库产业已经发生了显著的变化。现在,数据仓库产业已经变得十分成熟,并且得到了商业界的接受和认可。在这九年里,硬件和软件的发展取得了令人难以置信的成就。我们已经开始谈论“TB”字节而不再是“GB”字节。但是,数据仓库的任务基本上没有什么改变。
许多人所在的机构里有数千位的数据仓库用户,从业务决策者到一般的数据仓库用户,再到市场营销和财务用户中的骨干成员。事实上,操作方面的迫切需求是数据仓库研究中的最热点问题,而且每个人都坚持认为他们需要“实时”数据。在数据仓库变得越来越重要、越来越直观的同时,用户反复提出保密性、安全性和合规性方面的需求。业务用户正在逐步意识到高质量数据的价值,这和传统制造业注重质量管理是一样的道理。最后,可能也是最重要的,我们为自己所从事的这个行业起了一个新的名称,这个名称反映了我们的真正目的。它就是:商业智能(Business Intelligence)。为了强调这一点,在本书的大多数地方,我们都把您要创建的整个系统叫做DW/BI系统。
商业智能的这种转变将主动权移交到了业务用户手中,而不再是由IT人员掌握主动权。但同时这个转变将全部注意力都集中到了数据仓库的使命上:它是商业智能必需的平台。数据仓库需要做繁重的工作,它从源系统中取得数据,对数据进行清洗,并将数据组织起来使普通的业务用户能够看懂它。当然,我们力争实现世界级的商业智能,但是世界级的商业智能需要您拥有一个世界级的数据仓库。反过来说,一个数据仓库没有商业智能将会遭遇彻底的失败。
插图:
第1章 Kimball生命周期导论
在深入研究数据仓库(DV0和商业智能(BI)的设计、开发与部署中的细节问题之前,首先介绍Kimball生命周期方法论。Kimball生命周期提供了一个总体框架,它与数据仓库和商业智能实现过程中的各种活动都密切相关。生命周期是贯穿本书全部内容的一条主线,为后续章节进行详细阐述奠定了基础,也使本书的各章内容联系更加紧密。
本章将从历史的角度出发介绍Kimball生命周期的起源和演化。随后,我们引入生命周期图,讲述了在项目中有效地使用生命周期所涉及到的主要任务和一般准则。最后,对本书中涉及到的核心词汇进行了回顾和总结。
我们建议所有的读者都能花点时间仔细阅读本章所介绍的内容,即使读者只是想了解DW/Bl项目中的某一个方面,也应对本章的内容有一定的了解。我们认为这对整个团队理解项目的全貌和制定总体策略都十分有益。更形象点说,本章关注的是整个森林,而后面的章节则将注意力转向森林中的单个树木。
1.1 生命周期的历史
Kimball生命周期方法论最先出现在20世纪80年代的Metaphor计算机系统中。Metaphor公司是一家倡导决策支持的厂商,它提供的软硬件产品都基于局域网技术,整个系统包括一个关系数据库服务器和运行于32位操作系统上的客户端图形用户界面程序。大约在25年前,大型公司的分析人员都使用Metaphor公司的产品来构建查询,并且将查询结果以电子表格的形式存放或者以图表的形式表示出来。这些听起来似乎都很耳熟,不是吗?
在Metaphor公司工作的初期,本书的大多数作者曾共同努力寻求决策支持的解决方案,但是那时在相关业务领域还没有什么最优方法或者正式的方法论。不过,决策支持的发展方向显然和现在是一致的,我们在1984年所编写的指导手册中将这些方法归纳为提取、查询、分析和表现。
喜欢数据仓库生命周期工具箱(第2版) [平装]请与您的朋友分享,由于版权原因,读书人网不提供图书下载服务