数据仓库实施之三 使用SSIS创建ETL解决方案
SSIS以及ETL介绍ETL的选择SSIS导入和导出工具T-SQLBCP实用工具复制什么是SSIS
SSIS是SQLServer的一个组件,作为SQLServer最重要的ETL操作平台,包含了控制流引擎和数据流引擎。SSIS最小的但是是包(package),包可以单独部署。比包更大的是SSIS项目,一个项目可以包含多个包,项目可以部署到SSIS Catalog。SQLServer 2000版本的DTS包不能直接升级到package,SQLServer 2005 以及以后的版本都可以使用向导升级工具来生成新版本的包。
浏览源数据为什么要浏览源数据理解业务数据业务数据需要展现的内容是什么怎样注释业务值和代码业务实体之间的关系检查源数据数据的数据类型以及长度数据的大小以及疏散程度数据质量问题实施数据流链接管理器(connection manager)能链接到一个数据源或者数据目标桥接器(ADO.NET,OLE DB,等)连接字符串验证项目级别或者是包的级别项目级别的管理器可以供项目内所有的对象使用在解决方案浏览器里面显示包级别的管理器供包内的对象使用只在包内显示数据流在大多数的SSIS包中,数据流都是最重要的环节。在数据流中,我们可以对数据进行转换,清洗以及加载。大致可以分为6类处理
行的转换行组的转换分割和连接转换审计数据清洗自定义操作优化数据流的效率优化查询仅查询需要的行和列避免不必要的排序尽量使用已排序的数据把IsSorted属性设置为可用配置控件属性缓存的大小临时文件储存并行优化模式