首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 数据库 > 数据库开发 >

数据仓库开发札记(二)

2012-09-11 
数据仓库开发笔记(二)数据仓库开发的流程是确定用户需求——设计和建立数据库——提取和加载数据 ,其中设计

数据仓库开发笔记(二)

数据仓库开发的流程是确定  用户需求——>设计和建立数据库——>提取和加载数据 ,

  其中设计和建立数据库步骤中分为:

    确定事实表和维度表设计事实表设计维度表实现数据库设计

    而提取和加载数据分为:

      校验数据迁移数据数据净化转换数据

      因此当我们有建立数据仓库的需求时候,首先按照需求设计数据仓库的模型,然后根据设计好的模型对原有数据库进行ETL处理。


      Pentaho根据整个流程整合需要的工具。BI Server是整个BI套件的门户,用来整合各种资源。其他的组件通过publish操作将定义好的模型信息发布到平台上,平台会自动读取这些信息更新自身的数据源等。Design Studio是支持Action Sequence图形化开发的工具,可以定义一序列操作来完成整个BI过程。Pentaho Metadata元数据管理借助于图形化对元数据建模。Kettle ETL主要对源数据库数据进行转换抽取加载等工作。Mondrian OLAP是针对多维分析提供的引擎。Weka是进行数据挖掘工具。Pentaho Reporting工具用来设计报表。Pentaho Dashboard支持仪表盘的开发。


      数据仓库开发札记(二)

      由于我们是研究机构,主要针对开源系统进行开发和研究,因此采用了社区版的Pentaho 。
      (一)部署Pentaho BI Server
      Pentaho BI Server包含BI server 和Admin Console两部分。最新的稳定版本是Pentaho4.5.0。
      下载地址是http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
      解压后有administration-console和biserver-ce两个文件夹。其中biserver-ce自带有tomcat。
      打开biserver-ce文件夹可以使用start-pentaho.bat运行BI 服务器。如果没有报错的情况下,在IE浏览器打开http://localhost:8080/pentaho 可以看到管理界面:

      数据仓库开发札记(二)

      点开登陆界面下方的Evaluation Login,可以展开两个测试用户joe和suzy,密码都是password。

      登进去之后就可以看到管理界面了。要打开左边的导航栏就点开view菜单项的browser选项。导航栏上可以看到已经配好的数据源,以及报表和多维分析的例子。

      数据仓库开发札记(二)

        我们可以使用系统自带的建立报表或者多维分析的功能进行测试。要使用自己的数据源进行测试,需要新建数据源。添加对应的数据源驱动包到%biserver目录%\biserver-ce-4.5.0\biserver-ce\tomcat\lib中。在菜单栏中选择File->new->data source选项将进入新建数据源导航栏。可以根据自己的数据库建立connection。

      New Anaylze例子需要使用已经写好的多维分析的schame才能进行分析。系统自带了一些功能,再建立数据源的同时可以建立一个简单的schame,这远远不能满足我们的需求。因此我们需要借助于Pentaho家族中另一个成员来建立起自己数据仓库立方体即petaho schame workbench。

      下一节将讲述如何使用它建立起一个数据立方体进行多维分析。




热点排行