云年代的企业应用数据挖掘

2012-07-19

云时代的企业应用数据挖掘随着云时代的到来和SaaS概念的引入，越来越多的企业开始选择由SaaS应用提供商、运

云时代的企业应用数据挖掘

随着云时代的到来和SaaS概念的引入，越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务，SaaS应用的数据量面临着TB级的增长速度；不同的SaaS应用体系，提供的数据结构也不完全相同，数据有文本、图形甚至小型数据库；SaaS应用数据随着云服务平台的分布性特点，有可能分布在不同的服务器上，如何对这些异构异源的数据进行数据挖掘，是云时代的企业面临的难题。
图2 数据挖掘模式图
引入HDFS的分布式存储模式。HDFS系统简单，利于提高实施效率，适合海量数据挖掘。HDFS架构基于GFS体系架构（Google?File?System，简称GFS，是由Google设计并实现的一个分布式文件系统，基于大量安装有Linux操作系统的普通PC构成的集群系统），但比GFS架构精简。GFS和HDFS都采用“单一主控机+多台工作机”的模式，通过数据分块和复制（多副本，一般是3）来提供更高的可靠性和性能。GFS允许文件被多次或者多个客户端同时打开以追加数据，以记录为单位。而在HDFS中，文件只允许一次打开并追加数据。GFS中采用主从模式备份Master的系统元数据，当主Master失效时，可以通过分布式选举备机接替主Master继续对外提供服务，而由于Replication及主备切换本身有一定的复杂性，HDFS?Master的持久化数据只写入到本机（可能写入多份存放到Master机器的多个磁盘中防止某个磁盘损害），出现故障时需要人工介入。GFS通过内部采用Copy-on-Write的数据结构实现集群快照功能，而HDFS不提供快照功能。
引入Hive架构。Hive是建立在Hadoop上的数据仓库基础构架，是一种可以存储、查询和分析Hadoop中大规模数据的机制，提供了一系列工具用来进行数据ETL操作。Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce开发者自定义Mapper和Reducer来处理内建的Mapper?和Reducer无法完成的复杂分析工作。
数据挖掘阶段
引入数据分析中间件，提供数据处理、数据探索、数据建模及模型应用等一系列功能，开发多种数据挖掘算法和统计建模方法，并能够方便、快速、高效地处理海量数据，为商业智能的应用提供更方便、更灵活的工具和服务。
数据呈现阶段
BI作为云计算的一种SaaS服务提供给企业，建立行业数据库。面对林林总总的SaaS应用，BI同样可作为一种SaaS服务提供给企业。同时，数据挖掘工具进行数据分析，可以发现重要的数据模式，这对构建知识库做出了巨大贡献——数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据“坟墓”转换成知识“金块”。
数据挖掘模式图
我们设计的数据挖掘模式图如图2所示。
企业数据层：企业数据来源于各类应用，如?SaaS应用、企业内部应用数据和专有云应用。
数据仓库层：主要引入HDFS分布存储系统和Hive体系架构，通过MapReduce算法对数据梳理和提取。
数据挖掘层：引入基于XML数据分析中间件，实现统计查询和数据挖掘功能。
数据分析与BI应用层：将BI以SaaS服务的模式提供给企业使用。
总结
随着云时代的到来，企业面临的应用方式更加多元化，通过云的手段提供海量数据挖掘的方法，提高了挖掘的效率，增加了挖掘的精度，更利于挖掘应用的推广以及专业的行业知识库的构建。

热点排行