【2013 Esri中国用户大会】ArcGIS的大数据挖掘和并行处理
刚刚结束的2013 Esri中国用户大会上,为用户介绍并演示了ArcGIS的大数据挖掘和并行处理能力,一下子引来了很大的反响,尤其是空间大数据挖掘,很多朋友想了解更多的技术细节,在这里我一起做个分享。
关于GIS Tools for Hadoop 这个工具的详细介绍(ArcGIS与Hadoop集成),请进入这篇博文http://blog.csdn.net/arcgis_all/article/details/11018427,其中有技术文档的下载地址。
下面,我们再来回顾一下大会上演示的内容:
视频地址:http://v.youku.com/v_show/id_XNjI1NTY4NDY0.html
首先,我们来看一下ArcGIS与大数据的亲密接触。演示中通过利用新的工具,实现了对空间大数据的分析和展示。现在看到的是南京市的出租车GPS数据,这只是其中的一部分,实际上一共有3300万个GPS点。下面看到的是,基于全部的数据分析出的某日早高峰时段,出租车的热点分布情况。除了市区这个明显的热点区域,其中右下角也有一个单独的热点区域,是出租车经常出入的机场。在传统的分析方法中,经过查询统计、叠加分析等一系列的计算后,需要花上好几个小时才能得到这个分析结果。而现在,只需要1分多钟的时间就可以看到结果。这就得益于ArcGIS与Hadoop的完美结合。ArcGIS中提供的新工具实现与Hadoop进行交互,并且可以在ArcGIS的建模工具中构建任务模型以便于自动化的执行工作流。在ArcGIS中,可以通过工具将数据传送到Hadoop上。上传之后,大量的分析工作就交给Hadoop来完成,而Hadoop便发挥它并行计算的优势来分析数据,因此效率有了明显的提升。那么Hadoop代替ArcGIS完成了哪些GIS任务呢?它可以通过ArcGIS提供的Geometry API进行空间几何运算(比如缓冲区分析、包含统计分析、叠加分析等等),还可以进行要素数据与JSON格式的转换,从而将数据传回到ArcGIS当中。这个Geometry API是GIS Tools for Hadoop工具包(http://esri.github.io/gis-tools-for-hadoop/)中的核心内容,使用的时候,我们可以根据自己的需求去定制GIS任务。在oozie监控页面,可以看到任务的执行状态以及相关配置信息。在Hadoop管理界面,可以查看这些任务的具体执行情况,例如数据计算的完成百分比。通过演示可以看到,ArcGIS为空间大数据的挖掘与展现所带来的巨大价值,这在本质上改变了大数据,使其即刻成为有用的资源。
作为资源的创建者,在注重功能的同时还会注重效率。现在产品在性能上为用户带来了前所未有的提升。这是一幅包含了全国地形和基础地理信息的地图,现在想要利用桌面产品提供的工具创建地图的切片缓存,然后将切片包提供移动端使用。相比以前,现在能够节省4-5倍的时间完成这个工作。这是如何做到的呢?相信大家一定很想知道原因。原来是通过并行计算,利用多核CPU的优势来提高性能的。我们可以清楚的看到,CPU正在被充分利用。另外,还可以通过设置,指定CPU的使用数量以便于计算机处理其它工作任务。这种利用多核CPU的能力,在数据管理、转换、分析等方面均有所体现。这就是并行处理为我们带来的益处,高效工作,就是这么简单!
以上演示中为大家介绍了大数据分析、并行处理,利用这些新能力所得到的结果都可以进行分享,为新一代Web GIS中的应用增砖添瓦。