分享
Scan me 分享到微信

康来成:分布式多维异构时空自然资源大数据的分析与处理

Esri中国信息技术有限公司行业首席咨询顾问、技术总监康来成在“自然资源主题论坛”以“分布式多维异构时空自然资源大数据的分析与处理”为主题的演讲报告。

  以下是Esri中国信息技术有限公司行业首席咨询顾问/技术总监、中国地理信息产业协会大数据工委会委员康来成在“自然资源主题论坛”以“分布式多维异构时空自然资源大数据的分析与处理”为主题的演讲报告,内容如下(未经本人审核)。

泰伯网

Esri中国信息技术有限公司行业首席咨询顾问、技术总监康来成

  康来成:大家好!

  按会议日程,这个环节应该是“分布式多维异构时空自然资源大数据的分析与处理”。

  刚才,非常欣喜地看到有很多落地的自然资源确权登记的案例。我做这个报告稍微带有一点前瞻性。就象你们现在看到的,我的报告的大标题:自然资源大数据在路上。副标题:分布式多维异构时空自然资源大数据的分析与处理。 我们正在开始获取这些海量的确权数据,但是拿到之后怎么用?我们要开始思考了。

  我们还有更多的与自然资源相关的数据,比如地下水、河流、气象、空气污染指数等等。自然资源涉及到农业、林业、水利、地质、环境等等很多部门,很多数据,这些有的是图形,有的是数字,有的是报表,很多形态。这些多源的自然资源信息怎么样利用?如何在大数据的环境下立体化多维的展示他们的价值?如何给我们的生活带来更多的有益的决策。大家也一定在思考并偿试找到答案,这也是我想与大家分享的。

  提到大数据,首先有几个概念要澄清一下。到底是大数据还是数据大?大数据的计算目标是不是就是看以前快多少倍?大数据计算能力就是比谁有多少个大数据工具数量?等等。

  这些都是关于大数据讨论的一些焦点,观点是没有对错的,如果从GIS的角度或者是从自然资源大数据应用的角度来看,我的观点:

  第一,我们是在用大数据的思想、方法、工具增强传统空间分析统计的能力。GIS的大数据跟腾讯、阿里巴巴和京东等IT公司所谈的大数据不是一个概念。他们谈的大数据是附合4V特征的,从上千个维度来刻画用户的消费习惯,推断潜在客户性别,消费特征,从而精准推送相关产品。实际上 GIS数据并不符合大数据的4V特征,所以:

  第二,GIS的数据本质上是数据大,而不是大数据,空间大数据的计算无法与获取处理分享等环节相割裂。

  因此我也非常赞同刚才浙江大学GIS重点实验室杜教授的观点。我们想让空间信息的处理快点再快点,但我们只强调大数据的计算效率,而将计算跟数据的获取处理割裂开来,这是不对的。只参考计算这一个环节的性能指标就如同只关注苹果手机的待机时间:使用手册上所标称的大概有200个小时左右,约8天,实际上玩不到2天就没电了,因为那200多个小时的待机时间是有很多限定条件的。很多厂商动辄号称自已有2分钟处理千万级不规则面状图斑的计算能力也是一样,也许只是个噱头。

  时间关系,这里我只能跟大家简单谈四个技术点。这是分布式自然资源大数据分析处理的关键,即:如何打造完整的自然资源大数据生态链。

  1:分布式多源多维时空间信息资源的一体化管理

  2:多元空间信息资源建模与协同分享

  3:分布式空间大数据的更新于运维

  4:大数据软件资源与硬件资源协同调度。

  为了验证这些关键技术,我们做了一个叫:自然资源大数据分析预处理的关键技术“概念验证模型”。基于这个环境,我们要打通了两座数据桥,打造两个数据链。要打通的两座数据桥:一是基外网,打通各个部门之间的门户。二是基于内网,打通各个部门之间数据库。要打造的两个数据链:一是在传统的计算资源与大数据计算资源之间,打造一个虚拟大数据计算资源池。二是基于云环境,打造一个自服务弹性的云环境。

  我这里有一个视频,先播给大家看。这里我想向大家展示分布式自然资源大数据一体化协同管理的三种模式:1.基于统一资源目录的分布式信息资源管理;2. 基于数据的“分布式集中”数据管理运维;3.混合模式。

  基于Portal产品,我们可以在不同的部门里可以检索到各种信息资源,并分析处理出各种结果,这些结果还可以跟其它信息叠加,形成新的成果,以服务的方式再次分享出来,让更多人去使用。基于这样的能力我们提供了5种形式的协同能力。第一个是同一单位内部的不同部门之间做到数据、地图、服务、应用等的互联互通。第二个能力可以在部门与部门之间实现信息互通。第三个能力是可以跟本地的数据与互联网的上的数据进行互动。第四个能力是在分享这些服务、应用的同时,将数据也一并分享。第五个能力,基于Portal的统一权限与安全认证框架可以做到数据库间的实时更新。

  我们在来简单分享一下,空间数据的同步与复制技术。这项技术最早出现在ArcGIS9.2版本,那个年代大家都在做CS版本的应用,基于网络的数据的同步和更新尚末没有引起大家的关注。随着现在越来越多的大数据的应用推广起来之后,数据本身开始引起大家的关注。Esri提供的ArcGIS10.5.1数据同步复制工具,给我们带来了非常实用的解决这一难题的办法。正如视频中所看到的,他带来了3种能力。一是单向复制,可以非常方便的在多个部门之间单向的分发或汇交数据成果。二是提供双向的,支持多并发的数据相互更新能力,支持多个版本之间,同时修改、编辑,在提交成果时,如果发生了冲突,会有一套完整的仲裁机制。三是支持实时在线、离线、压缩、加密甚至二次开发等等一套完整的工程化保障机制、方法。

  这套技术已有很多案例了,最有代表性的一个是云南时空信息云平台,地质中心、测绘中心、地环中心3个中心之间通过这套同步复制技术实现互为备份,实时同步。另一个案例比较老了,是神华集团的案例,已以跑了五年多了,神华集团下面有130多个煤矿,每一个煤矿节点,都没有专门的空间数据库,每个月报数据的时候,直接从主中心下载一个本区域(矿)的数据版本,在上面更新,然后回传给主中心,自动更新主中心数据库。这套方案现到在还在运行着。这项技术现在很成熟。这张表是在我们实验里,实测的同步复制效率,可以看到,在A节点,约1千万的数据底图中,发现1百万的变化的数据,并把他们提取出来,传送到另一节点B,并更新B节点的数据库。整合过种,大概只有17分钟左右。这是完全可以支撑实际的工程化生产作业的。

  我们再来看一下空间数据的挖掘,大家都知道,ArcGIS原生有一千多个空间分析统计的功能。这里给大家分享一个全新的工具。通过这张图大家可以看到,我们的业务人员,可以直接对空间数据,做各种比对和碰撞,这些业务人员不需要编写代码,直接像拼图一像的,在打开的多个窗口里,把这些个图层相互丢来丢去,就可以直接得到结果。这些比对和碰撞的过程,还可以固化封装成一个模型,在分享给更多的人使用。

  时间关系,我们最后在来谈一下关于大数据的挖掘。Esri研发了一套全新的基于Spark框架的大数据处理引擎。支持矢量数据计算、栅格数据计算、流数据计算多种能力。这些工具可能在数量上并不是最多的,但几乎囊括了所有常用的空间分析、空间统计功能。我的报告只有15分钟,这里只能给大家看一些成果案例,无法展开更多信息了。

  最后我们小结一下,关于分布式多维异构多时态的自然资源时空大数据,分析处理增值应用的关键是打造一个完整的大数据生态链,通过技术的手段,做到自然资源时空大数据的能整合、能利用、能更新、能分享。

  已经略微超时了,我的报告就分享到这里。

  谢谢大家!

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开