分享
Scan me 分享到微信

宋关福:全面拥抱大数据的GIS基础软件技术

会上,北京超图软件股份有限公司总裁宋关福先生作了题为《全面拥抱大数据的GIS基础软件技术》的报告。

  中国测绘地理信息学会2017年学术年会暨第十二次全国会员代表大会今日在南京举办。本次大会以“创新驱动,跨越发展”为主题,邀请测绘地理信息科技界专家、院士、学者齐聚一堂,呈现精彩特邀报告,并举办多个垂直领域分论坛。

  会上,北京超图软件股份有限公司总裁宋关福先生作了题为《全面拥抱大数据的GIS基础软件技术》的报告。

泰伯网

  以下为演讲内容(内容未经本人核实):

  宋关福:谢谢主持人,各位同志,大家下午好!今天大会的航班已经延误了十几分钟了,刚才在陈总的努力下追回来一点。我刚才把电脑打开删了一些页面,希望能够稍微早一点结束。

  今天我们有很多的院士专家进行了很精彩的报告,其中有不少的报告已经开始在讲人工智能,讲深度学习了。接下来我今天的报告是跟大家讲一个稍微有点过时的技术——大数据。为什么这么说呢?这个数据,我们这些技术的发展,我们看一个工具,经常会用这个光环曲线来看它的发展所处在的阶段,我们看到三维GIS已经在复苏期了,而云GIS也已经在复苏期,我们今天讲的大数据GIS正在进入低谷期,所以我说它有点过时,就是说它已经过了最热的时候。

  今天我们听到很多关于人工智能的故事,人工智能,在IT领域的人工智能已经过了顶峰,但是GIS的人工智能刚刚进入一个萌芽,可能在未来一到两年会进入一个探索的热潮。

  我们在座的各位都已经知道海量的空间数据并不等于大数据,大数据不是因为它仅仅是大才是叫大数据。我们产生一个新的问题,我们已有的海量的经典的空间数据,如果说我把它用我们大数据相关的一些技术,比如说分布式存储、分布式计算框架来管理、处理和分析,这些数据是不是就变成大数据了呢?我觉得也不是。你可以用大数据的技术去管理它们,但是这些数据的本身性质还没有改变,它还是我们经典的空间数据。为什么呢?因为我们要大数据的几个特征来看,这个是来自IBM的一个说法,有五个V,我这里引用四个V,第一个是体量大、第二个是种类多,第三个是变化快,第四个是价值密度低。体量大、变化快意味着我们需要更快的软件处理性能;种类多意味着我们的分析模型可能不够,我们不光是厂商提供的模型,我们还要自己去定义更多的模型;而价值密度低意味着大数据是贫矿,就意味着冶炼的难度大,计算量大。

  人家都讲大数据有价值,你这里说它是贫矿,贫矿有挖掘价值吗?我觉得数据的价值可以有这样的一个公式来计算,等于体量×价值密度-挖掘分析的成本,如果说我们的体量够大,价值密度就大,也能够挖掘分析的成本,所以这样大数据才有价值,所以大数据核心的价值在于计算,在于分析方法。当方法提升了之后,大数据才有价值。

  我们从IT的另外一个工具来看空间大数据,DIKW金字塔,这个模型里面数据Data是最底层的,是记录原始的素材。第二个是信息,将加工处理后得到的逻辑的数据,第三个是数据,原始素材进行处理之后得到的一个记录,就得到一个智慧,这个就是IDKW金字塔。我们空间大数据就是基本的原始素材,而我们管理好的测绘4D产品是信息了,是从原始数据当中提炼出来的有组织的有逻辑的数据。所以说我们大数据挖掘的意义就在于把它从DIKW金字塔底层往上移的过程,也就是从数据里面提炼知识的过程,这就是大数据挖掘的意义。所以我们千万不要把在家里服务器上存的数据库贴上大数据的标签,因为它一点不增值,反而低估了你的价值。

  空间大数据的内涵,我们参考一下对大数据的定义,我们也可以定义一下,它就是带有或者隐含有空间位置的,具有这四个价值特点的常规的软件工具无法处理的,需要更先进的技术才能够让它具有更强的决策力、洞察力、流程优化能力的数字资产,这就是空间大数据的内涵和定义。

  外延是什么呢?就包括我们看到的所谓拥有最多的手机信令的数据,导航的轨迹、社交媒体,你发微博发微信后台服务器也知道你大致的位置。我们在百度搜索里面去搜索关键词,比如说“感冒药”什么东西,后台也知道你这个对应的位置在什么位置发生的,等等等等。包括水电表数据,这些都是我们的大数据,而不是躺在家里面的测绘产品。

  如何实现空间大数据的价值呢?我们有大数据还不够,我们还需要有工具,有软件。今天下午古德查德(Goodchild)教授也提到了GIS是工具,没有这个工具这个数据也不能产生价值。同时我们还需要一些分析模型,只有这三个结合起来,才能够让大数据去产生价值。

  大数据GIS软件,刚才提到了它的意义何在呢?我们研发一个这样的软件目的在于可以去降低大家挖掘大数据的技术门槛。在此之前能够挖掘大数据的单位都是什么?百度、高德、腾讯,包括一些很有实力的单位或者一些比较有实力的大学研究机构。我们很多单位有数据可能没法让它发挥价值,所以我们就需要研究这样的一些工具软件,把空间大数据的一些基本的算法、公共的这些功能都封装好,让更多的单位可以参与大数据的淘金。另外我们降低挖掘成本,我们有大数据的时候可以降低成本。刚才讲数据的公式后面减掉的是成本,成本越低你的价值越大,这就是我们作为GIS软件研发单位做这个工具的意义。

  我们就提出全面拥抱大数据的GIS技术,包括哪些内容呢?包括这两个柱子,一个是空间大数据技术,这个是专门针对空间大数据的。另外一根柱子是传统GIS传统的功能进行分布式重构,它重构的目的是为了解决传统的数据或者针对经典的空间数据来的。同时我们还需要两个支撑的技术,一个是云GIS的技术,因为没有云的大数据是空中楼阁,还有需要一个跨平台的GIS技术。

  我们先来介绍一下,从底往上介绍,先介绍支撑技术云GIS技术,云计算作为计算资源层,可以支撑上面大数据的处理,所以云GIS也就是大数据GIS支撑技术。我们可以归结为4+2,4是四大服务器软件,基于微服务架构的GIS应用服务器,要有一个微服务的架构去重新构建它。这个不是整个软件启动起来,是每一个服务的模块都可以单独启动,这样可以节省更多的资源。

  第二个是云GIS门户;第三个是需要一个分布式加速器,叫GIS分发服务器,在一个多层级架构的时候可以通过它前置来降低对网络带宽要求提高性能。第四个是云GIS服务管理器。

  两大技术,一个是支持虚拟化,还有一个是支持容器技术,这是最新云的技术,Docker,这里今天没有时间,可能就不讲了。是性能更高,更节约资源的新一代云的技术。第二个是云端互联技术,可以把各端无缝连接起来的这样一个技术。

  大数据技术栈很多技术都原生于Linux,这些技术都在Linux社区里面去产生的,而且Linux具有更高性能更稳定的效果,所以我们在Windows上研究只是做一个试用,可能真正生产的时候不会在Windows上做,否则的话效率可能不是更好。

  我们讲效率问题,这个重构是针对空间大数据的,不是大数据的。因为我们传统GIS应用当中的海量数据已经对我们的GIS形成了很大的冲击和挑战,现在我们都用瓦片形成用户体验,但是瓦片数量巨大,很难管理,复制重建要去分发非常痛苦。再一个,我们矢量数据里面,当单一一个表记录数过亿的时候,访问性能急剧下降。所以海量数据空间分析也非常费时间,不是一个线性增长的,它的数据量增长一倍,它的时间可能要增加十倍,这是让我们传统的GIS应用在数据量增长的情况下面临的一个新的挑战。比如说我们做了一个例子,我们做Overlay,当有1亿个的时候需要10个小时600多分钟,这样完成领导交给的一个任务就非常痛苦,10个小时。所以我们需要对传统GIS已有的功能进行分布式重构,就源于大数据。空间数据处理进行分布式存储,还有对空间数据算法进行分布式改造等等。这是适用于经典空间信息的分布式存储技术,包括Postgres—XL,包括MongoDB,还有HDFS,上面的查询能力更强,下面的分布式存储能力更强,这个我们要根据情况选择使用。

  分布式空间分析与数据处理有那些?我们进行空间分析,叠加分析、缓冲区分析、空间查询,包括数据处理,创建索引、复制数据集、数据集裁剪等等,我们需要改造它提高它的性能。

  举个例子,刚才那个传统的算法要600分钟,我们改造之后的分布式算法只要11分钟,性能提高了10倍。这是以某省测绘局数据叠加分析,用32CPU的一个很好的计算机,用了4个节点的CPU,机器更差了,数据提高20倍,这就是可以让我们性能提高这多。以前我们做算法的程序员很痛苦,提高15%就很痛苦了,现在提高10倍。

  这个是空间大数据的存储,以前我们经典的存储引擎有文件类,有数据库的,也可以有Web的,在新的情况下我们增加了空间大数据引擎,包括HDFS,MongoDB等等,以后还会有新的方法增加进来,这样就可以管理原来我们无法管理的空间大数据。

  第二个是数据的空间分析,我们这里提供了这样的一些空间分析,包括模式分析、OD分析,热点分析,密度分析。还有各种数据汇总,聚合分析等等,有18个框架来处理的。

  举三个例子来看,第一个是OD分析,计算各起点和终点间的通行量,比如说住在北京天通苑的人都在哪儿上班去了,在国贸上班的人都是从哪个空间来的。这是在重庆做的一个例子,右下方的点这个地方住的人都去哪儿上班了,就知道在各个地区的量是多少。反过来,从目的地的点也可以知道他是从哪儿来的,这就是OD分析。这种OD分析完了之后可以做什么呢?做交通规划,道路的规划。

  这个是基于地铁刷卡记录的,天通苑早上都往上走,国贸往里走,这些从哪儿来的都可以分析出来。到了下午6点以后,天通苑往里走,国贸往里走,到了9点以后基本上差不多了,这是主要的流动过程等等,都可以分析出来。

  第二个介绍大数据空间分析之热点分析,异常的东西都让人感兴趣,比如说特别高的地方和特别低的地方,这里热点分析就分析热点和冷点,对点要素进行统计学计算,寻找热点和冷点。

  我们看它的一个分析结果,把全球的航班轨迹的热点分析,我们可以看出经济最发达的地区在哪儿,美国的东海岸、欧洲,还有中国,这是航班的热点分析。

  一个是密度分析,它不仅仅计算区域内的影响,还考虑周边的影响,它的算法就跟刚才有所不同。我们可以看这个例子,这是一个船,货轮轨迹的密度分析,我们可以看到中国东部这个密度远远高于欧洲和美洲,所以中国崛起的速度还是蛮快的,从这个上面可以看出来。这是放大的一个情况,这是一些右边性的质量的多边图,不同的颜色是不同的值。

  这是商业选址的分析,女人的衣柜里永远少一件衣服,所以买衣服是她们的天性。这是上海关心女装的人在哪儿分布,你要卖女装在哪儿开店,这张图可以告诉你,这是用上网的数据来分析的。

  再有就是聚合分析,完全不考虑边界外的影响,只考虑区域内统计的情况。我们可以看到右边是公安的户籍人口,这个区域里面有多少户籍人口。左边是手机上网大数据挖掘,10点钟的时候这个人口分布情况,这个是典型的。

  我们看刚才有聚合分析、密度分析,看起来很像,其实它是有差别的,周围有一个较高值包围,而聚合分析没有这个情况,是一个明显的分散。这是天上飞的飞机在不同的格子里面有多少,这可以放大。

  这是重庆的一个出租车早上早高峰出租车下车点的一个聚合分析结果图,用三维来表达,柱子高的地方是这个地方下车的人多。这个是大数据的空间分析。

  我们再来看流数据的实时处理,其实大数据的很多特点就是数据像河流一样流过来,顺序、快速、大量、持续到达,我们需要用一个工具来处理它。我们上面一个基于空间位置的SupcrMap Streaming处理,这个我们非常关心时间。这个我们提出一些流数据实时处理的算法,实时动态判定哪些目标落入围栏,实时判断目标有没有进入哪个范围,比如航班有没有离开机场,这是一个全球的航班,黄点就是进入机场附近,蓝色的点还在路上飞行,可以不断地计算,不断地输出结果,高告警告警,该通知通知。

  还有实时路况,你分析出来也可以发布实时路况。这是重庆综合市情系统引用交通规划院的实时路况的算法来进行实时的处理,实时的分发结果。

  最后一个是大数据空间可视化,其实前面我们已经看到很多可视化,其实没有可视化这些分析功能都是感觉不到的。左边是我们刚刚提到一部分的大数据空间分析算法,右边是空间可视化技术,热力图可以表达聚合分析结果和热点分析结合和密度分析结果,矢量也可以表达这三个,不同的图表达不同的分析结果。

  我们还可以给大家展示一些更炫酷的连线图,这是重庆出租车的流量图,可以用这个来表达。也可以换一种方式来展示,这是在一个三维城市的里面去展示出租车实时的一个动态的流动的情况,我们甚至还可以放大,看到这些车流在楼宇之间去流动,这个技术发展很快。

  这是北京T3航站楼飞机起飞降落的,飞机不是直线下来,都是转个弯,这都是连线图的展示。还有一些高性能的目标动态可视化,比方说我们要监控天上几千架飞机,我们的程序员后来说几万架我们也可以,今年几十万个动态目标也可以在屏幕上展示,当然这个展示无意义,但这是程序员追求的目标,这是50万个目标。

  我们可以监控全球货轮实时运行的情况,当然这里可以看到乱码,这是航海必须经过的地方。这是高性能的一个可视化技术,还有一些不介绍了,都删掉了。

  空间大数据技术,我们简单介绍一下,大数据的空间分析技术、流数据实时处理技术以及大数据空间可视化技术,这是针对空间大数据的这样一些技术。还有一个是数据清洗,原始数据进来有很多你不希望存储的冗余数据,还有一些范围错误数据,还有一些飞点数据、道路外数据以及坐标数据缺失的,不同数据源的清洗方法和算法也不一样。清洗之后才可以进行存储,进行进一步的精加工或者做挖掘分析。

  大数据GIS架构,,最底层是来存储数据。第二步是空间大数据组件,把空间大数据处理的这些算法和功能包了一个组件,包括数据处理,包括空间大数据分析的。在服务器端,去调用组件的功能来实现,边上是管理器,因为我们需要让它来调用这些计算和服务。上面就是各种端的软件,都可以通过调用服务器功能来实现大数据可视化的能力,是在端内来实现的。这是一个大数据GIS的一个粗略的框架。

  但是大数据GIS系列软件之间的关系,底下是云计算资源,中间是18个组件框架,上面是服务器GIS来调用这些组件来完成工作,是端去调用服务器来交付,实现可视化,边上是这个管理器。这是大数据GIS几个软件之间的关系,核心的功能实际上在组件里实现的,而组件又跑到18个框架里去实现。

  我们回顾一下全面拥抱大数据的GIS技术,包括空间大数据存储管理、大数据空间分析、六数据实时处理、大数据空间可视化。另外一个是传统GIS的分布式重构,包括海量空间数据分布式存储、空间数据处理分布式及改造和空间分析分布式计算改造。再有两个是跨平台GIS技术,这是两个技术框架。

  大数据技术的战略意义不在于拥有大数据,而在于我们有没有拥有大数据挖掘和加工的能力,如果有这个技术别人的大数据你也可以去发挥价值。我没有大数据,别人的大数据不给我怎么办?因为很多大数据涉及到隐私,比如打个电话到什么位置他可能不愿意给我们,这个时候怎么办?我们就把冶炼的装备拉到矿山里去。也就是说你把这个数据分析的工具软件开发好,这个是我们追求不求所有,但求所用,这样的一个目标去协调数据资源的时候就好办了。

  举个例子,在时空信息云与大数据平台,有些部门的数据,比如说自来水公司、燃气公司、公交公司、出租车公司,这些公司规模比较小,我们可以跟他协调,我们把我们的地图服务发给他,把他的数据交换出来处理,挖掘分析出结果再放到我们的平台上再提供给其他部门。比如说通讯运营商、电网、互联网私有云,他们的数据不可以交给我们,我们可以把我们的服务提供给他,让他进行分析,用我们的地图去换大数据或者大数据分析结果。

  我们再回过头来看这个光环曲线,不要再顶峰的时候因为时髦而加入,有可能投了很多钱没有产生结果,因为那个技术不成熟,大家期望又很高,结果达不到预期的期望,所以大家会失望,会进入一个低谷期。同时也别因过时而错过,这个时候我们才该搞大数据,因为我们是产业单位,我们是生产单位。所以我们在大数据滑向低谷期的时候,就是该反弹了,就是在座的各位该介入大数据的时候了。

  所以我们一起拥抱大数据,拥抱新社会。谢谢大家!

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开