分享
Scan me 分享到微信

顾学明:给大数据一个空间

们认为空间数据在大数据上面是非常重要的领域,大数据可以出现的地方其实商业也好,资源也好都跟空间相关,做大数据离不开空间的数据。说大数据不要仅仅说挖掘是大数据,实际上大数据

        6月15日,第五届“地理信息开发者大会”(World Geospatial Developers Conference,WGDC)在北京国家会议中心隆重开幕。大会由空间信息产业创新创业服务平台泰伯主办,秉承不断引领和促进空间信息技术创新与变革的宗旨,WGDC已走过五个年头,如今成为全球最具前瞻性的跨界创新风向标。
        6月16日下午,在首次亮相2016 WGDC的空间大数据专场上,Oracle空间应用顾问顾学明作了题为《给大数据一个空间》的演讲。以下是顾学明的演讲实录(尚未经本人核实)。

泰伯网

         顾学明:我今天给大家讲的题目“给大数据一个空间”。实际上大数据是一个挺热的话题,这个题目有两个意思:一个意思怎么从应用大数据这么热的一个趋势,给空间数据处理有一个机会;另外一个意思,现在尤其是政府,实际上企业在大数据方面得到的应用,都在大数据方面得到很多好处,政府这方面也很重视大数据。
        我们知道国务院发表了一个大数据的策略—《大数据指导意见》。在地方大家无所适从,政府怎么处理大数据?我主要从这两个意思给大家介绍一下,就是我们对大数据的用途。
        谈到大数据毫无意外,首先了解一个大数据的IDC报告。2012年全球产生的数据量达800EB的数据,其中1/3有价值。如果正常使用,可以从800EB里面中至少200个EB获取价值,但是其中只有4EB能使用到。数据采集越来越强、采集手段越来越先进,现在天上有GPS,有遥感卫星,航空有卫星,低空有无人机,地上有测量车等格式各样的工具收集了大量的数据。上面提到,从2012-2020年全球数据增长50倍,数据采集能力和生产能力其实每五年增长80-90倍之间,这可以验证。
        这个时间也会动不动把EB,到哪儿吃饭,比如用百度导航,实际上这些数据对商业、政府、公共安全,可能你不经意的动作都采集到。虽然一个小数据、单一的数据可能没有任何价值,但是当我们把这个数据汇集成非常大的数据之后,它的价值是无限的。
        过去,没有提到大数据机遇。过去由于各种原因,数据的存储方式也贵,数据比较少,数据价值也比较高,会面临数据营销的竞争。政府业面临着管理转型,实际上这两个是一个意思。企业过去只要把产品生产好,我等着别人来买我的产品。可是现在不是这样,企业跟企业竞争,实际上你需要时时刻刻去关注你的客户,他在想什么?所以要时时刻刻不断的去调整自己的竞争策略。比如联通、移动他们时时刻刻在发生竞争,今天用移动,明天客户觉得不爽或者觉得资费太高了,企业面临的竞争会收集各种各样的数据,从各个渠道去搜集。政府也一样,政府过去是管理,过去是大家的,我不用来管,现在不行。管理政府现在有什么样的问题?很简单,我要么管,一管就死,一松就乱。
         现在就变成决策性的政府。就变成具体实践我不管太多,我就坐在这儿做宏观决策,我拿一根绳看管理决策,不是所有事情都管得很死。这就是收集大量的数据来做决策,而不是像过去。比较传统大数据跟过去有什么区别?过去通过营销单、进货单,在运营当中采集这些数据,这些数据都是阶段化。这些所有数据收集到数据仓库当中,数据仓库当中做决策。过去数据仓库只有领导管,现在不行了。
        现在面临更多的竞争,就是说连数据仓库技术也扩展到除了领导以外,平时面对每个前台,你只要一去办业务就能马上知道这个人怎么样,甚至包含了有很多电信去给你推荐各种各样的产品,实际上对你门儿清。为什么?他就是把各种各样的数据收集上来,也就是知道你具体什么情况才会给打你电话。
        现在的数据模型是怎么样?不是我被动拿这个数据,而是主动收集这些数据情况,不管这个数据处理多快,只要有了数据手段,只要能清晰就能收集起来。现在不好用,现在的分析方法是不一样的。我在存储数据的时候,我只知道它有用,但不知道怎么分析?只有出现问题的时候,过去由于结构化、建模计算方法不一样,只有出了问题才想出了什么问题,然后再决策,这个是不一样的。
        大家提大数据,可能我们觉得挺神秘的事情,我们要把大数据概念拉到神坛上,再从神坛上拉下来。大数据是什么?就是无法在可接受的时间内用常规揽件工具完成捕捉、管理和处理的数据集合。这就是大数据,很简单。
        现在可能把大数据处理想得太复杂了,有的时候烦恼说,有一个大数据怎么去把它变成一个能真正发挥价值的一个东西?(如图)是我第一个点的东西,我们要给大数据一个空间。实际上我讲得都是废话,第一个,大数据要有合适的采集渠道、新的业务和IT管理理念。这可能是废话,但你创新在什么地方?你可能认为这个数据不可能永远在这个地方,但是在另外一个业务部门,实际上跟垃圾的原理是一样的,你认为这是一个垃圾,但是别人知道这个数据价值就会承载。你认为现在的数据可能没有用,将来的数据可能会有用。
        如果我们走极端,我们也看很多的政府或者企业大数据,不知道怎么做,就用很简单的方法收集起来。因为你收集了数据是有目的的,如果盲目的收集是无法获取。我们知道这两个区别,一个垃圾处理厂跟一个垃圾掩埋厂是两种情况,垃圾掩埋厂只能掩埋,而垃圾处理厂不仅能掩埋,还能把垃圾里面有用的东西提取出来。只是我们原来对大数据的处理,不能用常规的处理,突破常规才对大数据拓展了空间,带来了生意。
还有一个误区是什么?我们希望大数据,神话了大数据的能力。比如我们常说亚马逊玉林一只蝴蝶翅膀偶然振动,也许两周后就会引起美国得克萨斯州的一场龙卷风。比如一声叹气最后可能会引起太平洋的一场风暴,可能会在某一定状况下,但不是大概率的。
        现在非常流行的一个问题,这个问题是所谓“三门”的问题。在美国有一个娱乐节目,实际在中国也有这个娱乐节目。有三个门,打开有一个奔驰车的门就可以把车开走了。这个问题引起很多讨论,观众打开的是指定的门,观众打开了一点意思都没有了,你指定三个门,主持人就猜一号门,说第一号门,可能3号门有,你还是不是继续玩,换不换2号门?坚持不坚持3号门或者2号门。这里发生非常微妙的事情,可能主持人车在2号门里面,就把1号门打开了,就把1号门加到2号门的概率。这是什么事情?说主持人不能玩,观众问问题,大家觉得这时候是不是需要换到2号门。有的人说,其实我已经选了3号门,2号门跟3号门没有关系,其实就是概率问题。有人说我经常换,最后有数学家证明我应该算2号门,甚至有很多其他数学家,也有博士的就置疑这名数学家,但是这名数学家是最对的。
        最后反过来大数据是什么?一件事情,一个结论,虽然我不知道里面的道理,但就是通过大量的数据证明是对的。因为不知道,这里面的数据太复杂了,也因为这里面的数据很简单。这是一个很趣的问题。
        最后讲大数据不是数据的替代和终结者。刚才我讲了大数据的不等于Hadoop/NoSQL。这是大数据的处理技术,有很多的技术。比如我们说大数据的处理,要分布式,不是放在一个硬盘上。一个是数据计算,一个是数据挖掘。我们认为数据的存储也很重要,包括数据的处理。哪怕我并不是说计算蝴蝶的翅膀振动跟海啸发生什么关系?这是数据需要处理,数据处理就很神化。
        举例,电信打电话一定是要有目的的,因为电信的客户很多,我希望它推一个套餐,一定要保证它会接受。如果要打1000个电话只有100个人会接受这个访问,那么这时候效率显然不高,你还不够人工费。但是我通过这个人的背景、年龄、消费习惯、什么时候交的话费等等一系列信息会认为接受这个,哪怕把1000个电话缩减到200个电话,这样信息就提高了。
        实际上,空间数据在大数据里面应该是起到很大的作用,首先要讲空间数据的处理。实际上空间数据基本上面都是海量数据。海量数据的处理,数据迁移、入库、质量检查,甚至建一个空间缩影,进行遥感分析、图像分析等等。比如地理模型统计会看,把全国地理模型统计上来要花多长时间?很简单把全国各种地理类型统计上来需要多长时间?这是一个很简单的问题,这是不是大数据处理?是,但是没有简单说商业上的神化,大数据的神化。在商业上空间数据也是很神化,有的银行选在什么地方?对商业来讲是逐利的,不可能在没钱的时候,要知道我的客户在什么地方?收入在什么地方。
        再比如保险分析和评估:我想知道这个人,这个地方,比如财产保险盗窃的可能有多大?就是赔率进行计算。公共安全,刚才前面讲到采纳事故,如果采纳事故,当时有这个意识通过手机的预测,这时候有意识进行防控或者加强信息的发布。说今天正月十五没有了,别瞎在外面晃悠。这个取决于对数据的处理能力,至少半个小时就能做出反馈,比如电子回来。比如物流、车辆、环境监测和技术分析需要大量的数据来支持。
        所有Oracle大数据处理的堆站,这里说除了数据仓库,还有一个叫数据水库。这是我翻译的,涉及数据有很多很多,其实你阻拦不住,你一定在你的能力范围之内控制,但有的地方是这样的,有的想收集数据还收集不到,数据是一个调整能力的一个地方,但你这个数据收集来了以后,这个实际上对Oracle以上,对整个大数据处理是什么样的生态。
        究竟用传统关系数据库和这种非关系数据库有什么区别?这个是我们总结的,就不细讲了。这里面我要说一个例子,还是国情地理普查的一个项目,实际上我们用数据库来做B级分析,比如96个图,把全国地表地理覆盖图做出来40分钟。说你们数据库多贵?一个数据库多少钱,当然这涉及到价钱的问题。我问数据来源是什么?是结构化的。你找到这个扫描进去,没有问题。
        这个过程就是两天加一个小时和半个小时,就置疑你导数据库多少?这跟你不一样,我说不一样。因为你原先的数据就是结构化的数据,而这个数据打到库里面不仅仅做Hadoop,还有很多要做,比如显示、分析等等。其实大数据一定要取决于当时的数据来源。
        为什么我认为这是一个大数据的思路?有可能人家不认同这是大数据,但是大数据的思路是什么?就是不让传统的方法来讲,也不让用传统的方法,每个事情不要用传统的方法来基础。这个创新在什么地方?其实不是创新,我只是划了一个工具。实际上产生了什么样的差别?他们为机场提供什么?提供实时的气象服务,每个小时会收集到很多国外的气象站的数据,这个数据很乱,不是乱?格式多,来源多,精度不一样。我们要把这个数据,关系数据根本不行,关系数据参数很乱,我把每一个气象站,每一种数据都是打包,都是放在什么里面,都是放在NoSQL里面。因为气象观测数据,如果大范围来讲,一个点没有用,看的是趋势,看是范围。把这个拆成一条条,这个很高兴,原来数据做不进去,一下子就弄进去了。
        这时候关键不在这儿,你入了库在做处理,再做展现、分析,还不如把这个文件直接拿来,直接做成等装线,入关系库。因为你入的库还没有解决实际问题。大数据的观点是你迁移一次,转换一次,这个就是我们所说的大数据要做所谓的Relational,就是一定工具是重要的,而不是最后用的什么。
        我介绍一下oracle大数据可能跟大数据相关,可能讲得比较客观,比较直接。第一个从推论上收集到很多大量的数据,比如照片、文字信息、GPS设备。刚才说元宵节踩踏事故,一定把这些数据变成空间地理位置,这个是很花时间,一旦这个信息有了需要很大的工作,这样就可以聚集人群。另外做评估是再保险上面,第一个是有人的资质,保险以及收入,有规划数据,事故数据、同化数据、客户数据。美国人动不动报警,美国人非常喜欢报警,报警这个区域涉及是不是安全,所以就会对整个风险进行评估。
        对人流的统计进行刷卡,刷卡的信息拿过来,有多少人进这个地区,有多少人进那个地区?那是很零散的数据。刚才说交通上的落地分析,落地分析得有数据,过去做落地很简单,有一堆人雇一堆学生路口,因为那样的可搜集的数据在那儿。
        下面是旅游景区人流外地人和本地人的密度,同时在这个基础上可以决定在哪个地方加通讯基站,哪个地方可以服务中心。哪个地方人流比较密集,人流规律是什么样子。
        左上角是统计出来的是什么?地下水和地上水消耗情况,接下来可以去优化城市管网。还有一个可能说这不是大数据,但他跟大数据是不一样,可能不做分析,可以做数据准备。我们知道在应急的情况下,哪个地方地震了,往往大家都急得不行了,说国务院要走了,然后在国家局看到过,又拷贝又拼接,又镶嵌,又要做金字塔,就不行了。用大数据这个平台进行地表模型,整装线处理。
        实际上大数据里面有一个很重要的理念,就是Graph理论。Graph翻译成中文就是描述各个商业关系,这个在商业上用得很多。在网站上经常看到“买了你这个产品的人还喜欢”,叫产品推荐。它可以根据社交网络去看这个网络里面谁是头,还可以去划分,实际上Graph可以加上,也就是对大数据的Graph,可以做语音的推理等等。
        作为总结,我们认为空间数据在大数据上面是非常重要的领域,大数据可以出现的地方其实商业也好,资源也好都跟空间相关,做大数据离不开空间的数据。说大数据不要仅仅说挖掘是大数据,实际上大数据处理组织都是面临大数据;广义空间大数据覆盖组织、处理、挖掘、展现;收集机制,处理、挖掘方法比平台和系统更重要;大数据是为业务创新提供了空间。大数据不仅在商业领域,在政府领域其实也有很大的发展目标。
        天津他们很关心行政审批,建设项目的审批,有的时候这个单位审批了,那个单位还没有审,有很多的项目出了问题,这个项目跟那个项目打架,就是因为没有大数据,就没有把各个项目协调起来。如果能把这个信息及时收集起来,这样就不可能出现打架,而且领导层可以随时监管项目流程。实际上我认为大数据除了商业领域,在GIS领域,在政府领域也有很大的空间。
        这是我讲的内容,谢谢。

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开