分享
Scan me 分享到微信

高德田密:大数据——从理论到实践

在6月12日的地图客开发者-高德地图专场,高德LBS开放平台与大数据融合部总经理田密发表了题为《大数据:从理论到实践》的演讲。

  6月11日,北京国家会议中心,以“融合 开放 智能”为主题的2014地理信息开发者大会(WGDC2014)在此拉开帷幕。地理信息开发者大会自2012年起开始举办,三年时间里,伴随着中国地理信息产业的快速发展,已经成为地理信息领域最具影响力的技术创新盛会,与跨界融合、国际交流的重要平台。

  在6月12日的地图客开发者-高德地图专场,高德LBS开放平台与大数据融合部总经理田密发表了题为《大数据:从理论到实践》的演讲。以下是演讲实录(根据现场速记整理,未经演讲本人审核,如有疏漏,请谅解并及时与3sNews联系):

泰伯网

  大家上午好,我是来自高德的田密,今天非常荣幸和各位同行、朋友分享下做数据的经验。

  首先给大家看一下我们地图服务的架构,地图服务最常见的是三个服务,分别是定位、搜索、导航。三个服务其实下面都有数据,比如说我们做定位的话,我们需要找到航拍的数据,搜索的话需要找到POI的数据,导航的话需要道路和实时交通的数据。这些数据经过我们的摸索变成服务之后,在网上我们把地图封装起来,并提供各种各样的接口,像SDK、API等等。再往上找到我们的导航,还支持其他的APP,像生活APP等等。其实可以看到,做地图服务,你有什么样的数据就可以做到什么样的服务。我今天会着重讲一下地图最核心,最根本的POI数据,我们把POI分为三种,叫做基础、深度和动态。POI基础数据是指名称、地址、电话、坐标,这是基本的数据。POI深度是指附加的信息,像评论、图片、星级等等。动态是指POI的一些操作,比如说订酒店、买团购,订电影票等等。

  其实像高德最传统的是靠实采数据。刚刚说到这是非常艰苦的活,但是也有不少需求出现以后,实采数据不能满足用户的需求,我们去找非常多的数据的来源。然后有来源以后,还必须有自动化的,实时的处理机制,才能够让数据留在我们库里面去展现使用。第一部分是我们逐一看看数据的来源。

  最传统的是刚才我们说的实采,包括车采、步采等等,到现在这也是一个最基础的体力工作,也是一个最重要的保证。我们也可以通过一些图象识别技术提升我们采集和处理的效果。然后随之还要实现人工验证,就是说并不是所有地方都可以找到,我们可以去验证,比如说通过打周边的电话核实,通过街景图去核实,通过互联网的搜索结果或者是官网,以及其他的论坛核实,这些数据的确有,但是我们缺一些人工标点,这个实采验证是我们数据最主要的补充渠道,尤其是对于基础的数据。

  刚刚说这两个是我们高德自己做的,其实也是做到有限的点,比如说实采会采到路边比较大的点,但室内的点我们采不到,我们会通过各种各样的合作,我们在哪一个领域找多少家来源,合作方去采集它的数据。所以我们最主要的目的是三点:一个是补充我们基础数据,像刚才说的大的点在哪,但是室内的点我们通过合作去接入。比如说偏零售的点,我们去做点的接入。另外是扩充我们深度数据,我们有一些基础的数据,但是上面的图片和积累的特色,每一个合作方会做得更加专业,更加详细。另外是提供动态数据,比如说酒店和机票等等都是通过合作方接入的,基于合作本身我们不会做太多的扩展。

  还有用户反馈,这是比较重要的一环,我们的定位和实时交通,其实是非常依赖于用户的反馈的,我们可以把用户反馈分为主动和被动,被动反馈就是说在用户知情的情况下,用服务的功能自动回传,主动反馈是主动发起传回,用户信息上传的信息做一个校准,比如说智能交通的,把你的轨迹回传回来,然后辅助高德的数据校准。但是POI的数据比较少,用户点了POI之后,并不是说POI一定好,我们需要做信息的挖据,点开POI以后,要做下单,这是有利的反馈。另外是用户反馈场景,这个量不大,所以现在我们必须要把高德对数据中扩大它的使用场景,这样的话从更多的场景功能拿到更多的反馈。比如说我们把POI和新浪微博打通,你在微博上反馈的情况我们都可以拿到。比如说我们把数据和阿里打通,阿里里面的操作,比如说优惠券和游戏,会迅速的进到我们高德里边来。比如说我们和小米合作,这样的话小米打电话的时候就知道这个数据来自哪一个POI,我们把数据给到搜索,也会有结合。我们把数据会传下去,会收取更多的用户反馈。

  众包这个词大家不会陌生,而且用得越来越多,而且这也适合来做。比如说我们现在做一个众包的财富软件,我们叫做寻宝,其实这里边已经有很多的组件了,比如说我们采门址、路牌等等,我们花少量的钱,一个点,或者是一个门槛花几毛钱,请用户帮我们拍照,传回来。用户顺手做了,还能赚到一点的钱,装备也很简单,这些用户量是非常泛的,比如说我们门址,通过这个方式获取了上千万的门址的量,POI的反馈也有几万,算下来全年是过千万的量,这个方法是很有效的渠道。但是有一个特点,众包你会发现其实中小城市参与比较多,一个是大城市可能我们本身覆盖比较不错,中小城市我们覆盖比较弱,这些报酬对中小城市的用户来说更加有吸引力吧,你会发现众包的反馈还是蛮好的,是对我们高德采集量的一个补充。另外采集量很高,但是也有作弊,这需要我们在做众包清理的时候要有比较完善的机制,另外还要有审核和挖掘。总体来说这个渠道的话,其实是蛮有效率的渠道。其实也可以开个玩笑,现在很多的用户是拿着一个手机,装上高德和百度的APP,采集数据来赚钱,这其实也是挺有意思的。

  刚才说这个众包,或者是客户反馈我们会说到UPC的数据,我们回到BPC,就是商户的反馈,商户做他的标注,把连锁店的信息做完善,然后通过地图发布活动,像打折促销啊。但是这个模式目前还需要培养。一个是商务操作,上次看到一个界面的操作,不知道怎么样把自己的地图做准确,怎么样发布用户信息。另外是从意图上发布信息能带来的好处是疑惑的,他们不觉得地图是一个很好的渠道。所以我们现在的做法是和阿里动线,阿里本身就是做商务的活动,阿里在商务上去做发布是非常自然。做阿里动线之后,阿里可以实时获取到的,所以我们这种模式的话效果会更好。

  然后再有一点就是说我们的云图,这个云图其实我在之前很多的讲了很多,我主要是讲讲这个原形,我们关注从高德自己采,合作方拿,UPC,BPC,你会发现这个数据还是不全,我们中国的数据量几千万,但是离全还是有很大的距离。很多的用户和开发者自己手上有很好的私有数据,但是可能是一个不太方便开放,一个方面可能是觉得还需要有清洗。我们高德提供一个产品,你可以非常方便的把你私有数据,我们给你提供存储、搜索需要的能力,你可以很方便的把数据传上来,然后基于这个做成自己的APP。数据传上来以后我们进行评估,如果你数据优势的话我们可以谈合作,把你的数据融到我们高德母库中,你数传上以后可以利用高德母库中的导航进行清洗,达到一个双向的过程。当然这个云库在使用中也有更多的拓展。

  另外是抓取挖掘,我们抓取是谈到了很好的几家,这个领域非常的潮,也有一些小分析合作方,我们通过抓一次都搞定了,抓结果之后我们做了一个挖掘,其实很多的反馈,其实散落在互联网上,因为毕竟说在地图上只有很小一部分,我们合作了各种的微博,各种的小米手机也是一部分,还有可能大量的散落的数据来挖掘,然后通过挖掘来做字段来辅助我们搜索和导航。

  这是讲的第一个部分。第二个部分是讲说我们说有这么多来源,搜集数据上来以后怎么样处理,数据处理更难,采集的话是参差不齐,如何清洗、过滤、排重、融合,还要保证实时的更新和出错,这是一个难题。这个图挺丑的,一看就知道是开发者画的,蛮不错的,大家看左上角,有一个数据输入,有很多的数据来源,我们把数据做格式化的解析、规范化再往下走,然后进入我们的准入平台,这个数据质量怎么样,有没有资格流入到高德母库中,王下走,然后走到最后我们有聚合,你来了以后跟我们的数据是重复的,重复的话就在已有的,如果不是重复的,我们就新增一个。聚合以后是融合,你这个点已经有,进来以后不会新增,但是会带好更多的属性和字段,我们会往下融合的,丰富已有的数据,这是我们的数据融合。然后我们把数据落地,然后资料发布,给我们高德的应用方,高德的内部或者是外部的应用方。同时再往上右上来看,这个数据有离线的挖掘,包括容错,反馈到数据中来揭露一些信息。这是我们高德数据处理的框架。

  我们看看框架中比较重要的核心点,第一个是POI存储,这个量级比较大,有的做几百亿的级别,我们高德的库也是亿的级别,这个量比较大,但是更新非常频繁。这个东西其实因为很多的字段,很多的点,我们去操作,然后我们会做一些更新,有一个点从反馈到更新,非常久的更新,这个对数据库非常高,没有说哪一个好,哪一个布哈,我们也是在做常识。我们最后用了IDB,其实是非常简单的数据库,就是一个查询,没有说所有,所以说反而读写的时候效率非常高。这个数据压缩相对比较好,我们可以比较容易的把这个商业数据压缩完了以后打到经济中去。数据处理之后呢进入预处理,处理是一个准确活了,从地址切分到字段补全、规范化,再到生态统一ID。然后是数据的准入,这个数据的来源是多种多样了,来源的坐标可能是缺失或者是不准,我们对坐标进行重新的校准,然后把一些涉密的东西过滤掉,这是我们的准入,说到准入最核心的一点是坐标计算。只能说地图变成坐标,我们把整个的物理的世界,现实的世界,映射到线上虚拟世界上来,我们的物理世界也是地址,多少多少号,什么什么对面或者是什么范围内,这些地理的描述要影射到基本的坐标,才能参与到我们所有的服务。其实这个做计算是各大地图厂商非常核心的一个能力,其实这个能力依赖完备准确的库,这个通过测绘是非常难以覆盖全的,这一点有很好的优势,比如说我们举两点,一点是我们通过众包,如果实采门址就是几百万,我们通过众包以后数据量增加很多。另外是我们跟阿里合作,阿里每天有大约亿级别的运单数据,运单的话有很详细的地址,这样的话会有坐标,这是一个非常好的来源,这个对我们做计算有非常好的辅助的作用。我们高德这个方面有蛮大的优势,有了这个以后,我们做结算其实主要是分块,这一块就不详细讲了。

  另外一个非常核心的是叫做聚合,刚才说了来一个新点子的话,这个库里已经有了,我们实践出来,不做的话我们还有质量库,搜很多的类似的点,其实是一样的,做狠的话,本来不是同一个点,做狠了,发现有缺失,这个能力也是非常核心的。我们把它分为两种,在线和离线,在线的话做聚合,离线的话,你有一些数据是变化的,定期的,比如说一两天,把所有的数据重新做一下,变化的数据干掉。然后还有一些算法在里边做支撑。

  刚才说到了融合,就是把多个POI选择一个,设一个最佳的POI接口。比如说我们像记数据,像电话有很多的来源,我们根据计算、时间选择一个优质的最权威的融合数据。比如说深度比如说评论和标签,我们会做一个融合,这个融合发生冲突的话,我们基本上选择最好的,比如说动态数据,刚才我们说的酒店数据,我们有十几家的酒店,每个酒店都有不同的行情和报价。我们对这个数据就可以把它做一个二次的,根据每一个酒店的价格和房情,按照最优惠的排在最前边,每一个子频道的聚合的服务,比如说酒店的聚合,电影院的聚合,旅游的聚合等等,其实会发现整个生活辅助都可以覆盖到,这个基本数据也是使得地图不仅仅是查询的东西,更多的是服务入口。

  融合算法这是刚才说的,根据不同的优先级和时间来做的优化,这个不讲了。

  然后数据其实最头疼的不是说收回来,还是说数据的孵化,很多的采集是正确的,引证也有正确的,但是突然的倒闭了,或者是突然冒出一个新增的,怎么样把迅速的点反馈到我们的库里边来,这很难的点。第二个是说自采数据还合作,来自于合作等等多个地方的。我们会做大量的数据挖掘和人工的核实,才能够把数据做出来。比如说举一个小例子,一个电话,很有可能店关门了,这个时候电话就有问题。比如说这个点关门了,我们就知道,通过实采更新,比如说三个月,半年才能捕捉到下一个星期,我们通过反馈,比如说用户在点这个评论,在这个百度百科,在新浪微博中提到了任何相关的关门、搬迁这样的字段的话,我们会抓回来,然后进行审核。比如说我觉得这个经验很可能关门了,我们就用户区随便拍一张新的照片,看看是不是等等通过多种方式去做数据的纠错。

  数据处理的因子挖掘,我们通过各种计算方法计算他的可信度,有很多的信息我们不可能过去看到,对数据的可信度主要是对数据的重要度,比如说街边的美食,地图上做渲染,能体现到地图上是少量的几个字,然后通过Rank来挖掘,把重要的信息放在地图上。数据的热度主要是商业价值的体现,比如说POI的用的点非常多,下单非常多,使用非常高,有很好的商业价值,这对我们做商业变现有很好的依据。

  最后是讲数据的如何分享,我们数据做数据,我们不藏私,我们做开放,分为三个层次,开放数据,开放服务,开放组件,开放数据是最低级的做法,对非常紧密的战略伙伴做分享。其实我们最主要是做开放服务和组件,主要是我们地图的服务,API的开放,我们做很多的工作,通过我们API的搜索开放使用,通过API上取得数据,然后我们再往上我们希望把服务做成组件,比如说话提供接口的时候,还要拿到数据,自己去分享,做界面的展现,自己下单等等的流程。我们其实是想更进一步的把服务分成组件,各种界面,然后APP直接嵌入进去,做主要的开发。所以我们开放服务是授意开放人去开放应用。比如说通过我们的API获得高德的所有的数据,搜索云图,可以很简单的上传的一个功能,传到高德地图上来,通过数据检索以后给你提供展示,只要有数据,数据马上会变成服务。

  我们是通过地图的APP的端,通过云图的云端两个合起来来做,开发者非常方便的构建自己的应用。开放组建支持移动应用变现,比如说有很好的,流量很好,你嵌入广告就可以赚,你可以放广告,也可以放入口,入口就潜入我们高德的组件,这样的话就非常方便的提供组件的查询功能,通过点击的话,可以方便的去搜索,去看详情,去下单,甚至是去支付,形成一个闭环,只要有流量,就可以通过某一个组建获取分成。这也是说高德希望把我们服务和数据,开放的方法去贡献给大家,加速大家移动的LBS的开发和移动的变现,这是我们高德对数据分享的理解,OK,就讲到这里,谢谢大家。

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开