极海高楠：玩转地理大数据，发掘更多地理价值-泰伯网

首先我们找到一个非常传统的问题，针对这个传统问题我们去找各式各样的地理的数据，我们把这些所有的地理数据变得值得让人信赖，然后把所有的数据通过各种技术手段把他们整合在一起。

　　2017年 6月13日，由泰伯网主办、主题为“空间大数据的崛起”的WGDC2017，在北京国家会议中心盛大开幕。大会由空间信息产业创新创业服务平台泰伯主办，秉承不断引领和促进空间信息技术创新与变革的宗旨，WGDC已走过六个年头，如今成为全球最具前瞻性的跨界创新风向标。

　　14日，空间大数据+人工智能峰会(极海纵横专场)开幕。峰会上，来自GeoHey·极海的数据总监高楠发表了以“玩转地理大数据，发掘更多地理价值”为题的精彩演讲。以下为演讲实录(未经本人核实)：

　　高楠：大家上午好!我是极海数据总监高楠，我一直致力于为用户提供地理大数据，帮助大家获取地理大数据，治理地理大数据，并从地理大数据中获取地理价值，并同中获益。

　　今天我将从5个方面为大家讲述如何玩转地理大数据，如何从地理大数据中获取我们的大数据价值。接下来30分钟我将为大家讲述如何玩转地理大数据，如何将地理大数据最终变为绝妙的地理价值。这里总共会涉及到5个基本的问题，传统的问题，搜集数据，提高数据质量等等。在这个里面我们知道一个很好的概念，最近半年一直在讲一个话题叫做新零售，新零售是当下比较火热的一个概念。时常听到很多业界的人士在谈论，总之我们的新零售就是要做好线下的生意。我发现有一套书特别好，叫做《新零售三部曲》，其中有一个书名道出了我的心声，强调地理的意义，地理的意义何在呢?接下来我们就来看这些地理上的意义。这里讲的第一个例子，一个传统的广告营销的例子。在这个里面，有四幅图，大家一定不陌生。我们如今所有的人都在用智能手机。我们可以说是机不离手，手在机在，这里的四幅图一定不陌生，尤其是高亮的部分，高亮的部分是广告，我们几乎所有的APP里面都会有广告的存在，只是唯一的不同是什么，你看到的广告和我看到的广告不一样。这些广告是怎么来的呢?我们知道传统的做法，所有的广告是跟我最近在网上浏览的数据相关。所以在这里可以看到，我最近浏览了有些汽车评测的视频和网站，在此他会推荐我汽车相关的广告，暗示我可能需要买一辆汽车，这样的数据，通过线上数据分析，跟我是极大相关。但我不会打开它，因为它跟我实在不相关。为什么这么说?

　　如果我们的广告商，他已经获取了，他看一看我打开APP的位置，我经常打开的APP的位置，他会发现我的位置实际上是离的很近的，我经常打开APP的地方是在家里打开，有时候在公司打开APP。如果它查看一些我的APP的位置的话会发现我家的位置和公司的位置只有三公里，我每天上下班只需要骑自行车就好了，如果他推荐一个自行车的广告，我一定会欣然打开，但并没有。我再举一个简单的例子如果我们要投放广告，我要给大学生投放广告，我能不能针对玩王者荣耀的人投放广告呢?显然不行。我能不能给用玩王者荣耀的人，同时用大学生借贷，并且交了课程表的APP的人投放广告呢?似乎是一个不错的逻辑，如果你要做这样的事情，你还要给数百上千的APP定义哪些APP是大学生会用的。如果在新出现一款新的软件，你又得去定义这款软件是不是大学生会用的软件，你可以想象这是非常巨大的工作量。

　　我们用一个简单的办法，就是看大学生所有的APP，我们用个简单的办法，既然你在投放广告的时候你的APP每打开一次就搜集一次我们的位置，就像这个图象一样，每一个黑点都是我们的一个位置，你为什么就不能做一个简单的事情直接找一找哪些在学校里面经常打开APP的人呢?这不是很简单吗，你不需要关注他用什么APP，我只要知道在这些范围里面经常打开APP就好了，我给这个区域里面的人投放广告就可以了，免去前面的烦琐的事情。

　　所以第一个问题，学校数据从哪儿来?我们不仅仅只是需要一个学校的数据，我们还需要用小区的数据，我们还要医院的数据，公交的数据，商场的数据，笼统的说，我们需要数百上千的数据。

　　这是一件非常痛苦的事情，这个过程到底艰难在哪里?我们在以往做数据的过程中最大的困难是我没有数据，数据匮乏。那如今物联网，互联网，数据已经非常之多了，你可能会想到，我们就去搜集物联网的数据，但是你去实际操作的时候你仍然会发现力不从心，为什么?数据越来越多，增长的速度越来越快。这就是问题的根本，数据太大了。

　　现在TB级的数据随处可见，你随便拿到的都是数百万，甚至上亿级的数据，我们用传统的办法已经非常难去解决这样的事情。我们可以想到，既然这样的话我一定要借助机器的力量，我用机器来解决这样的事情。如果用机器去解决，你一定会想到我们应该用爬虫的技术做这样的事情。你有没有想过你去做这样的事情的时候，如果我们能够保证我们的机器的运转在90分高分上运算，意味着我每十只爬虫有一只会出错。假设我一个月要采集一百份数据，那我要花十天采集所有的数据，每个月都要更新，结果是什么?每个月你有一半的时间要去审视那些错误的数据，错误的爬虫，因为每天要处理一个，你总共要处理十天。所以这个是很困难的事情。

　　为此我们搭建了一套系统来做这件事情，我们定期更新这些数据，当然这些数据，我们现在做的也比较完善一些。效果还不错。我搜集了非常大的数据，如果你像我一样，你也搜集了那么多一箩筐数据的时候，你一定发现一个什么事情。这些数据里面好像有一些不太对劲的问题。有些特别特殊的现象，我们来看看这里有什么现象?这里有三个场景，都是跟我们的位置相关的。第一个场景，特别有意思，不管采集也好，从物联网传感器也好，或者不知道从哪儿来的数据，中南海里面的数据非常丰富，有4S店有小吃，各种餐饮餐馆全都在里面，特别好玩。但是显然是不可能的。中间这个地方可以看到，蓝色区域是我们一个比较正常的区域，我用粉红线画出来的区域你会发现好像是有点像，有两个数据似乎可以叠在一起，但是他们分成两块，这样的数据似乎受到了某种不可描述的感染。

　　第三个事情我是一个自行车的爱好者，我去找一家复古的自行车看一些零配件，我辛辛苦苦跑了很远找到这个地方，发现这个店真的已经成为永久不存在的一个店，已经搬迁了。所以我们在上网查询这些数据的时候发现，这样的数据不值得信任，它不值得我去使用。如果我用这样的信息做分析的话，肯定很难保证我们分析的一些质量。

　　所以说，为了解决位置上出现的问题，我们做了一系列的流程，做了非常多的工作，来解决这样的问题。我们所有的数据进来，我们都会做一系列的规则上的过滤，还有技术上的处理。比如说有的数据在水面上，水上肯定不会有数据，除非它是跟水有关的数据，有些数据可能过期了，有些数据加密混淆，还有些数据根本不在地球上，还有的数据各种各样的坐标系。大家一定遇到有些数据可能直接给个坐标，就是00原点，在大海中央，这样的数据我们都需要过滤。这只是把位置的问题解决了一部分，还有一部分问题，我们非常非常的意外和惊喜。

　　如果有一个人跟你说这样的事情，告诉你，两居的房租下来人均10万，最近的房价不行了，有一个新房，待定，如果经常有一个人跟你描述这件事情你会觉得这个人极度的不可信，他描述的事情可能是有问题的，这样的事情不是天方夜谭。

　　大家看，我刚才上面说的三个例子，是真实存在的。前面一个就是我们说的10万块钱的小吃，你去看评论，实际上是9块9，但是后面的评论说没想到10万块钱可以吃这么好的。反而，还有人调侃给了五星，价格相对优惠，可以去尝试一下，特别特别的调侃。还有中间说的另外两种情况，这样的数据我们不能说它是一个错误的数据，数据是没有对错的。如果你去餐馆吃饭，给个五星，他送你一瓶可乐不是很正常的事情吗，快递小哥给你送外卖，求你给个五星，你也就给了他，也没什么问题。这些数据是真真实实存在的，只是你不信赖用自己的数据去出的决策。数据一定要记住，没有对错，只是数据值不值得我们信任。如果我们能想到一种办法，把这样的数据，把里面可信赖的部分筛选出来，我们用值得信赖的那部分做出来的决策，是不是有极大可能就是我们可以信赖的一种结果。

　　所以说，在这里，我们会引入一种方法，叫做机器学习来解决这样的问题。为什么要用机器学习?我前面已经提到过了，在大数据时代，任何一点微小的问题都会放的很大。你可以想象，刚才我们所举到的那几个例子，我可以用一些规则筛选到那些价格奇高的小吃，我们也可以筛选到一些加一些规则，把那些不太合理的房价给它筛选出去。如果用这样的方法你可以想，全国三百多个城市，每一个城市你都要设置一个房价规则的话，那剩下还有几百个数据等着你去设置，这样的话你基本上是没办法完成这样的工作的。我们用机器学习的办法，是怎么个原理呢?这里有一组表情，我们要做的事情就是把表情给它分成三类，高兴、不高兴，还有不知道是什么表情。我们从中选取一些我们认为的一些我们叫训练数据也好，样本也好，找出一些样本表情来，我们去分析，每一个表情，一共有五种特征，叫做脑袋、颜色、眼睛、眉毛、嘴巴，总共5种特征，我们把这些所有的特征，把这些所有的样本的数据放到我们的机器中去训练，机器会把这5种特征转换为机器所认识的语言，这样的结果，我们称之为模型。

　　用这样的模型可以做什么呢?当新来一个表情的时候，我们把这样的表情放到模型中，机器会分析它的5种基本的特征，是不是小方的脑袋，是不是嘴角上扬，是不是还有点眉飞色舞，如果是这样的话它是一个开心的表情。同样的我们可以想像，这5种要素中，如果缺少一个，比如说缺少了嘴巴，我们找到了一个表情是小方绿脑袋，并且它是眉飞色舞，没有嘴巴，这时候我们的模型可以对它判断，最大可能认为它是一个笑脸，因为多数笑脸都是方绿脑袋，并且眉飞色舞，我们可以把所有的数据看作一个表情，这样我们可以找出来哪些是别墅，哪些是小区，哪些是高档小区，哪些是低档小区。我们甚至可以做一些复杂的事情，有卡迪尔和劳力士的商场可能就是一个高端地段的豪华商场。

　　我们说下面的事情，刚才我说了有卡迪尔，有劳力士，有商圈，有地段。这个里面涉及到了非常多的数据，至少有三种，有品牌的数据，商场的数据，还有商圈的数据，如果我们要对刚才的事情进行分析，要三个数据结合到一起进行分析，所以说我们在这里要说一个问题，如果去把所有的数据结合在一起来使用?首先要想一个场景可能是大家经常遇到的，我们有数百种数据，如果像左边这样没有任何的关联，你在使用数据的时候，其实相当于把一份数据重复使用了一百遍。就像这里刚才说的那几样场景，一份数据如果之间没有关联，你做交通智能分析交通的事儿，你做房产只能分析房产的事儿，你做购物只能分析购物的事儿，你没办法分析更复杂的事。在这里如果你要分析一些比较复杂的问题，你需要把数据全部结合在一起。但是你分析的问题，能够分析多复杂的问题，这完全取决于你能把你的数据结合到什么样子。

　　在这里给大家看一个问题，我们刚才说了，这里有几份数据，比如说有道路的数据，有公司企业的数据，有商圈的数据，有写字楼的数据。我们实际上做的就是把这些数据全部给它联系在一起，到底是什么样的数据可以把所有的东西联系在一起呢，思来想去，只有位置。我们来举个例子，北四环来上面有什么呢?千鹤家园、盘古大厦、五矿大厦，北四环路在亚运村，GeoHey在千鹤家园，我们可以用地理上的观点把它联系在一起，这样的事情有什么意义，很多人觉得很正常，这就是关联。把刚才的事情详细说，如果你要做今天这么一件事情，叫做我要找亚运村，亚运村里面所有的北四环路上所有的IT公司，并且IT公司他的租金是5块钱以下，并且它还是一个商务楼。听明白了吗?如果我的问题要找亚运村里面所有北四环路上的所有的IT公司，并且他在商务楼里面办公，商务楼在5块钱以下，只有用这样的方法才能把这件事做出来，如果不用这样的方法，很多人开始做各种各样的操作。那将会是一件不可想象的事情，这只是关联四种数据，如果关联更多的数据呢?如果每一样都要做空间关联的话这是非常痛苦的事情。

　　现在这样的事情我们再来看，这是我们公司的一个地址，这个最后要怎么用呢?我们公司地址一般来说北四环东路，108号院1号楼2003室，我想把所有的数据都关联到我们公司上，怎么做?就往上加，我们可以把我们公司的地址完全的填出来，大概有十几项信息，意味着什么?意味着十几项数据。我把商圈跟我们公司关联上了，如果我要把道路数据，我想知道我们公司附近的道路是不是拥堵，我把道路的数据关联上了，我想知道我们公司的小区是什么样的小区，我把住宅小区关联上了，也可以用这样的方法，全部关联上。用位置的方法可以把所有的信息所有的数据关联起来。细心的同学一定发现这个里面比较要命的问题，我怎么能保证所有的地址描述都是标准唯一的呢?比如说在这里，清华就是清华大学，帝都就是北京，我们平时说三里屯酒吧，其实就是指的南三里屯路。说GeoHey就是北京极海纵横信息技术有限公司。首先我们想一个问题，地址的变化虽然很多端，但是变化再多，其实就像我刚才说的那幅图里面一样，地址的描述方式就只有那么十几二十种，为什么不可以把这些地址的描述都给它看成是一种表情的特征?我们把数据里面找出这些我们觉得相对描述比较准确的表情拿出来作为我们的训练样本对它进行训练，训练的结果我们再来预测，再来找我们的数据里面哪些地址写的不是那么的好看，有点挤眉弄眼，把那些挤眉弄眼的数据纠正回来，弄成眉飞色舞的数据就实现了。在这里我们继续用机器学习做这件事情。

　　所有的问题我们再回归一下，我们刚才一开始的时候说的是，我们要投放广告的事情。我们要把广告最终要投放给大学生，我们前面做了那么多花哨的工作，做了数据关联，做了数据的数据，最后我们一定要把所有的数据要用起来，要用到投放到大学生这件事情上，大家最关心的其实就是我们用地理大数据，最后能不能找到各自关心的人群，能为我们做出一些决策上的支持。所以说在这里我们要想怎么能回归到人群中去?虽然我们一直在做的事情是地理数据，但是你有没有想过所有的地理数据都是由在座的所有人创造出来的，怎么说呢?

　　举个例子。我家楼下一共有两家理发店，我非常的好奇为什么有理发店，因为有理发所以有理发店，为什么要理发?因为我上班的时候不会理发，就下班的时候理，如果这里住很多人意味着理发店周边有居民楼，一定不是写字楼。反过来想，如果有两家的理发店，为什么会有两家理发店?如果一家理发店他的生存的成本是一千元的话，那么我们可以估计，如果他们一般说来，十分之一的人会去理发，如果这样的话基本上可以算出来，根据两家理发店可以算出来这里至少有两百人，一家理发店的生存成本是一千元，有十分之一的人理发，这样保证两家理发店生活下去生存成本是两千块，十分之一的人理发，结果可以算出，这地最少需要两百个人理发。所以我们可以推算一下这里的小区，可能大概会有两千个人。这是我们只是算了一个理发店，那么蛋糕店是不是这样，商场是不是这样，快餐店是不是这样?如果你可以把所有的地物都给它算一遍，我们是不是基本上可以推算这个区域至少有多少人。所以用这样的方法我们把所有的事情关联了。

　　我们还做了类似的事情，我们会延伸一些数据，我们可以算一算所有的写字楼里面的人一般都在哪里，哪些商场里面购物。比如我们算一算有一些电影院，电影院吸引的人群在哪些小区。如果是这样的数据已经做出来直接使用的话发现我们要做投放广告，这件事情会变得如此的简单，如此的容易。最后我想强调一件事情我们做所有的事情一定要获得地理大数据的价值，从前面讲的所有的东西我们可以看到，我们做这件事情如果缺少可靠的数据，所有科学的辩驳都会是无源之水，无本之木，如果我们要避免这样的事情，就是前面讲的5个方面。

　　首先我们找到一个非常传统的问题，针对这个传统问题我们去找各式各样的地理的数据，我们把这些所有的地理数据变得值得让人信赖，然后把所有的数据通过各种技术手段把他们整合在一起，最后我们要把所有的数据给它延伸到我们的个人，让我们的个人从中能够受益。谢谢大家!