郑宇：大数据与城市计算-泰伯网

在过去几年里有了很多进展，最开始的最快行车路线设计，到人的移动发现城市的不合理的地方，到这个地方什么是商业区等等。最近两天有新的进展，包括空气质量、噪音和能耗等等，今天集中三个主题分别关于空气质量、噪音和能耗方面展开演讲。

　　6月11日，北京国家会议中心，以“融合开放智能”为主题的2014地理信息开发者大会(WGDC2014)在此拉开帷幕。地理信息开发者大会自2012年起开始举办，三年时间里，伴随着中国地理信息产业的快速发展，已经成为地理信息领域最具影响力的技术创新盛会，与跨界融合、国际交流的重要平台。

泰伯网

　　在下午的主会场，微软亚洲研究院主管研究员，上海交通大学讲座教授郑宇为大会带来精彩演讲。

　　以下为演讲全文：(根据现场速记整理，未经演讲本人审核，如有疏漏，请谅解并及时与3sNews联系)

　　大家下午好!众所周知城市污染问题解决非常复杂，现在从社交媒体到道路结构，到气象条件，产生了各种各样的大数据，如果使用得当的话可以利用这些数据发现这个城市的问题，并且自动解决这些问题。基于这样的愿景我们提出了城市计算的框槛，包括城市感知、城市服务提供和数据挖掘，形成一个环路不断的自动的改进这各城市。简单来说就是大数据解决大城市大挑战。最后做到人、城市运转效率和自然环境三赢的系统。

　　第一个是空气质量，众所周知现在空气质量有多么重要，政府已经把它拔到相当的高度，而且现在已经变成全球的关注热点。在中国的很多城市里，我们见了很多空气质量监测站，告诉老百姓，每个小时，你周边空气质量什么样?但是有一个问题，站点的数目非常有限。北京市六环以内22个站点，已经是很多了。但是，远远不够，因为北京这么大。为什么不建那么多站点呢?因为很贵、既占地费用很高，也有后期的维护，不是一个小的传感器就可以做到的。

　　空气质量在一个城市里面是不均匀的，这个图的每一个图标是建的站立，数字就是空气质量的指标，绿的表现非常好，紫色是非常差。同一个时间节点里22个站点的毒素差别非常大。有的是几十，有的是几百。其实并不奇怪，因为一个地方空气质量有很多复杂因素，比如房屋结构扩散条件，土地使用厂矿还是公园。

　　下面这个图可以看到，它不光在同一时间各个地方不一样，不同的地方随着时间变化也是不一样的。我们只有这么小的站点，没有站点的地方空气质量是多少?比如我们开会的地方，空气质量是多少?我们也不清楚。我们不能通过一个简单的限性差值的算法代表空气质量。整个城市给一个平均毒素没有道理，我们用大数据的方法做实时的细粒度的空气质量。

　　我们用两部分的大数据做一公里乘一公里范围的空气质量。第一部分数据就是已有站点的实时毒素和历史毒素。另一方面是来自与天气情况。交通流量数据、平均数据多少、地域拥堵情况怎么样?人的移动性数据，和兴趣点数据，有多少餐馆?厂矿?公园还是绿地?把这些数据融合之后建一个模型，把各种数据融合跟这个地方空气质量进行融合做一个模型。你只要在这个地图上点任何一个位置我们就可以告诉你这个地方的空气质量什么样。现在这个系统已经上线了，有九个城市，包括北京在里面都可以提供服务。这就是云加端的系统，并且是实时计算大数据提供服务的案例。

　　我们在云端采集空气质量数据，经过分析处理，给用户提供的是细粒度的空气质量。

　　我们把我们的方法和很多传统的方法，特别是和传统动力学的经典模型进行了比较，最近跟环保部有一个合作，传统的环境学，基于污染物扩散物最多做到0.6，现在通过大数据的方法，把弱相关的数据联系在一起可以提升到0.8，是20%的提升。我们用北京、上海等十个城市做验证，利用本身站点的毒素做比较。我们对每一个站点做比较，很容易知道过去一年里的准确性到底有多高。

　　下一个问题是能耗问题。尤其是在城市里面，车辆、汽油的油耗。谁告诉我，过去一个小时里面北京市路面所有汽油量消耗总和是多少?很多人回答不上来，其实这是能算出来的。算出第一步的话，问第二个问题，过去一小时里产生PM2.5排放量是多少?能算这两个，就跟前面的空气环境关联到了一起。这是可以算出来车在PM2.5到底占多少?之前有人得出的结论是40%，有争议。其实理论上算的话，每个车把传感器的排放、油耗都装过来，这不现实。比如导航软件用少部分的车作为传感器感知每个路段的流量和速度，那么就可以利用环境学经典公式算出排放，主要有三个步骤。

　　第一部分：利用已有GPS数据算出有限道路上的速度。在任何时间，大部分的路上是没有数据的，那么速度怎么算出来?怎么把全程里的每一个路段，每一个10分钟里的速度算出来，这要考虑时间、空间和地域分配和POI的配置，是很难的问题。我们有一个技术可以解决，误差可以算到10%。

　　第二点，单位时间通过车的流量的速度，这不仅仅是速度的问题，这也有模型可以测出来。如果这些东西都能算出来之后，很多应用都可以做了。刚刚讨论的最低油耗路线完全可以做。最环保的路线、以及你可以告诉政府哪些道路设计不合理，油耗就是高于其他地方，有它的原因。

　　看一个例子：三个图工作日、周末和国庆节，鸟巢这个地方。

　　中关村地区，工作的时候3点到4点，这个车的地方并不多，周末的时候大家到这儿购物，一氧化碳的排放量显著上升，这方面来讲我们也可以做实时的污染预警。

　　北京市全程油耗综合图：红色表示高油耗、绿色是低油耗。不同的工作日还是节假日，还是法定节假日里面，总体油耗随着时间的变化而变化。可以看到有趣的是，法定节假日的时候，比如国庆节总油耗郎反而更高，其实走了一部分车之后，我们的车流速变得更快了，单位时间可以通过车的总数并没有变少。

　　第三：噪音的问题。中国人民非常关心环境污染，美国人民关心噪音问题。在曼哈顿这个地方，每次去的时候都睡不过4点，因为很吵，噪音来源于很多因素。比如说你可能是卡车、垃圾车清运，或者酒吧、或者是建筑工地。真正解决噪音污染要考虑三方面的因素。

　　第一要知道什么地方比较吵?第二到底有多吵?第三，它的成分是什么，为什么吵?如果解决这些问题就可以有策略解决噪音污染。噪音比空气要更细粒度。一分钟前的噪音帐户和现在又不一样。如果用传感器解决需要成百万的，不可能做到。

　　另外即便布了传感器你也不知道噪音的成分是什么?恰好在纽约有一个允许大家打电话抱怨你感觉到不满的地方，你每次抱怨的时候有地址和时间、以及类别。根据这个类别统计，噪音污染是第三大类。有了这样的数据，可以间接反应这个城市的噪音污染情况。如果这个地方噪音污染越严重，抱怨次数就越多，大家打电话投诉的概率越高。人作为一个传感器，帮助我们感知它周边的噪音情况，并且告诉我们它的原因。这个数据和稀疏，不是每一个地方都有人打电话来抱怨。很多时候我们没有抱怨的数据，但是并不代表这就没有噪音，因此需要考虑到大数据的融合。因为我们真正做大数据，不是用单一数据，一定是多个数据融合到一起，并且数据和数据之间要发生化学反应的。我们把噪音数据加上兴趣点的POI和地址POI进行分析。还有一般是社交媒体的数据，check-ins越多经过分析发现，在某种类别上，这地方带来的噪音污染越大。

　　把这些数据融合之后，可以算出这个城市里每一个区域，每一个时间、每一种污染物的成分和比例。比如时代广场这个地方，随着时间的变化，各个地方噪音概率程度是多少?比例是多少?可能周末的时候是音乐，下午的时候可能就是施工。

　　具体某一个地方随着时间变化的噪音变化也可以看到，比如华尔街，随时间变化第一大污染物是建筑施工导致的噪音。也可以看这个城市的总和是什么样的。比如纽约第一大噪音污染还是音乐和酒吧。可以看某一种特定的类别，比如开酒吧的噪音污染，可以分析这个城市哪个地方噪音污染最严重。哥伦比亚大学这地方噪音污染最严重，因为也可以看到POI分布，这里面有很多餐馆和娱乐设施，这是它的原因之一。

　　我们也可以把不同的地区进行对比，看看它噪音构成有什么区别，显然华尔街和哥伦比亚大学有很大的变化。那么这样的信息可以帮助很多人做决策，比如帮助你买房的决策。对于华尔街建筑施工是主要的原因，对于哥伦比亚大学还是因为音乐和酒吧的噪音污染最严重。

　　今天讲了很多，大家要问什么是城市计算?城市计算是通向智慧城市的方法。通过大数据融合的方法来导致最终智慧的城市。远景就是用大数据解决智慧城市。用智慧挖掘的方法通过大数据的方法将城市变得更智慧化，实现人、自然、环境和城市运转系统里三赢。