袁晓如：数据驱动的地图构建与时空可视分析-泰伯网

5月15日，北京国家会议中心，由3sNews主办的2013地理信息开发者大会(WGDC2013)在此隆重开幕。作为业界最具规模、最具实战性的顶级开发者盛会，本次大会吸引了行业内外的关注，大家齐聚一堂，共同探讨地理信息产业的跨界话题。

　　3sNews讯 5月15日，北京国家会议中心，由3sNews主办的2013地理信息开发者大会(WGDC2013)在此隆重开幕。作为业界最具规模、最具实战性的顶级开发者盛会，本次大会吸引了行业内外的关注，大家齐聚一堂，共同探讨地理信息产业的跨界话题。

　　在5月16日的大会“三维实景”分论坛上，北京大学“百人计划”研究员袁晓如发表了题为《数据驱动的地图构建与时空可视分析》的演讲。

泰伯网
北京大学“百人计划”研究员袁晓如

　　以下为演讲实录：

　　袁晓如：今天我们主题是三维实景，我要讲的基本上没有三维的，我讲的都是二维的东西。我今天讲的主要是我们怎么样把一些各种各样的信息和内容，我们把它转化成图形，怎么样让它看得懂，除了看得懂我们希望从里面找到一些有趣的东西，或者我们探索新兴地图的东西，我们会谈到各种各样的地图，今天早上有一位嘉宾，他讲的是怎么样我们能够看到我们的交通什么时候拥堵，什么时候不拥堵，这个情况下我们也会看到这样的我们一些分析。

　　今天我们来看一下，先用地图开始，地图是非常古老的，我们查一查网络的话，可能发现我们地图很早几千年就有，那时候都是手画的，这个可能是世界上第一张绘制地图。这个通俗的地图形式还有各种各样的地图，像这样一个也可以认为这是对于数据的呈现。拿破仑进攻人数衰减，经过不同战役败退的情况。这个是在人类历史上，在伦敦一百多年有一个很有名的例子，有一个医生在伦敦一次惑乱当中，因为惑乱死亡的人数做了一个记载，这个相当早做的分析的地图，也是成为流行病学的先驱。这个都是计算机发明之前的一些地图。今天我跟大家分享我们做的几个工作，一个我们有一些公共事件的地图，还有我们怎么样把微博的信息转化成地图，还有交通拥堵的情况。这里面我们把每一个发生禽流感，或者死亡，或者治愈，或者有一些疑似病例我们投影在地图上。这个我们关心它的变化，这个现在最新今天上午的截图，我们最新看到这样一个统计，北京只有一例，在上海杭州、江苏有很多例，我们可以通过这个颜色看到它不同状况，同时我们看到更多情况，我们回顾历史看见它发展不同的情况。

　　我们如何点击这个红的颜色，这个代表确诊，我们想知道这个确诊人什么时候开始认为疑似病例，然后到医院确诊，很不幸这个人在4月9号的时候被确定不幸死亡。我们看到历史事件的发展，我们点击上海的区域，看到其中某一个案例如何。这样情况我们可以通过这样的方式，我们揭示整个事件随着时间地域不同的发展情况。

　　还有大家关心我们的空气质量，空气质量我们是不是有一个很好的地图帮助大家自身处在情况如何。我们同样也有一个地图，这个地图我们把很多信息融合在一起这里面我们看到有不同的测量，有的PM2.5，有的二氧化氮，一氧化碳还有臭氧等。春节附近两周时间，我们看到PM2.5的值，大家有兴趣看一下我们这个图，这个我们跟北京市环保局发布的数据对接起来的。

　　所以通过这样可以给我们带来很多生活的便利，我们还可以做更多的，下面我们想看看对于微博刘硕，我们能不能从微博里面提取更多的信息。在去年的时候我们有一个很重要的事情，有一个7月20多号北京下暴雨，下暴雨的时候在全北京区域有几十人因为暴雨引发的山洪死亡，还有一位在北京城区在汽车里，结果不幸被淹浸死亡。有很多人发微博，他会说楼下不浸水，会带一些地理信息，我们可以看到各种各样的微博，这些信息单条对我们作用并不大，我们如何收集起来，我们有一个叫做(英文)，除了像暴雨我们各种各样的主题可以收集起来，无论是有地理信息标记还是没有的，如果没有我们可以从文字上进行一些提取，这个是跟处理相关的事情。

　　我们通过众包的手段，我们对微博地理信息的提取也是众包的手段，每个人使用这个微博都可以做一些标记。他更正某些微博，本来在这，结果被错误的定义在一公里以外，这样他可以自己定位，这个是人和机器自动和手动的过程。人在讲可视化，很多把可视化当作一个完全被动的展示，其实不是，可视化是把人和机器联系起来，通过交互手段进行分析的过程。

　　这个里面我们看到有一些问号的，如果点击你看到这些信息，这个会从这里面提取出来某一些信息，提取出来在东城区之内，用户用鼠标高亮，高亮之后我们有这样一个定义找到这样的地方，我们也会链接，这是总结提取出来的微博信息。通过这样处理我们总结出来，我们另外一个模式，经过很多人总结之后，我们发现很多微博定义为这个区域了，这个区域也是我们重点定义比较突出的地方，这个广渠门这块有一个被淹身亡的事情。五道口、望京这些地方都有这样的一些情况。

　　一方面反映实际我们观察到的，另外一方面也反映到当地有多少人在这个上面进行观察。所以我们其实是两个世界的合成，一个客观外在世界，还有一个人类的内在世界。这两个世界的卷积，这个非常有意义，我们考察这个事情对人的影响，我们考察人的反映，不简简单单的说自然的一个量。

　　微博收取起来之后，它的变化，我们也会跟一些新闻媒体发表的一些信息，这是他们发表的信息，我们发现大部分的位置是对的还有一些地方我们经过微博没有标记出来，通过察看，那个地方有很少人经过，大家不会专门到那发一个地方。发微博比较多是人口聚集比较多，暴雨引起路面被淹对人影响，就是影响在人口比较密集的区域。

　　旁边中科院地理所贴了这样一个图，我们看到北京被淹没的地方，基本上跟原来50年代的时候，这些湿地比较低洼的地方是重合的，我们对大自然的改造，也不应该违背一些历史规律。从原有的方法来说是非常难以得到的效果，当然我们还有可以通过网上大家对雅安我们可以做类似的地图，这个我们地图我们放到线下了，上面包含很多人的名字信息，甚至还有一些电话号码，可能被人无意的使用，就是灾难发生我们可以很快的去使用这个信息。

　　关于交通的问题，我们有这样GDPS的轨迹地图，我们这里面收集24小时，大概三万量车，在座各位有数据欢迎跟我们合作。这个是我们把这些数据整合然后形成这样的渲染，这个去年我们有国际艺术展上，北京从12点，这是24小时，每两个小时做一个帧，在四点钟基本上没有交通流量，但是白天的时候非常拥堵，我们可以看一个视频。这个我们看到从12点钟开始，随着时间开始。这是一点多的时候这一块很热闹，这是三里屯。四点钟基本上没有什么人了。北京站这一块出远门的人起的早，出门的人五六点钟就出发了，然后是各种各样的上班人群，下午的时候这些黄线非常热闹。我们看到东边永远比西边堵一点，这个符合我们日常规律。到晚上的时候逐渐各种交通开始消停了，有一个区域还是比较活跃，朝阳工体旁边。我们还希望看到一些细节。我们希望从另外一个角度我们不仅仅是说看一个整体情况，哪块堵哪块不堵，我们希望有一个更精细的工作。

　　我们可以截取这些路网中间的某段，得到这一段之后我们再去跟这种GDPS的累计数据进行匹配，我们挖掘分析20多天的数据，我们有更多数据可以做更多时段的分析。我们以每15分钟做一个段进行划分，看交通流量分析是不是拥堵，我们从不同颜色标不同的速度。我们发现观察如果这一些区域属于比较拥堵的区域。3月20号下午三点多的时候，速度平均速度只有十公里多。这个我们仅仅用出租车的轨迹数，但是不能完全代表所有的车，某些拥堵的路段，出租车在那聚集数量有一定密度，这样它能够代表当时的路径。

　　我们看看北京市的不同情况，我们选了六个不同的地方，这两个地方一个在三环，一个是在四环这一点。这是很典型的早上7点钟开始堵车的，下午的时候这也比较堵，中午这块比较稀松的。另外一块平时有很多密切堵车的现象。我们看另外一个，这个地方在北京西站前面两条路。一条路是下午堵，就是班晚高峰堵，一条是上班早高峰的堵。我们再来看另外一个，这个应该是一个北京新的展览馆，在有展览的时候呈现了非常堵车的严重性。这块是通往我们机场高速，我们这个数据2009年的时候，当时我们收费存在的，所以那时候机场堵车不像现在这么严重，现在经常会堵车，当时我们观察20多天只有一天发生堵车。

　　接近朝阳这块白天情况比较好一点，但是九点钟之后开始，特别是出租车在那慢行非常多。我们可以把这些不同的轨迹合在一块，去分析他们形成类似与证据链一样，我这发生堵车影响哪一部分形成这样的堵，北大附近我们有这样一条路，我们把每一天去分析它，这是我们做出堵车的图，这个图我们看到一些仔细情况，我们看到早上的堵车是如何延伸的，我们看到周一周五有比较多的堵车，在周末我们观察不到堵车。我们观察两个具体路口来看。

　　这个路口这发生一些堵车，会影响这两个路口过来的情况，所以早上A这7点来钟开始堵车，这形成比较缓慢，缓慢之后这两个再被影响。

　　还有另外一个比较复杂的路口，这个路口我们看到它的堵车是什么，它在这D，D应该是在这块，D开始影响不同环节，然后其他相互影响，时间空间上都会有进一步的分布情况。

　　我们这仅仅是举的一些例子，我们看到比较简单直接的轨迹的情况，我们做进一步的分析我们发现中间一些内在的情况，这些情况帮助我们更好理解我们的城市，理解我们的交通。智慧城市不仅仅是说我们把很多数据挖掘出来，数据的价值是我们如何理解它，这个一方面给专家理解，一方面给大众理解，我们可以有大规模时空数据进行分析，这里我不进行多讲。我们看到能够把不同的数据融合起来，这是将来非常重要的能力。我们通过这样交会得出方式，对它进行分析。

　　比如说像禽流感地图我们在网页上可以点击鼠标，可以看的。这里面我们很多情况下涉及到不同异构的数据，最后我们讲到交通数据，你最后结果没有注意到，实际上我们用到非常多好几类数据。我们用到GPS轨迹数据，我们同时用了很多路网的数据，对于数据不确定性进行分析需要进行确定的。对大规模数据的分析，北京20多天我们有20多T的数据。我们对它进行一些交互的分析，这是值得需要研讨的分析，我们不是拿一些比较庞大的机器就可以做，我们考虑如何使用合适的数据情况，Hadoop对这些东西无效的，我们考虑更贴近数据实际的手段。

　　综合起来我们看到我们从社交媒体，我们可以从各种轨迹数据，我们从各种各样的数据出发，跟时间空间有关，加上每个人参与我们组成这样一个时空系统，这里面每一部分我们都可以发挥作用，我们可以为商业机构等所用。谢谢大家。

　　(以上报告内容为现场速记，未经本人审核)