分享
Scan me 分享到微信

陈军:互联网+地球覆盖协同验证的技术进展与全球实践

会上,中国测绘地理信息学会副理事长陈军先生作了题为《互联网+地球覆盖协同验证的技术进展与全球实践》的报告。

  中国测绘地理信息学会2017年学术年会暨第十二次全国会员代表大会今日在南京举办。本次大会以“创新驱动,跨越发展”为主题,邀请测绘地理信息科技界专家、院士、学者齐聚一堂,呈现精彩特邀报告,并举办多个垂直领域分论坛。

  会上,中国测绘地理信息学会副理事长、国际摄影测量与遥感协会第一副主席陈军先生作了题为《互联网+地球覆盖协同验证的技术进展与全球实践》的报告。

泰伯网

  以下为演讲内容(内容未经本人核实):

  陈军:谢谢主持人的介绍,刚才四位院士都做了很精彩的报告,讲的是非常宏观的问题。我想跟大家交流一下地表覆盖协同验证的报告,我想说说什么是互联网+地表覆盖协同验证,首先说地表覆盖是反映我们地表物质类型和自然属性的定义,原来我们主要做的是地形,最近我们主要做的是地表覆盖。地表覆盖非常有用,比方说环境变化研究、碳排放测算,有非常多的用处。比方像我本人就做过一个全球30米地表覆盖,做了十大类型,2000和20001年两个年份,今年开始我们做2015版本,争取做2020和2025版本,不断地做全球分析。

  我记得我们这个数据当时发布的时候,很多用户,尤其是国外用户来信就问,说你这个精度怎么样?就是他需要了解这个产品的精度和不确定性,确定适不适合他的研究。从我们这个角度来讲,我们也需要知道这个数据产品有没有误差,误差来源是什么,改进我们的生产技术方法。因为地表覆盖图有很大的特点,如果能做到85%以上就很错了,跟做地形图不一样。比方说我们做完以后,现在很多人给我们做全球验证。比方说同济大学做的一些工作,就是做全球的,还有希腊的、德国的、伊朗的、意大利都在国际杂志发表文章,对我们做的评价。其中有一个意大利的,他说他在意大利选择八个区域,然后选择当地高分辨率的影像或者是高分辨率的地表覆盖做的验证,总体是在80%以上,他们还做了第一次国家级的评价。有很多地方在做这个事情。

  什么是地表覆盖呢?就是根据统计学原理,在地面上布设若干有代表性的样本点,采集能反映地面相对真挚的参考数据,计算精度。你在地表上布点,原来是按传统的统计学原理进行布点,采集样本。再一个是样本要检核,再一个是验证评价。

  但是我们说小范围的好处,你可以把数据下载以后拿其他东西都可以做,但是到了大范围比较复杂,因为涉及因素多,技术复杂,还有专家参与难。你要组织全球验证,你怎么把这些专家组织在一起。这里涉及三个问题,一个是样本资源,由于全球景观非常复杂,包括中国一个省要做验证的话,全部跑到一起不可能。而且我们经常是现成的样本比较少。

  第二个是验证方法,大范围样本布设,往往缺乏适用方法。现在还没有地表覆盖的验证标准,连国家标准也没有。另外一个是验证工具,原来是单机的,怎么做到在线的。所以最近我们想在互联网+上做验证,同时做到协同验证。

  基本的一个思路是这样的,就是把互联网、服务计算这些东西跟地表覆盖验证的四个方式结合在一起,促成资源联通,发展了服务计算,改变传统处理与服务方式。因为服务计算有几个主要的环节,一个是服务的注册到查询和发布。这样来支持我们样本布设、采集和进行评价。

  这个技术上本质是什么呢?实际上是基于互联网的领域服务计算,最近我读了很多文献,什么叫互联网+。实际上是要做到两个,一个是验证的话验证的这个模型是什么,是叫服务模型。原来是小范围,现在全世界这么大你怎么做?有一套高效计算办法。第三个就是要有一套动态服务技术,包括处理构建、资源汇聚。

  这里面今天我不想讲太多的,我就说一些我们最近的一些进展。主要我们做了一套在线样本的布设和采集,一整套验证的系统。最难的就是样本布设,按照国际上的说法是有四项基本原则,一项基本原则是概率抽样,不能你想抽什么地方就抽什么地方,你觉得这个好的地方你去抽,不好的地方不抽。要包括每个像元每个图斑都有一定的概率被选。第二个要考虑空间的异质性,如果我们选用比较简单的地区,或者异质性弱的地区,肯定这个样本选择多的话,肯定评价高。还有一个是稀少类,你不能把有的东西样本太少,每一类都应该有样本。再一个就是验证成本。基本上是这四个基本原则。

  理想状况是这样的,比如说这两个区域,像江苏平原地区都是耕地,样本量少一点,30个样本。这个地方比较复杂一点,有山区,还有丘陵,所以我50个样本,这是要分离的。

  另外,不同的类都应该有一个样本,这样的话你可以算出总体的情况,然后布设空间,你不能都集中在一块,应该各个地方都有样本。但是实际情况不完全这样,现在我们有很多抽样方法,比较典型的是二级整群,还有分层随机,实际上做下来还是有问题。比方说我把这三种方法,这个是二级整群、分层随机,还有SWS抽样。另外一个问题,就是稀少样本量太少,你看这些就没有样本,还有像比较破碎地区实际上给的样本很少,就是说原来的方法有问题,你把它放在互联网上做出计算模型一算算出问题来。

  所以说普通国际上认为抽样难,没办法考虑地表覆盖景观空间的异质性,无法保证区域样本量合理、地类样本量合格。问题是这是均质区域,这是异质区域,还有这一类是稀少类,这一类是均质类,比方说这是沙漠。按理说异质类越高的验证区域样本量应该越高,你做到不行。另外这是破碎地区,这个地方样本量应该大一点,结果你这里布的也一样,也不对。

  所以我们前段时间想了一个办法,我们说这样,我们首先来计算它的复杂程度,用景观指数。是考虑每个景观的边长、面积来进行计算,这个就不说了。这是毛里塔尼亚均质,西班牙相对复杂一点,孟加拉更复杂。你看毛里塔尼亚是1.29,西班牙是2.68,西班牙是3.46,我们把这个细化出来,谁的更高一点我给更多一点样本。

  地类级也是一样,草地4.9、裸地1.0,我也把它量化。再到每个空间抽样单元,你看这是一个单元,这是一个单元,这个单元放大一点复杂一点5.8,这个单元1.0,我们把它进行量化。量化以后,现在干脆就这样,我首先在整个区域上来计算它的样本的总量,这个中间有一个抽样的概念,因为不光是面积。这样我就得到每个区域的样本量,我对每个区域再按不同的地类算它的复杂程度,这样可以替代一个重要的指标,地类方差,然后再得到地类样本量均衡分配,这个区域45个,那个区域15个,然后再分配到每一类。再根据一个单元的景观指数,我把它分配到地类空间,这是一个基本的想法。现在你要没有定量的方法在互联网上做没办法做到实时的操作,我们有样本,是中国科学院发表的,大家可以去看。

  这个景观样本量可以做到自适应计算,这是传统的样本量的计算方式,最后得到一个最后的结果,一个是这个区域面积,还有是景观指数的复杂程度,这样一算以后,你看原来两个方法,这是随机抽样,你看样本量、抽样密度是一样的。这个稍微好一点,SWS也有问题,你看孟加拉的密度最大,到了毛里塔尼亚最低。否则的话,你看毛里塔尼亚原本样本量最多,孟加拉最少,但是现在孟加拉并不是最多,但是最合理。

  然后用地类的指数来替代地类方差,一样的道理。这样算了以后,比方说像孟加拉原来是有2、4、1,就是地类特别少,一个类判断对就对了,判断错了就错了,那不行,总要有概率。我们刚才讲的地类景观指数,每一个类基本上最少也得有30个,我全部是做的一套量化的方法。这样的话,还有一个办法,我怎么分配空间?我怎么算呢?我每个地域空间,每个单元可以算出景观指数,每一个值。把这个值在一条轴上按大小来排序,排完序以后分组,这是一组,这一组里面均质性比较相近,不同的组均质性差异比较大,每个组取一个,这样的话每个单元选一个样本,你要多了我可以再选。你看这就是毛里塔尼亚,原来的方法布点很不合理,用了景观指数方法更加合理。

  我们用了这样的方法做了很多试验,其中一个,我们就跟增值项比,我假设这是一种黑的颜色,我们用欧洲Corine数据增值,最后来进行判断,不管是哪个指数红色的表示这个方法是可行的。在互联网上我们是这样,做完以后,比方说你可以选择在网上全部算完以后分布式服务,你可以调用一组数据,也可以是你自己的数据,也可以是我们的数据。你选择任何一个国家,埃塞俄比亚,也可以在中国。他问你选择什么模型,做完了以后你再选空间80%、90%,这都可以算出来,现在很多人在网上一操作就可以算出来,而且根据一定的规则量化。

  第一个环节做完以后就好办了,以前都是完全靠人的经验,不能做比样。第二个就是核对,有这么多的样本点了,怎么核对呢?网上有一套,右边的可以选择,这里面首先要有样本资源,我们在这里面就集成了很多样本资源,但是所有的样本资源还有一套资料。比如说在30米的地方看到的小红圈,到300米以上就不一样,30米可以是森林,到300米以上也可以是森林,但也可以是其他的。我们做了一些方法,首先保证你能找到最好的数据,通过3D匹配对JAVA脚本进行分析解读,比如说在巴西一个地方,任意一个框有80多条发布的地表覆盖或者跟地表覆盖有关的东西,你就可以看是不是你所要的重要的参考数据。

  在这个基础上,我们还做了很多这个工作,就是判定。比方说这边实际上就是地表覆盖的实际参考影像,这是原始地表覆盖的值,这是你判定的值,你看这三个是一致的,这三个是有差异。这三个是一致的,这三个有差异,因为不同的专家判断是不一样,我们找几个专家来判断。这是在卢旺达,验证了以后在网上操作。

  在判断的时候有几个原则,一个原则就是多数决定原则,然后是面积占优原则,然后不同的人有不同的判断方法。可以算各种各样的精度,比如说面积加权的、加权Kappa的,像跟我一起来的加拿大的玛丽亚教授做的,有很多很多的。这是精度评估,每一类有多少样本点,43个、27个,总体算出来,它是1.85%,这是它的系数。这是在卢旺达的,做这些东西在网上全部自己来做。

  为了支持这套服务,我们跟一个公司合作开辟了一套系统,把它全部发布在网上,后面还可以建很多其他的服务,包括网上搜索的,包括Google的等等,我们提供所有基本验证的功能,这样用户在网上调。像我们现在做的话,用户把数据发给它,他们的数据全部在网上做。这里面有一个录像,就不说了,时间比较紧,大家上网看看。

  第三个,我们组织了全球验证。原来我们中国要做事情,要找国外合作是非常困难的。有了这个东西以后,我们在国际对地观测组织这个平台上面发起了全球验证,2015年的时候以GEO的秘书长发起世界各国组织一个验证队伍来进行全球验证。有多少国家参加我们这个活动?大概有40个国家,11个国际组织参加了我们的活动,是不同渠道推荐来的。包括对地观测组织、联合国地理信息委员会等等组织。

  我们这里首先组织了GlobeLand30验证,采取三种办法,一个是二级抽样统计,用了景观指数分析,还有一个是用了大数据的方法来做的。比方说对世界屋脊区域景观指数分析,这是801个样本点,这个是验证的数据,这个是精度结果。在非洲有10个国家参加我们这个验证工作,包括博茨瓦纳、纳米比亚、卢旺达、坦桑尼亚等等,大体是这种情况。国内几家单位做的,包括遥感所、同济大学等一起合作,选了159143个点,总体精度是83%。

  这些做完以后我的体会是这样的,就是把互联网、服务计算等技术融于地表覆盖验证业务的话,首先改变了验证业务模式。原来的参与主体是某一验证机构或者是某一个有条件有能力的,现在只要他能上互联网他都能做这件事情。另外协同方式不一样了,他做完东西就直接放在机子里面来了,他做完的东西我们还可以请另外一个人去做检核,就等于现在资源完全是打通的,整个是协同模式。

  第二个,促进了验证资源联通,所有的资源大家都可以共享,都可以高效使用。另外,提高验证工作效率,不管是样本布设、采集、比对和精度评价,都能够在互联网下进行。

  我的体会,因为原来有很多年做地理信息系统,也做遥感,后来我的感觉通过这套东西,互联网、服务计算就完全可以把我们的工作结合在一起,不再是孤立的工作。

  通过这件实践对我的启示,因为我们经常讲互联网+测绘地理信息,我的体会如果我们要想发展这个东西,后面还要一些支撑的理论和技术,其中有一个就是领域的服务计算。这个领域服务计算里面包括三个东西,一个是理论服务模型,要归纳出东西,就像共享单车一样的,一定有共性服务功能。另外一个是要有一套在线计算方法,要能够非常快非常便捷地实施它。第三个,要有一套动态服务技术,包括处理构建、资源汇聚。今天因为时间关系没有详细展开来说。

  但是总的来说,我们的发展趋势是要走向互联网+测绘地理信息。特别我现在做全球的东西,你不可能全球到处跑,你首先要依靠各方面的资源。但是在这里面就要有先进的工具,要有先进的工具就有要理论方法。最近我写了一篇文章就讲《全球地表覆盖领域服务计算》,我的一些体会,大家如果有兴趣可以看看这些东西。

  谢谢各位!

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐

泰伯APP
感受不一样的阅读体验
立即打开