陈军：互联网+地球覆盖协同验证的技术进展与全球实践-泰伯网

会上，中国测绘地理信息学会副理事长陈军先生作了题为《互联网+地球覆盖协同验证的技术进展与全球实践》的报告。

　　中国测绘地理信息学会2017年学术年会暨第十二次全国会员代表大会今日在南京举办。本次大会以“创新驱动，跨越发展”为主题，邀请测绘地理信息科技界专家、院士、学者齐聚一堂，呈现精彩特邀报告，并举办多个垂直领域分论坛。

　　会上，中国测绘地理信息学会副理事长、国际摄影测量与遥感协会第一副主席陈军先生作了题为《互联网+地球覆盖协同验证的技术进展与全球实践》的报告。

泰伯网

　　以下为演讲内容(内容未经本人核实)：

　　陈军：谢谢主持人的介绍，刚才四位院士都做了很精彩的报告，讲的是非常宏观的问题。我想跟大家交流一下地表覆盖协同验证的报告，我想说说什么是互联网+地表覆盖协同验证，首先说地表覆盖是反映我们地表物质类型和自然属性的定义，原来我们主要做的是地形，最近我们主要做的是地表覆盖。地表覆盖非常有用，比方说环境变化研究、碳排放测算，有非常多的用处。比方像我本人就做过一个全球30米地表覆盖，做了十大类型，2000和20001年两个年份，今年开始我们做2015版本，争取做2020和2025版本，不断地做全球分析。

　　我记得我们这个数据当时发布的时候，很多用户，尤其是国外用户来信就问，说你这个精度怎么样?就是他需要了解这个产品的精度和不确定性，确定适不适合他的研究。从我们这个角度来讲，我们也需要知道这个数据产品有没有误差，误差来源是什么，改进我们的生产技术方法。因为地表覆盖图有很大的特点，如果能做到85%以上就很错了，跟做地形图不一样。比方说我们做完以后，现在很多人给我们做全球验证。比方说同济大学做的一些工作，就是做全球的，还有希腊的、德国的、伊朗的、意大利都在国际杂志发表文章，对我们做的评价。其中有一个意大利的，他说他在意大利选择八个区域，然后选择当地高分辨率的影像或者是高分辨率的地表覆盖做的验证，总体是在80%以上，他们还做了第一次国家级的评价。有很多地方在做这个事情。

　　什么是地表覆盖呢?就是根据统计学原理，在地面上布设若干有代表性的样本点，采集能反映地面相对真挚的参考数据，计算精度。你在地表上布点，原来是按传统的统计学原理进行布点，采集样本。再一个是样本要检核，再一个是验证评价。

　　但是我们说小范围的好处，你可以把数据下载以后拿其他东西都可以做，但是到了大范围比较复杂，因为涉及因素多，技术复杂，还有专家参与难。你要组织全球验证，你怎么把这些专家组织在一起。这里涉及三个问题，一个是样本资源，由于全球景观非常复杂，包括中国一个省要做验证的话，全部跑到一起不可能。而且我们经常是现成的样本比较少。

　　第二个是验证方法，大范围样本布设，往往缺乏适用方法。现在还没有地表覆盖的验证标准，连国家标准也没有。另外一个是验证工具，原来是单机的，怎么做到在线的。所以最近我们想在互联网+上做验证，同时做到协同验证。

　　基本的一个思路是这样的，就是把互联网、服务计算这些东西跟地表覆盖验证的四个方式结合在一起，促成资源联通，发展了服务计算，改变传统处理与服务方式。因为服务计算有几个主要的环节，一个是服务的注册到查询和发布。这样来支持我们样本布设、采集和进行评价。

　　这个技术上本质是什么呢?实际上是基于互联网的领域服务计算，最近我读了很多文献，什么叫互联网+。实际上是要做到两个，一个是验证的话验证的这个模型是什么，是叫服务模型。原来是小范围，现在全世界这么大你怎么做?有一套高效计算办法。第三个就是要有一套动态服务技术，包括处理构建、资源汇聚。

　　这里面今天我不想讲太多的，我就说一些我们最近的一些进展。主要我们做了一套在线样本的布设和采集，一整套验证的系统。最难的就是样本布设，按照国际上的说法是有四项基本原则，一项基本原则是概率抽样，不能你想抽什么地方就抽什么地方，你觉得这个好的地方你去抽，不好的地方不抽。要包括每个像元每个图斑都有一定的概率被选。第二个要考虑空间的异质性，如果我们选用比较简单的地区，或者异质性弱的地区，肯定这个样本选择多的话，肯定评价高。还有一个是稀少类，你不能把有的东西样本太少，每一类都应该有样本。再一个就是验证成本。基本上是这四个基本原则。

　　理想状况是这样的，比如说这两个区域，像江苏平原地区都是耕地，样本量少一点，30个样本。这个地方比较复杂一点，有山区，还有丘陵，所以我50个样本，这是要分离的。

　　另外，不同的类都应该有一个样本，这样的话你可以算出总体的情况，然后布设空间，你不能都集中在一块，应该各个地方都有样本。但是实际情况不完全这样，现在我们有很多抽样方法，比较典型的是二级整群，还有分层随机，实际上做下来还是有问题。比方说我把这三种方法，这个是二级整群、分层随机，还有SWS抽样。另外一个问题，就是稀少样本量太少，你看这些就没有样本，还有像比较破碎地区实际上给的样本很少，就是说原来的方法有问题，你把它放在互联网上做出计算模型一算算出问题来。

　　所以说普通国际上认为抽样难，没办法考虑地表覆盖景观空间的异质性，无法保证区域样本量合理、地类样本量合格。问题是这是均质区域，这是异质区域，还有这一类是稀少类，这一类是均质类，比方说这是沙漠。按理说异质类越高的验证区域样本量应该越高，你做到不行。另外这是破碎地区，这个地方样本量应该大一点，结果你这里布的也一样，也不对。

　　所以我们前段时间想了一个办法，我们说这样，我们首先来计算它的复杂程度，用景观指数。是考虑每个景观的边长、面积来进行计算，这个就不说了。这是毛里塔尼亚均质，西班牙相对复杂一点，孟加拉更复杂。你看毛里塔尼亚是1.29，西班牙是2.68，西班牙是3.46，我们把这个细化出来，谁的更高一点我给更多一点样本。

　　地类级也是一样，草地4.9、裸地1.0，我也把它量化。再到每个空间抽样单元，你看这是一个单元，这是一个单元，这个单元放大一点复杂一点5.8，这个单元1.0，我们把它进行量化。量化以后，现在干脆就这样，我首先在整个区域上来计算它的样本的总量，这个中间有一个抽样的概念，因为不光是面积。这样我就得到每个区域的样本量，我对每个区域再按不同的地类算它的复杂程度，这样可以替代一个重要的指标，地类方差，然后再得到地类样本量均衡分配，这个区域45个，那个区域15个，然后再分配到每一类。再根据一个单元的景观指数，我把它分配到地类空间，这是一个基本的想法。现在你要没有定量的方法在互联网上做没办法做到实时的操作，我们有样本，是中国科学院发表的，大家可以去看。

　　这个景观样本量可以做到自适应计算，这是传统的样本量的计算方式，最后得到一个最后的结果，一个是这个区域面积，还有是景观指数的复杂程度，这样一算以后，你看原来两个方法，这是随机抽样，你看样本量、抽样密度是一样的。这个稍微好一点，SWS也有问题，你看孟加拉的密度最大，到了毛里塔尼亚最低。否则的话，你看毛里塔尼亚原本样本量最多，孟加拉最少，但是现在孟加拉并不是最多，但是最合理。

　　然后用地类的指数来替代地类方差，一样的道理。这样算了以后，比方说像孟加拉原来是有2、4、1，就是地类特别少，一个类判断对就对了，判断错了就错了，那不行，总要有概率。我们刚才讲的地类景观指数，每一个类基本上最少也得有30个，我全部是做的一套量化的方法。这样的话，还有一个办法，我怎么分配空间?我怎么算呢?我每个地域空间，每个单元可以算出景观指数，每一个值。把这个值在一条轴上按大小来排序，排完序以后分组，这是一组，这一组里面均质性比较相近，不同的组均质性差异比较大，每个组取一个，这样的话每个单元选一个样本，你要多了我可以再选。你看这就是毛里塔尼亚，原来的方法布点很不合理，用了景观指数方法更加合理。

　　我们用了这样的方法做了很多试验，其中一个，我们就跟增值项比，我假设这是一种黑的颜色，我们用欧洲Corine数据增值，最后来进行判断，不管是哪个指数红色的表示这个方法是可行的。在互联网上我们是这样，做完以后，比方说你可以选择在网上全部算完以后分布式服务，你可以调用一组数据，也可以是你自己的数据，也可以是我们的数据。你选择任何一个国家，埃塞俄比亚，也可以在中国。他问你选择什么模型，做完了以后你再选空间80%、90%，这都可以算出来，现在很多人在网上一操作就可以算出来，而且根据一定的规则量化。

　　第一个环节做完以后就好办了，以前都是完全靠人的经验，不能做比样。第二个就是核对，有这么多的样本点了，怎么核对呢?网上有一套，右边的可以选择，这里面首先要有样本资源，我们在这里面就集成了很多样本资源，但是所有的样本资源还有一套资料。比如说在30米的地方看到的小红圈，到300米以上就不一样，30米可以是森林，到300米以上也可以是森林，但也可以是其他的。我们做了一些方法，首先保证你能找到最好的数据，通过3D匹配对JAVA脚本进行分析解读，比如说在巴西一个地方，任意一个框有80多条发布的地表覆盖或者跟地表覆盖有关的东西，你就可以看是不是你所要的重要的参考数据。

　　在这个基础上，我们还做了很多这个工作，就是判定。比方说这边实际上就是地表覆盖的实际参考影像，这是原始地表覆盖的值，这是你判定的值，你看这三个是一致的，这三个是有差异。这三个是一致的，这三个有差异，因为不同的专家判断是不一样，我们找几个专家来判断。这是在卢旺达，验证了以后在网上操作。

　　在判断的时候有几个原则，一个原则就是多数决定原则，然后是面积占优原则，然后不同的人有不同的判断方法。可以算各种各样的精度，比如说面积加权的、加权Kappa的，像跟我一起来的加拿大的玛丽亚教授做的，有很多很多的。这是精度评估，每一类有多少样本点，43个、27个，总体算出来，它是1.85%，这是它的系数。这是在卢旺达的，做这些东西在网上全部自己来做。

　　为了支持这套服务，我们跟一个公司合作开辟了一套系统，把它全部发布在网上，后面还可以建很多其他的服务，包括网上搜索的，包括Google的等等，我们提供所有基本验证的功能，这样用户在网上调。像我们现在做的话，用户把数据发给它，他们的数据全部在网上做。这里面有一个录像，就不说了，时间比较紧，大家上网看看。

　　第三个，我们组织了全球验证。原来我们中国要做事情，要找国外合作是非常困难的。有了这个东西以后，我们在国际对地观测组织这个平台上面发起了全球验证，2015年的时候以GEO的秘书长发起世界各国组织一个验证队伍来进行全球验证。有多少国家参加我们这个活动?大概有40个国家，11个国际组织参加了我们的活动，是不同渠道推荐来的。包括对地观测组织、联合国地理信息委员会等等组织。

　　我们这里首先组织了GlobeLand30验证，采取三种办法，一个是二级抽样统计，用了景观指数分析，还有一个是用了大数据的方法来做的。比方说对世界屋脊区域景观指数分析，这是801个样本点，这个是验证的数据，这个是精度结果。在非洲有10个国家参加我们这个验证工作，包括博茨瓦纳、纳米比亚、卢旺达、坦桑尼亚等等，大体是这种情况。国内几家单位做的，包括遥感所、同济大学等一起合作，选了159143个点，总体精度是83%。

　　这些做完以后我的体会是这样的，就是把互联网、服务计算等技术融于地表覆盖验证业务的话，首先改变了验证业务模式。原来的参与主体是某一验证机构或者是某一个有条件有能力的，现在只要他能上互联网他都能做这件事情。另外协同方式不一样了，他做完东西就直接放在机子里面来了，他做完的东西我们还可以请另外一个人去做检核，就等于现在资源完全是打通的，整个是协同模式。

　　第二个，促进了验证资源联通，所有的资源大家都可以共享，都可以高效使用。另外，提高验证工作效率，不管是样本布设、采集、比对和精度评价，都能够在互联网下进行。

　　我的体会，因为原来有很多年做地理信息系统，也做遥感，后来我的感觉通过这套东西，互联网、服务计算就完全可以把我们的工作结合在一起，不再是孤立的工作。

　　通过这件实践对我的启示，因为我们经常讲互联网+测绘地理信息，我的体会如果我们要想发展这个东西，后面还要一些支撑的理论和技术，其中有一个就是领域的服务计算。这个领域服务计算里面包括三个东西，一个是理论服务模型，要归纳出东西，就像共享单车一样的，一定有共性服务功能。另外一个是要有一套在线计算方法，要能够非常快非常便捷地实施它。第三个，要有一套动态服务技术，包括处理构建、资源汇聚。今天因为时间关系没有详细展开来说。

　　但是总的来说，我们的发展趋势是要走向互联网+测绘地理信息。特别我现在做全球的东西，你不可能全球到处跑，你首先要依靠各方面的资源。但是在这里面就要有先进的工具，要有先进的工具就有要理论方法。最近我写了一篇文章就讲《全球地表覆盖领域服务计算》，我的一些体会，大家如果有兴趣可以看看这些东西。

　　谢谢各位!