商汤高级研究员李聪：Ai视角下的地理大探索-泰伯网

商汤科技高级研究员李聪在2019年度WGDC大会G-TECH新技术峰会演讲中用很多的AI自动遥感解译的样例，展示了Ai视角下的地理大探索。

　　商汤科技高级研究员李聪在2019年度WGDC大会G-TECH新技术峰会演讲中用很多的AI自动遥感解译的样例，展示了Ai视角下的地理大探索。同时也表达了商汤科技希望做一些更高尚的、纯粹和脱离低级趣味和有益于人民的技术，只要我们合理的解决问题，这些都是有用、高尚的技术，既要勇敢的拥抱新技术，又对传统技术抱有尊重，真正做被人们所使用的AI技术。

泰伯网

　　演讲内容整理如下。

　　大家好，我是来自商汤的研究员，今天的报告给大家分享一下基于人工智能技术在更大的空间范围和更大的时间跨度开展的一些工作。

　　第一个任务是我们做的地表覆盖的工作。

　　首先这是刚才阿里云专家提到过的数据，背景是可视化出来的全球影像的一部分样例，左上角这个图是我们进行全球地表覆盖所获取训练数据的空间分布，有五个特点，分辨率达到了3.125米，有数十万影像，丰富地物多样性、覆盖更多场景，数据筛选，系统数据预处理。

　　这是我们选取的验证数据分布，我们能够达到82.7的精度，精度没有非常高的原因涉及到多方面的因素，比如涉及到验证点数据质量问题、验证点标注准确性的问题等等，后面给大家看到我们更多地表覆盖的效果，首先这是我们讲的两个城市的地表覆盖，北京和上海，测试这样一个城市的话，几十分钟之内就可以完成。后面我们测试了17个城市的案例。这是其他三个地区预测结果，通过这5个城市大家能够看到，模型已经能够较好克服巨大空间分布差异所带来这影响。具体展示一下，这是石家庄地区2017年6月份的数据，这是2017年12月份的数据，相差了半年，我们目前采用了两个地表覆盖的研究，大家再看一下6月份的数据，左边有很大的云覆盖。如果我们采用了两个月的数据训练这个模型的话，细节精细了很多，对单一数据质量不高的情况有很强的鲁棒能力。这是新疆地区6月份和12月份的数据，可以明确看到色彩差异的问题，这是6月份数据测出来的结果，这是用了两个时相的检测结果，最上边的右半部分，他们会测试的更精细。我们还对检测结果进行了更深度的优化，这是概率优化和最终的一个预测结果。

　　长沙地区，2017年6月份地表覆盖比较多厚云，对部分时相会有很多的鲁棒。我们可以得到比较好的预测结果，这是福州、广州、河北，沈阳、天津、西安、郑州，我们现在已经测试了非常多的城市，我们目前取得这样的结果，付出了很多努力，但是不能把成果独享，非常感谢清华大学地球系统科学系对我们的支持。

　　大家应该会有一些问题，我们现在这样的模型算法空间泛化能力如何?，给大家展示众多城市预测结果的原因，就是为了说明我们这个模型目前已经具备了对全国范围数据的处理能力，而且全国计算都比较统一，对数据质量参差、拼接或者厚云遮挡的问题，我们都有比较好的解决方案。

　　另外一个问题是万一很多数据只有单时相数据怎么办?其实也是可以的，没有预测像两时相模型那么精细，但也可以预测。

　　最后一个是数据源不同怎么办?刚才的模型，我们想把模型做到适用更多的数据上，不是依赖于哪种传感器，而是依赖哪种分辨率区间，只要是在分辨率一定的范围内，我们希望模型都可以进行正常预测。

　　还有一个更重要的问题，我们用相隔的半年的数据进行预测，如果相隔的半年，发生了变化怎么办，这是石家庄6月份和12月份的数据，我们为了解决这个问题，提出了变化检测，这就是我们的检测结果。大家应该能够看得出来，这些圈里面就是一些变化的区域。这是太原的区域两个月的对比，这是检测结果，同样给大家放大显示一下，这样测试的数据样例非常多。

　　我们前面的检测都是使用间隔半年的数据进行的预测，现在城市发展这么迅速，能不能有更高频的检测，我们做了很多模型研究和实验。这是上海地区相隔11天的数据，这是相隔11天的一个检测结果。这也是相隔10天的变化，有一个很准确的检测。这是深圳地区相隔了半个月的检测结果，可以看出这半个月的变化，右侧的小图会更清楚一些。这是在南京地区的一个检测，也是相隔了半个月，这是左右的对比，可以看到道路修的完善了很多。

　　能不能处理更高分辨率的数据呢?这是2008年深圳地区的分辨率是0.5米的数据，这是2009年的检测结果，这是南京地区1米的数据，这是2017年跟2018年检测的结果，这是上海2018年第二季度跟2018年第三季度的影像，这是相隔一个季度的检测结果。

　　前面给大家展示的都是我们处理的一些国内的数据，这里说一下，我们处理了不同分辨率的、不同地区的数据，这些都是我们的直接测试结果，不再需要经过一些模型的检测。

　　其实到了刚才这个环节，估计大家对业务上还会有不满足，还想更精确地知道由什么属性变成了什么属性，在这样一个需求下，我们又做了另外一个工作，我们做了一个地类识别的业务，我们构建了一份分辨率更高的多标签分类样本集，中间是数据的分布范围，右边是可视化效果，有近百万影像，将官方F1指标由70提升到至80，希望拓展到更多的应用，比如说检测和分割等功能。下面是一个具体的检测结果，左侧是一些影像，右侧是一些影像的预测结果，我们下一步工作又把这些类别响应图进行了可视化，对着这个可视化，可以看得出来可视化的区域有比较连续的一个特征，这是比较合理的。后面我们也会基于这样可视化的结果，做一些弱监督的分割工作。

　　这就是前面介绍的三个任务，我们认为这三个任务可以当成地表研究的一个套餐组合，三件套。前面说了一些不可数的对象检测，如果我们想对一些可数的目标进行检测，比如关于舰船进行的依赖于倾斜矩形框检测任务，很多人都做了检测。具体效果上比如说中间那一堆目标，左边是它对应的一个放大的结果。我们并不会用于通用的检测方案，我们会分析我们的目标自身的特点，针对这样目标比较小，又是倾斜的目标，我们也给出了自己的解决方案，能够保证对它进行更高效的提升。这应该是阿布扎比地区的效果，这是我们平常业务应用中遇到的数据的正常状态。后面是基于我们现有的模型针对Planet 3m数据进行检测的效果。

　　最后一个任务。前面都是单时相或者两个时相的任务，随着卫星数据获取周期缩短，我们有了多时相的数据，做了一个冬小麦的检测，这是5个省份的检测，我们会跟往年的统计结果进行对比，我们以县级行政区划做了一个可视化展示，这里展示了3个时相，我们也有9时相项的监测模型，这是检测结果。

　　我们在训练这个模型的时候，我们采用了山东地区17年数据，预测用了苏、皖、豫、鲁、冀进行了2018/2019年的数据。

　　我们还想说一点我们做这样工作的愿景，这里特别冒昧，特别大胆的借用了毛主席在80年前纪念白求恩文章里的一句话，我们希望做一些更高尚的、纯粹和脱离低级趣味和有益于人民的技术，只要我们合理的解决问题，这些都是有用、高尚的技术，既要勇敢的拥抱新技术，又对传统技术抱有尊重，虽然我们是一家商业公司，但是我们在选择技术研究方向的时候，并不只是以商业价值作为唯一的指标，我们希望它兼顾更多的学术价值，脱离了低级趣味是指我们希望我们的技术不是特意标新立异，夺人眼球，也不是随波逐流做亦步亦趋的工作，真正做被人们所使用的技术。

　　尽管我们今天的结果不那么完美，但我们依然希望跟大家一起交流和探讨，能够把这件事情做的更好、更实用，谢谢大家。