张胜：无屏化交互机器人更贴近商业应用-泰伯网

　 6月15日，第五届“地理信息开发者大会”(World Geospatial Developers Conference，WGDC)在北京国家会议中心隆重开幕。大会由空间信息产业创新创业服务平台泰伯主办，秉承不断引领和促进空间信息技术创新与变革的宗旨，WGDC已走过五个年头，如今成为全球最具前瞻性的跨界创新风向标。

　　在本届大会主会场上，广州灵聚信息科技有限公司创始人兼CEO张胜作了以“人工智能与汽车人”为主题的精彩演讲，以下是演讲实录(尚未经本人核实)。

　　张胜：各位好，今天我演讲题目可能大家觉得有点奇怪，为什么提到“汽车人”?难道给大家带来一个变形金刚吗?这个机器人我们给它做了一个解决方案，真正赋予它聪明的大脑和灵活的一些应用。目前我们这样一个解决方案也已经得到商业化的应用。

　　在去年参加世界机器人大会的时候曾经有一个现场观众看完我们演示之后提出一个问题，说你们机器人能开车吗?我楞几秒钟之后我说为什么让机器人开车，智能汽车本身就是机器人。还有另外一个例子，有一个养猪场的老板给我打电话来说你们机器人能不能帮我们喂猪，自动化养猪场很多年了，为什么需要智能化机器人帮助你喂猪?我们在开发和实际应用当中有很多时候我们会陷入我们自己可能非常难以察觉到的逻辑陷井，为一个一个伪需求带着跑偏了方向。在我们做人工智能机器人当中我们不断思考到底什么样的人工智能技术眼下达到商用级别的，而不是呈现在大家眼前供大家短时间博眼球最后消失。机器人无论有没有屏我们都不大可能基于屏幕进行交互，因为那样把我们人牢牢栓在机器人身边。所以我们需要有一个合适的载体需要演示，出现了机器人不依赖屏幕。

　　另外一个应用场景就是汽车，汽车虽然有屏幕但是它会给我们带来很大的价值风险，今天我演讲前半部分会用机器人演示目前达到的商用级的这样一个人工智能技术在机器人上的体验。后半部分我演示我们用我们技术尝试去做一个智能导航，这个智能导航我们展现一下。

　　为什么我们一再强调商用级，我打个比方，我们现在机器视觉的技术已经得到了突飞猛进的发展，比如说我们能够识别一个植物，识别率在80%，在实际操作的时候可能20%落在某个用户某次使用当中，它可能成为100%的失误，这样一个情况下这个技术商用存在一个问题。比如说我今天去郊游看到很美丽的植物，我想知道是什么?很悲剧发现，我从不同角度拍摄的时候机器会告诉我不同的植物，这个技术存在问题。我们做机器人这样的技术的时候我们在想现在机器人主要应用在商业演出，去吸引人气包括去做促销，去做教育，它应该具备什么功能?我们做这样一个解决方案，连接到我们主机上控制机器人。

　　(机器人演示)

　　张胜：目前我们这一套解决方案进行商业化销售，过去两年当中已经销售出去50多套的机器人了。我刚才演示当中有几个点我提一下，大家可以看后面的文字，一个是在没有屏幕的时候，当我问最近几天天气怎么样的时候，大家发现他只说了一句话，实际上我们系统对天气实时进行分析处理，然后在有人问到的时候它需要把天气可比同类数据进行计算。在整个没有屏幕交互当中实际上都有这个问题，怎么样更准确给出答案，我们用技术来做怎么样让答案变得只有一句话。展现出了人型机器人的可爱灵活。它跟我交流的过程中一直有肢体语言的，这个机器人肢体语言由人工大脑自动产生的，不需要人工算法了。刚才唱歌、跳舞都有动作，跳舞的动作由专门工程师设计，大概一周三分钟舞蹈。另外它唱歌的时候动作是人工大脑自动产生的，现在几百万的歌都是自动主导的。刚才它朗读诗的时候大家发现不太一样，三万首诗词动作也是自动的，都是算法实现的不是靠人去写。通过这个展示在人工大脑输入输出方面实际上已经达到了比较丰富的程度，可以实现我们很多应用场景的想象。

　　关于无屏化交互的问题，国家领导人去年也来亲自体验过，机器人能做到这样一个程度，“汽车人”还远吗?回答这个问题之前机器人什么时候进入我们的家庭，一个人型机器人既能扫地又能做饭，能够端茶到水就可以了，不同机器人有不同的形态满足一个或者多个功能，厨房炒菜机器人，我们接下来相信未来不远时间我们看到各种各样的形态，从一点点功能应用场景解决问题的智能设备会逐渐进入我们的生活。而在过去当中我们也在思考，为什么有那么多智能产品，最后用户使用起来并不是感觉到非常畅快，都是我们在思考的问题。

　　这涉及到我们对于机器人，当然也包括“汽车人”，我们讲“汽车人”可以理解为汽车机器人简称“汽车人”。基本上由两大部分构成，一部分是人机智能，硬件设备和驱动紧密相关的功能。人机智能是我们人类的低级神经反射。另外一方面人工大脑所提供的智能交互包括主动服务等等，目前我们做很大的图谱，涵盖人类方方面面所有知识，这个信息量巨大，基于这样知识可以进行很有意思的计算，我们现在很多答案已经计算出来了。屏幕当中无屏化交互和智能主动服务能够做到不相互等。实际上语音交互起到耳朵和嘴巴，达到无屏化交互精准的答案实现很复杂技术实现的。另外一个多轮交互，如果没有做好会让用户非常烦，因为不停在询问你，这里我也对无屏化交互我们有一些自己的特点。一个应答精准，同音字冗余出来，上下文及多轮交互，后面解决在多轮交互当中过于骚扰用户的问题，意图猜测、主动服务，最好不用说你就知道为用户提供什么。

　　我们在导航当中实践我们在滴滴上做了一个示范，应用场景没有达到专业级的做了一些功能，有一些功能是目前我们对比同类产品我们还是很有特色的，这里借这样一个地方跟大家做一点简单的探讨和交流。

　　更多的展示因为时间关系，大家可以自己去尝试一下，刚才打电话过程中同音，同音导致谐音处理，都是可以在无屏情况下可以做的。这个过程当中可以随时询问路况、随时听歌曲、听新闻，都是在眼睛可以不用去看，手不用碰的过程当中完成的。更多场景我们希望跟更多的专业人士探讨。讲这么多实际上人工智能我个人觉得到现在来讲仅仅还是一个起步，虽然我们有阿尔法狗已经战胜了人类，随着我们自己开发机器越来越多，反而我们感觉到需要做得工作越来越多，单一算法根本解决不了实际的问题，需要大量不同的思想技术整合在一起，才能够解决。比如说像我们同时拥有精准和模糊两套数据处理问题。我们做得比十几年前更加贴近商用和实用。