张胜:打造5G智能语音服务生态 将手机的智能程度推上新台阶

光山新闻网 刘洋 2020-11-12 00:00:00
浏览

  11月11日至15日,第二十二届中国国际高新技术成果交易会将在深圳举行。本届高交会以“科技改变生活、创新驱动发展”为主题,总展览面积超过14万平方米,有3000多家海内外展商、近万个项目参展,各项活动将超过140场。灵聚智能创始人张胜出席并演讲。

  张胜表示,未来灵聚将要与合作伙伴共同打造智能手机的服务新生态,将智能手机的智能程度再推上一个台阶。目前已经跟华为、OPPO这些手机厂商进行合作,在手机语音助手、快应用、5GRCS和负一屏消息的生态中做新的尝试。未来,希望与大家共同打造5G的智能语音服务生态。

  以下为演讲实录:

  今天到了论坛的最后环节,是我来给大家做一个分享。大家估计都比较累了,我就做一个较短时间、轻松的分享。

  NLP技术的介绍

  我是灵聚智能的创始人张胜。首先我介绍下灵聚,灵聚是一家NLP(自然语言处理)技术研发的企业,我们主要就在解决人和机器对话的问题,也就让机器具备人的智商和情商,让机器能够和人流畅对话、解决一定的问题、提供一些服务。目前我们研发的NLP核心技术在华为的产品、阿里达摩院的产品中都有实际落地应用。

  刚才也有嘉宾分享到国外的机器人公民索菲亚的人机对话,像类似这种机器人的对话能力,也是基于NLP技术提供的。但是索菲亚这个机器人的对话能力是假的,实际上那天活动的现场主持人有说明:其所有的对话都是提前编辑好的。按现在目前的实际情况,在开放域情况下,还没有技能能力,完全让机器人达到人与人对话的流畅程度。

  简单的解释开放域,其含义是:在无限定的场景下,自由对话。那么相对来说,限定了场景的,则是限定域,例如我们限制只谈垃圾分类的问题,那么这就是限定域。所以,相对来说,技能最难解决的是开放域问题,而限定域则容易解决,有些限定域的对话需求,甚至不需要使用高深的技术和算法,就可以得以解决。

  在过去的几年当中,灵聚一直在攻克的是最难的开放域的NLP技术。在这里,需要着重跟大家分享一点的是:NLP不仅仅是语义的处理,它至少包含5个部分。除去语义处理和理解,知识图谱也是重要一环,知识图谱是数据智能的重要表现,只有让机器拥有相当数量的知识,才有了智能的基础。另外,深度学习也是重要一环,深度学习在机器视觉方面得到了很大的应用,在NLP领域也有一定程度的助力和应用。

  另外在解决功能型问题时,RPA流程自动化大家也是大家常用到的,它可以解决一些有固定流程的问题,由机器人代替人类完成这些固的业务。

  不过以上几项要素都具备的情况下,也很难达到开放域交互的完美效果,因为人类社会的数据和需求都很庞大,而且在开放场景下,人类连续的、上下文多轮交互也非常难处理。

  另外,NLP在解决人工智能终极问题,最终要解决的是预测。我们大家想一想,在车辆驾驶中,老司机跟新司机去教开车,应该要教他的是什么?是预判,预判前方会不会有问题,同样在人类对话的场景中,通过逻辑推理的预测也是重要一环。,机器智能要通过交互的过程所得到的信息去预测接下来可能遇到的问题,预测可能需要解决的意图等等。这个就是比较复杂的了。这里今天不展开跟大家分享了。

  NLP与5G的关系

  5G时代,业界有个众所周知的预测:5G会把当前的短信、彩信替代掉,变成可交互式的信息流,用户通过对话就能够达到请求服务的目的。这个新概念叫做5GRCS,这个概念所涵括的重要技术之一是Chatbot。那么,在Chatbot中,起到支撑作用的是NLP,NLP可以解决人机自然对话的问题,为用户提供更加直接、便捷的服务。当然NLP还有解决翻译、文本的审读等等各方面的应用,我们不多赘述。

  在5G未来的进一步预测中,Chatbot应用将会替代掉很多的轻服务的APP。就是说,在未来,我们不再需要太多APP了,我们可以直接在手机,跟手机对话就可以解决很多需求。

  那么,这个未来的具体表现形式什么样子呢,是对话交互支撑下的智能交互。曾经我们讲听到最多的是语音交互,后来又听到了智能语音交互,实际上在未来5G的时代,我们会听到更多的是智能交互。因为语音只是交互的手段之一,而不是唯一。一个系统集成的设备,一个机器人,一个完整的应用,它可能是同时集成了语音识别、机器视觉甚至包括屏幕的触摸输入、键盘输入,还有图像视频的输出,有控制指令的输出,还有文本可以进行到TTS进行语音集成,

  现在我们来看一下具体的视频演示。

  (播放视频)

  在刚才的这个演示当中大家可以看到,专门针对智能语音交互所设计的RPA的系统当中,一个是智能系统在某个节点上去预判另外一个跨域问题,天气问题之后,上下文语境并没有切断,这个意图还是连续的,并没有因为跨域的请求导致整个RPA的中断。这个会在实际的体验当中给用户非常丰富的服务体验。

  再来看下一个视频演示。

  (播放视频)

  在这个演示当中体现有两点,第一、在有其他的指令进来之后,机器人会记忆到刚才还有没完成的任务,所以在执行完新指令之后会反问刚才还要不要打电话。第二、专门为视障人士做了一个细节服务,同时也可以很好支撑车载场景,在呼出电话时,同音姓名,在没有其它判断区分条件的情况下,系统会自动地进行以词定字,刚才“昊天的昊”是系统自动来处理。如果用户在没有屏幕的设备或者不方便用眼睛看的时候实现打电话,通过这样的方法可以便捷的呼出电话。

  通过这个演示,也可以体现出灵聚智能大脑既有开放域的百科和闲聊问答,又有数百个服务技能,这些技能在整个开放域技术支持下,可以完成统一的跨域服务。所以未来结合更多5G技术,在很多轻服务的场景下,用户可以不再需要下载更多APP,只需要通过手机智能语音助手的快速响应得到服务。5G会给我们带来这样的便利。

  5G时代的更多畅想

  5G同时也会给我们的终端带来更多的畅想,原来可能很难商用落地方案的,随着5G的技术特性,现在可能能够在更多终端产品落地。在这个视频当中,屏幕左上角可以根据人的放大缩小的。

  (播放视频)

  为什么在5G时代将会给我们这样的一个便利呢?我们来看一下。在经典的语音交互的流程当中,实际上每一次交互要访问6次互联网。如果每次是100毫秒,就意味着多了600毫秒。而5G低时延,高稳定性,为这些提供了更完美的支撑。同时随着升级的模式, ASR、NLP、TTS在云端的全部整合,也将大大降低时延。

  在通信性能提升的前提下,随着模式升级,芯片技术也会出现升级迭代。接下来我们还会看到更多智能语音的边缘计算模组、这些模组能够提供离线、在线服务,也会更低能耗。可以预测,很快会出现基于这些模组的智能语音的实现方案,继而在智能手表上、智能眼镜这些落地场景上也会涌现出更多新功能的消费级产品。

  在未来的智能手表这类小型设备上,大家有会看到刚才视频上所展示的数字人。数字人的渲染也是非常消耗资源的,高精度高仿真的数字人也可以放到云端进行运算,再继续畅想,也许未来大家在手表上养一个宠物,回家在电视机上它是可以漫游的。

  基于这些畅想,未来灵聚将要与合作伙伴共同打造智能手机的服务新生态,将智能手机的智能程度再推上一个台阶。目前我们跟华为、OPPO这些手机厂商正在进行合作,在手机语音助手、快应用、5GRCS和负一屏消息的生态中做新的尝试。

  另外基于未来物联网的发展趋势,我们也会达到一个泛终端智能的服务生态,刚才大家看到我们可以跨域服务,其实这些能力可以任意进行组合,融合客服机器人的定制,整合后形成一个技能,进行多端分发,由Chatbot作为底层,既可以在IOT,也可以穿戴设备上,还可以手机、车机,另外可以触达到智能音箱、玩具,包括各类人形设备的屏幕。所以未来在5G网络支撑下,我们可能会有一个无处不在地智能助理在为我们提供服务,这些智能助理既有实体形态,也有虚拟形态,它无时无刻不在身边服务我们。

  未来,我们希望与大家共同打造5G的智能语音服务生态。

  今天到此分享结束了,我们今天论坛的分享嘉宾分享的内容质量都非常高,概括来讲对于未来的科技,基础的技术我们一定要重视,绝对不能够再被带偏、被卡脖子。另外物联网将会成为下一个风口,我们需要更多思考可以掌握住哪一个风口,可以依靠大企业所构建的服务生态、做些什么。我想今天最大的收获就是:我们看到了未来的科技已经慢慢地走进了我们的生活,而且我想在座的各位也都有能力一起携手、共同开创美好的未来科技新时代。

  今天的论坛到此结束。欢迎大家继续参加明天在杜鹃厅举办的中国高新科技论坛,谢谢大家。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。