矢志创新攻坚 建设科技强国(4)
语音识别研究中,远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应是一项极具挑战性的难题。“比如,送餐机器人来到一群顾客的中间,每个人都在讲话,声音非常嘈杂,这就是‘鸡尾酒会’效应的典型场景。机器人很难识别、服务客户的语音需求。”科大讯飞董事长刘庆峰举例说。为此,他带领团队创新性提出了多通道语音信号时空分离建模方法,用算法将不同说话人、噪声等语音信号精确分离,并实现解耦建模,大幅提升了复杂场景语音识别和个性化语音合成的效果。
刘庆峰介绍:“在工业领域,我们利用这项技术可以在上百米的距离判断是否出现气体泄漏,目前已在石化领域得到应用;在消费侧,导航软件得以通过少量的样本学习来‘捕捉’人物韵律和音色特点,进而合成个性化语音。”
在多语种智能系统构建过程中,语料匮乏、数据稀缺也是一大障碍。刘庆峰带领团队从底层入手,设计出全新的多语种通用音素体系和基本语言单元,显著提升了小语种语音系统的性能。“目前,我们的多语种智能语音技术已经能实现69个小语种的能听会说。”科大讯飞研究院院长刘聪说。
深层次语义理解是人机交互场景对语音技术更高的要求。“过去我们要先把语音识别成文字,经过翻译,再把它读出来,这是一个个分离的过程,也会造成不少歧义。”刘庆峰解释,“现在,我们通过语音语义联合建模,使歧义大幅减少,还能把一些专业性的知识融入其中,有效提升了语音交互、语音翻译等场景下语义理解的准确率。”
该项目还建立了自主可控的智能语音技术体系和产业生态。智能翻译每年提供服务51.5亿次,语音同传服务全球50余个国家超4亿观众。项目支持各主流手机厂商累计激活设备超10亿台,车载智能化产品累计前装超5300万套,开创了翻译机、智能录音笔等智能硬件新品类,输入法语音每天交互次数超10亿次。科大讯飞还承建了国家新一代人工智能开放创新平台,已聚集实名认证开发者700.7万人。
“虽然取得了一些成绩,但语音技术还有巨大发展空间,我们还在持续向前探索。”刘庆峰表示,在人工智能大模型等技术飞速发展的今天,团队将在源头技术研发、生态构建、产业应用落地方面继续努力,持之以恒推动人工智能技术和产业向前发展。
《 人民日报 》( 2024年07月17日 17 版)
相关报道:
坚持“四个面向” 勇攀科技高峰——二〇二三年度国家科学技术奖获奖项目巡礼(上)
(责编:牛镛、岳弘彬)
关注公众号:人民网财经