用人工智能技术保护方言

光山新闻网 林晓舟 2020-03-20 12:57:00
浏览

 
从武汉话转普通话谈起——  
用人工智能技术保护方言  
 

“克受”“陡子胀”“握心”“忒发麻”……当援鄂医护人员面对病患用武汉本地话表述症状时,沟通效率难免大打折扣。瞄准这一痛点,2月21日,讯飞输入法紧急上线了“武汉话转普通话”功能。该功能不但能把病人所说的武汉话识别为文字,还能以普通话自动播报,为医生迅速判断病情、对症治疗大开方便之门。

“从2月12日了解和瞄准这个需求,到上线这项功能,讯飞输入法团队前后开发的时间窗口不到10天。”输入法业务部总经理程坤在接受《中国科学报》专访时说,开发过程并不像时间上看起来的那样简单,武汉话不像粤语、东北话等使用人群广泛,在语料收集、医学专用语言训练等方面,都有不少挑战。

“武汉话转普通话”紧急上线

在医疗救助过程中,很多病患习惯说武汉话,尤其上年纪的老年人只会说方言,这让来自天南海北的医疗队有些犯愁。2月初,一个由多所高校发起的“战疫语言服务团”诞生,专门解决医患在沟通中的方言障碍。讯飞输入法团队也参与其中。

程坤告诉记者,对武汉话的识别和转换,讯飞输入法平台早已有些积累,但多为日常生活用语,难以满足医疗问诊场景下的深度对话交流。要满足条件,他们必须要尽快收集到足够多的医疗场景下的方言语料数据,然后通过专家标记让人工智能(AI)尽快“学习”这些表达。

“我们当时想了很多办法。一方面,通过讯飞在武汉的子公司发动人们收集医疗场景下的语料数据;另一方面,我们在线上发布了一个众包任务,向熟稔武汉话的人们众筹他们的声音。”程坤说,就这样,讯飞输入法在最短的时间内搜集到了足够的语料。

根据众筹来的语料,加上讯飞与中国声谷共建的“中国方言库”已有的累积,科大讯飞研究人员很快对医用和日常对话场景进行标注,在短时间内完成了武汉话与普通话对齐音频。程坤表示,尽管武汉话转普通话的功能所覆盖的人群不似粤语等广泛,但上线该功能也得到了非常积极的反馈。同时,通过迁移学习模型训练,该功能的开发上线还有效地提升了方言转普通话的效果。

“方言保护计划”持续行动

武汉话转普通话的功能,是人工智能用于方言识别的一个应用案例。在它的背后,是一项启动于2017年、名为“方言保护计划”的公益项目。

“讯飞输入法推出‘方言保护计划’,就是希望用人工智能技术实现方言永久留存,同时服务于人们打破方言交流的障碍。”程坤对《中国科学报》说,方言蕴含着灿烂的传统文化,承载着人与人之间的情感:“随着城镇化的加速,来自不同地区人们的交流日益加深,我们不希望方言文化在这个进程中慢慢消失。”

语言的流逝速度可能远超人们想象。据联合国教科文组织数据,目前世界上的语言大约有6000~10000多种,而其中大部分语言或将于本世纪末消失。在我国130多种语言中,有半数(68种)语言的使用人口在万人以下,其中有48种使用人口在5000人以下、25种使用人口不足千人。

“如果不能有效保护方言,我们将永久失去完整记录人类文化遗产的机会。”程坤说,这也是“方言保护计划”的意义——该计划希望通过全民参与共建“中国方言库”的形式,利用人工智能加快推进方言保护,为世界留下多彩乡音。