融合创新,让AI应用更容易
原标题:融合创新,让AI应用更容易
“我们正处在第四次工业革命的阶段,每一次产业变革的核心驱动力都是科技创新。当下,人工智能技术日趋成熟,像以往每一次工业革命的核心驱动技术一样,呈现出很强的通用性,并且已经具备了标准化、自动化和模块化的工业大生产特征,成为第四次工业革命的核心驱动力量。”百度集团副总裁吴甜在9月13日的“AI面对面”媒体沟通会上如是说。
在前不久的百度世界2021上,百度大脑宣布升级到7.0,具备“融合创新”和“降低门槛”两大显著特点,这背后是基于对趋势的深刻洞察。“目前以人工智能为代表的新一代信息技术蓬勃发展,驱动新一轮科技革命和产业变革,在新的发展阶段,人工智能技术越来越复杂,融合创新正在成为新常态;同时,随着人工智能技术在各行业的渗透,面向不同应用场景,降低门槛也变得越来越重要。”吴甜表示。
作为百度人工智能多年技术积累和产业实践的集大成,百度大脑已然具备了上述特征,并构建了包括基础层、感知层、认知层、平台层和AI安全的全面技术布局。基础层包含算力、数据和飞桨平台,是支撑新一代人工智能快速发展的核心基础;感知层包括语音、视觉、虚拟现实和增强现实技术,使机器像人一样拥有视觉、听觉等能力,对世界有感知和感应;认知层包括语言与知识技术,是让机器像人一样,掌握知识、理解和运用语言,具备认知能力;通过平台层,百度大脑和千行百业有非常重要的联系,通过开放平台支持到整个行业智能化升级;安全体系则纵贯百度大脑各层,为AI技术及应用保驾护航。
在跨模态多技术融合创新方面,通过融合了语言、语音、视觉等不同模态的技术,百度大脑得以像人类一样,实现对复杂真实场景的跨模态深度语义理解,进而获得对真实世界的统一认知。比如,针对一张球赛图片,机器过去只能识别出人员数量,如今机器可以推理出谁是教练,谁是运动员,以及各自的行为。这背后,正是基于跨模态深度语义理解模型的推理。基于这一技术能力,百度在视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等5项典型多模态任务中刷新了世界最好效果,并在多模态领域权威榜单视觉常识推理任务(VCR)上超越微软、谷歌、Facebook等机构,登顶榜首。
百度大脑在图像语言一体化理解上,通过知识增强的多模态特征融合与结构化关系图分析,提升OCR应用的准确率;基于语音语言一体化理解的技术,使得语音识别及图像识别准确率大幅提升;跨模态多技术融合创新的代表性成果之一便是“数字人”,亮相央视五四晚会的AI虚拟主持人晓央,全球首个火星车数字人“祝融号”,都给大众留下深刻印象。在百度世界2021上,百度CTO王海峰用短短两句话,就让百度大脑生成了数字人,并为他“换”上了航天服,背后正是跨模态多技术的融合创新。
从应用角度,不同领域都有各自的特点和难题,AI技术深入到实际应用场景中,与场景融合创新。
比如AI与搜索场景融合创新的智能搜索引擎,已具备图谱问答、推理计算、智能推荐、语义理解、智能排序、深度问答等能力,可深刻理解用户意图,并结合语音、图像、AR等感知技术能力,更便捷地与用户交互,为用户提供更精准、更便捷的信息服务。
在翻译场景下,高质量、多语言的产业需求,遭遇计算复杂度高、漏译等问题突出,以及资源稀缺、部署复杂等技术挑战。而百度的AI同声传译技术,通过机器翻译、语音技术与同声传译场景融合,攻克以上挑战,成功实现了高质量、低延迟的同传效果,翻译准确率超过80%,时延3秒,与人类水平相当,已经服务了2020全球人工智能技术大会、2020全球人工智能产品应用博览会,以及连续两年的中国国际服务贸易交易会,总观看量接近500万次。