潘云鹤:“视觉知识”将推动AI 2.0的突破
潘云鹤:“视觉知识”将推动AI 2.0的突破
人类对世界的认知,其中80%的信息来自视觉,人们希望人工智能未来也能像人一样敏锐地观测、认知和预测世界。在中国工程院院士潘云鹤看来,实现视觉知识表达、推理、学习和应用的技术将是人工智能(AI)2.0取得突破的重要方向之一。
近日,潘云鹤首次系统地提出“视觉知识”概念,在接受《中国科学报》专访时对其进行了具体阐述和解释。
《中国科学报》:提出“视觉知识”这一概念的背景是什么?
潘云鹤:视觉处理技术对AI发展有重要影响。
首先,近年来,图像识别水平的快速提升推动了AI热潮的形成。图像识别技术的突破不仅提高了计算机对人脸、文字、指纹及生物特征、医学图片等识别的准确率,而且进一步推动了智能汽车、安全监控、智能交通、机器人、无人机、智能制造等广泛领域的发展。中国科学技术发展战略研究院按技术分类对2018年中美AI企业数量进行了统计,可以看出,提供和应用图像识别技术的企业占一半以上。
再者,传统的知识表达方式具有显著缺陷。早期图像识别和计算机视觉建立在图像处理技术之上;深度神经网络(DNN)的使用以数据驱动的方法来学习特征表达,有效提高了图像分类和识别的准确率。
不过,作为AI知识表达的一种方式,深度神经网络难以解释,不可推理,以及因需大量标识的数据训练网络参数而难以避免地会引入数据偏见等不足。因此,我们需要研究一种全新的知识表达——视觉知识。
这给我们带来如下启示:数字视觉领域是推动AI发展的重要领域;更好的知识表达是推动数字视觉发展的关键技术;克服深度神经网络缺陷是视觉知识研究的关键方向。
《中国科学报》:什么是“视觉知识”?它有哪些特征?
潘云鹤:视觉知识是知识表达的一种新形式,它能表达世界的时空结构与变化特征。计算机图形学经过长期发展,提供了视觉知识表达与操作的技术基础。但是,对视觉知识进行表达及其推理等操作,还需在此基础上加以改造与重构。
视觉知识与迄今为止人工智能所用知识表达方法不同。视觉概念具有典型(prototype)与范畴结构、层次结构与动作结构等要素。视觉概念能构成视觉命题,包括场景结构与动态结构。视觉命题能构成视觉叙事。重构计算机图形学成果可实现视觉知识表达及其推理与操作,重构计算机视觉成果可实现视觉知识学习。
实现视觉知识表达、推理、学习、使用的理论和技术将是AI 2.0取得突破的重要方向之一。
在我看来,视觉知识是不可替代的。上世纪70年代,认知心理学家对视觉记忆做过一系列实验和研究,说明了视觉认知的重要性和独特性。著名的实验有:谢泼德1971年心理旋转实验和1972年心理折纸实验,库斯林等1978年心象扫描实验,以及莫耶1973年记忆中动物大小比较实验等等。
一系列认知心理学实验说明了人脑记忆中的视觉知识具有一系列能力与特性:能表达对象的空间形状、大小和空间关系,以及色彩和纹理;能表达对象的动作、速度及时间关系;能进行对象的时空变换、操作与推理等,这些能力与特征为言语知识所缺乏。
认知心理学研究还指出:人类记忆的视觉知识远多于言语知识,而言语知识的很多理解也不能脱离视觉知识的支持。视觉知识因为难以用语言符号表达,曾被统归为常识,而以往AI研究的一大弱点便是视觉知识研究不足。因此,视觉知识的研究与运用将会是AI 2.0的一个重要发展方向。
《中国科学报》:如何构建视觉知识体系?