清华听障博士用AI赋能信息无障碍(2)
行为语言是从运算智能到达感知智能、认知智能重要的途径,基于动态影像的行为识别是AI的最前沿领域,全球科技巨头都在积极寻找刚需解决方案。
阿布都克力木、哈里旦木两位博士和姚登峰是从事小语种计算研究的清华同学,他们常常在一起讨论前沿科技,在一次次探讨中敏锐地认识到,如果对人类行为语言进行全方位无感识别与计算输出,机器智能便能理解各种行为语义并做出善解人意的反馈。这将是由传统运算智能上升至感知智能和认知智能的重要核心,并可以延伸出更多跨行业有价值的产品和服务。
2018年,姚登峰团队在湖北进行了智能领域的无人驾驶无感识别的实验,通过一周的数据采集,该技术在0~100米范围内可以准确在人群中识别出交警,识别率达到95%;在识别交警准确的8套手势时,识别率达到90%。这证明该技术已达商用标准,他们顺利拿到了国家知识产权证书。
一次,姚登峰与创业伙伴做市场调研,在一所监狱考察时发现其引入了最先进的监控系统,仅一个监控室安装了几十个显示器,对应500个房间外加各类场所通道。但负责这500个房间的状况监控的干警,每天轮班连续看显示器,人极度疲劳,监控效果也很难面面俱到。
如果有了行为语言智慧监控系统,就可以通过人工智能自动发现是否有违规行为,能够及时把违规动作等截图上传到监控室,让就近狱警及时干预,提高管理运行效率和安全防范水平。
团队在市场调查中得知很多场景、场合都需要应用行为语言计算,比如在照顾老人时,识别出老人是否摔倒;在跑步、游泳等体育运动时,识别动作是否标准;在炼油厂等敏感区域,识别出抽烟、没有戴安全帽等不安全行为……各行业的需求对接让团队意识到行为语言计算技术确实可以帮助很多人,使大家增添了开发贴近市场需求产品的紧迫感。
国内团队多在语音识别、图像识别、可穿戴设备识别方面下功夫,但是在行为语言计算方向上,姚登峰认为,未来世界行为语言计算是不需要任何设备的,识别是无感的,希望用超前的无感识别技术改变人类的生活,让技术尽快转化为应用产品。
在接受中国青年报·中青在线专访时,尽管姚登峰能听懂提问,但他还是打开手机语音识别软件,用标准普通话流畅地回答每一个问题。
姚登峰明白,创业是对一个人综合实力的考验,生活节奏“不断在加快加快再加快”,也不断地解决一个又一个难题。
行语科技在创办3个月后,国际某工业巨头主动寻求行语科技投资控股且计划在后续B、C轮融资时引入顶级平台资源。但因随后而来的经济危机搁浅了该计划。
紧接着,行语科技在部署炼油厂监控系统时,发现单体技术跟理想应用还存在着不少距离,很多场景应用不光是行为识别的问题,还需要结合图像识别的技术,比如抽烟动作最好结合识别香烟形状。这涉及底层技术架构的调整,否则就很难通过客户严苛的测试,此时研发主力程序员又因出国被迫退出。困难一个接一个,只能靠创始成员自己顶上,加班加点完成任务。
据了解,目前行语科技的团队有10多人,已与国内一线科创平台签署战略合作,落地智慧监狱和工业场景,同时在南京、杭州等地都有项目落地。