依图在行为识别规模霸占一城
依图在行为识别规模霸占一城
继连任全球权威人脸识别比赛冠军、先后刷新国际声纹识别权威比赛(VoxSRC)记载、行人重识别(ReID)三大权威数据集之后,依图科技在全球AI技能赛道再下一城,又霸占一个第一。
在权威机构ACM MM’20 Grand Challenge主办的“大局限巨大场景人体视频理会”挑战赛中,依图科技以大幅领先的后果拿下了“Track-4:行为识别”的第一名。
ACM是全球最大的计较机规模专业性学术组织,其评选的图灵奖(A.M.Turing Award)被公认为世界计较机规模的诺贝尔奖。而ACM MM是全球多媒体规模的顶级集会会议,属中国计较机学会(CCF)指定的A类国际集会会议。
在此次挑战赛中,包罗 Amazon、腾讯、大华科技、中山大学等上百支参赛步队参加了高出56000个巨大事件下的人体行为(包罗列队、斗殴、俯身、同行、跑动、滞留等)理会。视频中行为识别是本届角逐中的重点项目,目标是考查算法在巨大场景下对行为(包括多人追踪、人体姿态、行为识别)的理会本领。
该赛事是该偏向最靠近真实场景的大局限挑战赛,依图科技夺冠的同时,其背后的技能创新和对行为识别困难的攻陷一时间备受存眷。
行为识别毕竟有多灾
假如把人脸识别比作医院的“普外门诊”的话,行为识别尤其是人类的行为识别,其巨大度和识别难度不亚于“心血管内科+神经内科”。
场景巨大多变、行动差别化大、需要捕获持续行动和长时间行动,这些对行为识别和阐明都有着庞大的挑战,也就需要算法对行为自己有更精准的阐明推理本领,甚至还能通过既定的场景推算不曾见过的场景。
团结此次角逐,行为识别是指以工钱基本单元,只阐明人的行为,存眷单人的行动以及多人的行动(譬喻:一起走路、飞跃、斗殴等)。学术界凡是用frame mAP (f-mAP@avg)来作为行为识此外评价指标,f-mAP@avg代表的寄义是以要害帧为单元,评判行为的位置与分类是否精确;与学术界对行为识此外考查指标差异,此次比赛的评价尺度是wf-mAP@avg,这意味着更注重对难度较大的拥挤场景的考查,以及较量少见的行动的识别,同时对付人体框的定位的准确性要求也更高。
单模子算法依然高效
角逐中,依图算法的指标到达了wf-mAP@avg 0.26,将以往学术界中的基准算法晋升了近3倍。与举行了多次的国际比赛差异,这次比赛是首届进行,参赛步队在赛前也无法相识识此外种别、数据集的巨细和识此外详细需求,但要在一个多月的时间内,设计出最优算法,难度颇高。
首先,视频相较于图像的行为识别越发巨大,且如何建模、视频帧之间的相关性仍是学术界一直存在的困难。依图认为,当应用场景明晰后,在已知阐明的工具是人体且明晰知道要识此外种别后,就可以针对性的举办算法优化,通过算法定制化来晋升算法机能,办理以往不能很好办理的问题。
与此同时,依图此次创新性地将算法与场景举办了深度团结。一方面创新性的从视频中自动提取到了精确富厚的场景信息,团结先进的行人检测、行人重识别算法,全面构建了人与人、人与场景、人与物之间在视频中的干系;另一方面,借助多年来的算法积淀和对行业场景的领略,依图对角逐中要求的特定的14类任务举办了深度算法优化。
值得存眷的是,依图此次没有利用巨大的多模子融合计策,仅用单模子,借助强大的配景提取和支解算法,将行为的理会与场景团结,就大大低落了问题难度,这也意味着依图仍可以进一步通过融合多个模子晋升算法机能。