00后大学生研发全球首个大熊猫“AI奶爸”(2)
“AI+大熊猫保护”项目源于2023年暑假。在一次广东工业大学信息工程学院电子信息工程(腾创班)(简称“广工腾创班”)人工智能专业课结束后,几名学生找到蔡念教授提出“为大熊猫开发一个智能行为识别算法模型”的想法,希望能够识别大熊猫异常行为并及时预警。
广工腾创班是腾讯云和广东工业大学联合打造的本科创新班,打破学科专业壁垒,紧密贴合产业实际案例和技术前沿,设计课程体系和教学内容。在蔡念教授的鼓励下,蓝学深和另外10名同学一起组成项目组,并分成了前端组、后端组、算法组、云端组四个小组,展开了数据采集、算法训练、智慧系统开发等工作。
如何构建一个高质量的大熊猫行为数据集,是算法训练的第一步,也是让算法能够准确“找到”熊猫、“认出”大熊猫行为的关键。
这是同学们遇到的真正意义上的第一道挑战,其中最直接的难题是在当时看起来非常庞大的工作量——仅需要标注大熊猫行为的图片就有7.2万张,更别提还有数据清洗等任务。
一开始,项目组的同学们依靠手动操作,平均一小时才能完成1条视频的行为标注,效率十分低下。蓝学深记得,最忙的时候组织了8位组员协助算法组进行标注,但每天都要熬到凌晨四点才完成了当天计划的标注量。
事实上,完全通过人工手动标注来建立一个高质量、大规模的专业领域数据集,不仅成本高、效率低,更大的挑战在于无法保证数据标注的准确度——如果标注人员对于数据的理解存在偏差,打标签的范围大一点或者小一点,都会对标注的准确性和精度产生影响。
腾讯云教育行业高级架构师刘永杰介绍,腾讯云TI平台为数据标注的质效提升提供了关键的技术支撑。采用平台半自动标注功能,学生们得以提前完成大熊猫行为标注,并快速清洗筛选出具有鲜明行为特征的帧级图像数据,不仅提高了效率,也比手工标注更加精准。
借助TI平台半自动标注的能力,算法组2位同学只用了1天的时间就完成了7.2万张图片的大熊猫行为标注,而如果按照原计划手动标注,预估需要投入8人并且连续工作10天,效率提升了近40倍。
据了解,TI平台是腾讯云推出的一站式机器学习平台,致力于打通AI落地全流程链路,助力快速创建和部署AI应用,为了加速大模型产业落地,近期腾讯云TI平台进行了全面的工具链升级,预置了140个不同类型大模型精调任务场景的数据集,覆盖了数据清洗、优化、过滤和增强等环节,形成了完整的数据处理流程。
根据Forrester Wave《2023年第四季度中国人工智能/机器学习平台》报告,腾讯云TI平台在训练工具、训练评估、推理目标、应用工具、定价灵活性和透明度以及路线图等六项标准中获得了最高分,被评为“强劲表现者”。
“名师引领,真实场景,以赛促学,朋辈碰撞,这是一次产教融合教学模式的生动案例”, 广东工业大学信息工程学院张俊副院长表示,一直以来,广东工业大学秉承着培养有家国情怀、有国际视野、有坚实基础、有创新能力的高素质创新性复合型人才培养的理念开展教育工作,项目制是广工腾创班拔尖人才培养的模式,在实践情境下锻炼学生的思维方式,激发内生动力,培养解决复杂工程问题的能力。
未来接入大模型知识引擎,让“AI奶爸”更智能
“AI不是虚无缥缈的,必须与社会需求紧密结合并落地,才能不断推动AI技术发展。”蔡念教授表示,专利申请能为学生将带来更多的认可和价值感,但我们希望未来能够将研究成果真正应用到大熊猫保护管理工作当中。