一个数据产品的交易历程(一线调查·扩内需畅循环)(2)
“例如,为了提升自动泊车系统对三轮车这类交通工具的感知能力,我们会故意在停车场内布置一些三轮车,然后安排工程师驾车前去采集数据,再将这些数据处理后用于人工智能算法迭代。”戴震说。
数据处理——
由专业团队协作完成,创造规模可观的就业岗位
采集原始数据只是第一步,接下来需要技术人员对数据进行处理,让人工智能算法可以“读懂”这些数据。
处理数据的办法主要是进行数据标注。“虽然我们可以在原始视频上看出哪里是车道线、哪里是停车位,但如果不加以标注,人工智能算法是无法读懂这些数据的。”李科说,数据标注的基本原理是将原始视频数据分为若干帧,由技术人员运用公司自研的智能化数据处理平台及相关标注工具在每一帧上标注出相应内容,“例如,标出汽车的位置在哪里,某个交通标志是什么意思,等等。”
在海天瑞声公司总部,计算机视觉业务部高级项目经理秦子雄向记者现场演示了数据标注的步骤:
“我们使用这个矩形框将这辆汽车框起来,算法后期就会读‘明白’。”
如何精确定位这辆汽车?
“那就要使用接地线这个辅助工具,先确定几个汽车轮廓上的关键点,再画出数条接地线垂直于地面,这样就可以确定汽车轮廓投影在地面上的具体位置。”
…………
几番操作下来,经过各种线和框“勾勾画画”,一帧视频图像标注完成。
数据标注不是一项轻松的工作,需要专业的技术团队协作完成。“为了顺利完成这次与禾多科技的交易,我带领100多人的数据标注服务团队工作了近5个月,标注完成了十几万帧的原始视频数据。”秦子雄说,在这个过程中,需要通过培训帮助团队人员熟练掌握规范,还要依靠公司平台管理团队、追踪工作进度、交付最终成果,“数据标注是一个既有技术含量,也需要较多人力投入的工作,下一步公司将继续加大数据处理平台的研发力度,提升数据标注的智能化水平。”
从宏观层面上看,人工智能产业的快速发展催生了对数据标注服务的庞大需求。《2022人工智能基础数据服务产业发展白皮书》显示,2022年,我国人工智能基础数据服务市场规模将达47.8亿元,预计2025年这一数字将突破120亿元。目前,许多数据服务企业在中西部地区建立了数据标注基地,为当地创造出可观的高质量就业岗位。
数据交易——
建立数据流通信任机制,实现数据“上市有审核、采买有资质”
海天瑞声与禾多科技能顺利完成这次数据产品交易,离不开北数所的撮合与服务。
“在去年3月底北数所成立之初,我们就受邀加入了其牵头成立的北京国际数据交易联盟,并在去年9月至10月上线了几款数据产品。”李科说,数据交易所在国内还属于新生事物,海天瑞声作为首批“尝鲜”的企业之一,在与北数所的交流合作中,也在不断更新对数据交易模式的认知。
“过去,我们寻找客户主要靠广告推广、参与展会等方式,得一个客户一个客户地谈,属于‘点对点’的模式。”李科说,近一年多来,随着买家在北数所数据交易平台上相继出现,企业有条件从“点对点”过渡到“点对面”模式,依靠交易平台提供的撮合服务来获取客户。
北数所相关负责人郎佩佩介绍,这两家企业都是北数所的合作伙伴。了解到海天瑞声在数据领域的综合实力后,禾多科技决定与其开展合作。相关数据处理产品于今年2月至7月分两期交付完成,合同在北数所进行了备案。