人工智能背后的人工力量：机器学习必需数据标注(2)

光山新闻网林晓舟 2019-09-10 07:14:52

浏览

　　据王金桥介绍，国外也是一样，无人零售、无人驾驶等都需要大量的人力，基于用工成本的问题，除了隐私数据之外，他们会把标注工作放在第三世界国家完成，马来西亚、泰国、印度等国家都有数据标注分公司。

　　常见的报道中，数据标注总被描述为“血汗工厂”，这项工作和从业者被描述得廉价低质，人被重复性机械式的劳动异化。在王金桥的解释下，这一刻板印象也被逐渐打破。

　　他直言，目前这种大量的人工标注是有价值的，因为理论上解决问题很难，但有了大量数据，设计深度学习网络，可以在特定场景特定应用中用数据训练神经网络，从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

　　“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中，无人机拍摄画面后，由人来检测，随着数据量增加，机器得到的训练越来越充分，机器慢慢可以自动检测，类似工作可以很大程度上由机器代劳。”王金桥说，目前人工智能的智能性虽然比较弱，但在各行各业都会带来改变，这是AI推动产业革命的机会。

　　数据标注需求持续增加

　　“现在科研界研究的都是无监督、小样本的深度学习，通过三维合成数据，用虚实结合的数据生成方式来训练机器，尽量减少数据的采集和标注，让机器自主学习、自主进化。”王金桥说，但由于缺乏理论上的突破性技术，所以虽然技术增长速度很快，但整体水平还比较低，目前的深度学习还是依赖基于统计意义的大数据模型，这要求数据足够多、足够均衡、基本满足真实世界的分布。

　　因此，标注这项工作会一直存在。

　　但王金桥也表示，随着无监督、小样本深度学习的进步，重复性标注的工作量会越来越少。“机器的识别和人一样，人经过几千年的进化，用语言用文字记录和存储几千年的文明，所以看到桌子就知道是桌子，看到灵芝知道是灵芝。机器也需要不断理解更多的内容，有数据标签，它才能学习，才会有智能。数据的加工是一个长期存在的过程，由画框到基础词汇，慢慢形成自己的知识图谱，才能自我推理和思考。”

　　目前的数据标注公司基本采取“计件付费”的模式，标注员的待遇与任务量和难度直接相关，熟练工一天能标几千张图片，月收入最高过万。这项工作也有一定专业性，受过培训才知道怎么标、标得清楚，人也要认真细心。“每天产生的数据量太大了，数据量持续增加，对标注的需求也持续增加。”王金桥说。

　　据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍，贵州万山仅仅是一个起点，未来项目的整体规划将聚焦贫困地区，寻找更多更适合发展“AI标注”产业的地区来落地。同时，也希望更多的人工智能企业加入，把AI标注的订单定向输送给贫困地区，为贫困群众提供更多就业机会。陈丽娟说。

　　延伸阅读

　　AI数据服务发展新方向：细分化、多模态、专业化

　　数据表明，当前AI发展出现了细分化、多模态以及专业化三大特征。相应的，新变化对于AI数据服务行业也形成了一定的影响与方向指引。

　　当前AI已经进入技术落地阶段，应用场景涉及安防、金融、家居、交通等各大行业。而未来，在数据标注行业，从业者也将随着AI行业而一同进入细分市场追逐阶段。

　　同时多模态也成为了AI技术发展的一个特征。所谓多模态，即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳，安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业，企业也需要适应AI技术发展的多模态特征，掌握对多维传感器融合的数据采集与标注。

法治频道

人工智能背后的人工力量：机器学习必需数据标注(2)

相关阅读

推荐文章

主编推荐

大家在读