AI存成见歧视?算法让用户爱好趋同?科学家给出证据(2)
针对人脸识别算法带来的偏见越来越受到关注。例如,能将模糊照片清晰化的PULSE算法将美国前总统奥巴马的模糊照片“还原”出了一张白人面孔,在全美BLM运动(Black Lives Matter,黑人的命也是命)如火如荼的背景下,就引发了巨大的争议。
人脸识别领域里出现算法偏差和歧视,一个重要原因是用于训练的数据集存在很大的偏差性。来自剑桥大学和中东科技大学的研究人员就从两个用于识别人脸表情的数据集中找到了证据。
这两个数据集分别为:RAF-DB和CelebA。其中,RAF-DB包含来自互联网的数以万计的图片,这些图片包括面部表情和属性注释,而CelebA拥有202599张图像,包含10177人的4 0种属性注释。
为了确定两个数据集存在偏差的程度,研究人员对随机子集进行了采样,并裁剪了图像,以使面部在方向上保持一致。然后,他们使用分类器来衡量准确性和公平性。
理论上来说,为了让算法保持准确和公平,这个分类器应在整个过程中提供不同的人口群体的相似结果。但实际情况并非如此。
在RAF-DB数据库中,绝大多数的图片来自年龄在20-39岁之间的白人。从具体的数据来看,这些图片有77.4%来自白人,15.5%来自亚裔,而只有7.1%来自非洲裔美国人;在性别方面,女性为56.3%,男性为43.7%;在年龄上,超过一半的图片来自20-39岁的年轻人,3岁以下和70岁以上的人甚至少于10%。
为进一步研究数据库存在偏见的程度,研究人员分别使用了三种算法对数据库的准确性和公平性进行评估。结果发现,在准确性方面,RAF-DB数据库对少数族裔的识别准确性低于白人;在公平性方面,性别属性相对更公平,为97.3%,种族和年龄的公平性相对较低,为88.1%和77.7%。
而在CelebA数据库的图片来源中,女性比例为61.4%,而男性只有38.6%。在年龄上,年轻人占75.7%,明显超过了占比24.3%的老年人。
在准确性方面,CelebA数据库对年轻女性的准确率为93.7%,但对老年男性的准确性较低,为90.7%。而该数据库在性别和年龄方面的公平性表现都较好,分别为98.2%和98.1%。
许多公司曾用人脸识别软件给面试者的情绪打分,如果整个系统都是有偏见的,对于面试者来说就意味着不公平。面部表情数据集中偏见的存也凸显了监管的必要性。如何用法律防止技术滥用,成为未来这一领域里值得思考的问题之一。