数据匿名难保隐私
英国伦敦帝国理工学院的Yves-Alexandre de Montjoye及同事开发了一种统计方法,能够准确估算通过匿名数据集重新识别个体身份的可能性。相关成果近日在线发表于《自然—通讯》。
数据科学和人工智能有望变革人们日常生活的方方面面,如医疗、卫生保健、商业和管理。这些方法依赖于大规模的详细个人数据,但收集和共享个人数据引发了泄露个人隐私的担忧。
针对这一问题,目前的解决方法包括匿名化处理和公布不完全的数据集。但是,近期发生了利用匿名数据集,包括浏览历史记录、手机和信用卡数据,重新识别出个体身份的情况,这表明上述措施还不够充分。
在新研究中,Montjoye等介绍了一种可以评估一个人的身份能否从一个不完整的匿名化数据库中被重新识别出来的方法。该论文认为,目前的匿名化和数据共享方法可能不足以保护个人隐私或满足数据保护法律法规的要求,如欧盟的《通用数据保护条例》。
研究者发现,只需要知道少数几个属性,如邮政编码、出生日期、性别和子女数量,一般就能够以高可信度重新识别出个体身份,即使数据集是不完整的。已知属性越多,识别的可能性越大。例如,99.98%的马萨诸塞州人口可以通过15个人口统计学属性识别出来。因此,他们总结认为,只公布取样数据集或不完全数据集不足以保护个人隐私。