2016年8月,澳大利亚阅批发布了由医疗账单记录组成的“匿名”数据集,其中包括290万人的所有处方和手术。
为了保护个人隐私,记录中不包含姓名和其他身份信息。然而,墨尔本大学的一支研究团队马上发现,只要比对该数据集和其他公开信息,比如明星生孩子或者运动员做手术的新闻报道,人们的身份信息很容易重新识别,无需经过当事人同意就能获取完整医疗记录。
后来,阅批从其网站上移除了这些数据——但此前已经被下载了1,500次。
数字碎片可以被追溯,以意想不到的方式侵犯人们的隐私
看似无害的“去身份化”数据被逆向还原,身份信息由此曝光,这样的例子数不胜数,澳大利亚的那场隐私噩梦就是其中之一。而且,情况只会愈发恶化,因为人们在网上花费的时间越来越多,到处抛撒数字碎片,而这些可以被追溯的数字碎片会以意想不到的方式侵犯人们的隐私。
有人将匿名的纽约出租车日志与狗仔队在该市多处拍摄的照片比对,发现好莱坞大明星布拉德利·库珀和杰西卡·阿尔芭居然没有付小费。2017年,德国研究人员根据“匿名的”网络浏览模式,成功发现人们的身份。近日,伦敦大学学院研究人员演示了如何根据推文的米数据,确认Twitter用户的身份。而健身追踪应用Polar暴露了士兵和间谍的家庭住址,甚至是名字。
“人们自欺欺人地以为身份信息难以重新识别,但实际上不难。我们做的那些事情,数据科学一年级新生就可以做到,”发现澳大利亚医疗公开数据漏洞的墨尔本大学研究团队成员凡妮莎·提格(Vanessa Teague)说。
这类隐私侵犯的一个最早例子发生在1996年。当时,美国马萨诸塞州团体保险委员会发布了该州阅批职员到医院就诊的“匿名”数据。和澳大利亚阅批的做法一样,马萨诸塞州阅批删除了明显的身份信息,比如姓名、住址和社保号码。州长威廉·威尔德(William Weld)向公众保证,病人的隐私得到了保护。
后来成为美国联邦贸易委员会首席技术官的计算机科学毕业生拉坦娅·斯威妮(Latanya Sweeney)从数据集中找出了威尔德的医疗记录,以事实证明他的话错得有多离谱。斯威妮从选民名册中获取威尔德的邮政编码和出生日期,并利用某一天他在公共仪式上晕倒后送医的报道,锁定了他的身份。斯威妮把威尔德的医疗记录发到了他的办公室。
斯威妮在后来的研究中发现,只需要根据出生日期、性别和五位数邮政编码,就可以对美国87%的人口进行唯一身份识别。
“看似匿名的数据未必是匿名的,”她向国土安全部隐私委员会作证时说。
后来,计算隐私研究员伊夫-亚历山大·德蒙鸠耶(Yves-Alexandre de Montjoye)证明,根据手机位置数据揭示的行为模式,就能识别大多数人的身份。通过分析15个月时间内150万人(没有其他的身份信息)的手机大致位置(根据最近的信号塔),仅仅依靠地点和时间的四个数据点,就可能对95%的人进行唯一身份识别;只需要两个数据点,就可以识别大约50%的人。
那四个数据点来自于公开可用的信息,包括个人的家庭住址、工作地点和标记了地理位置的推文。
“位置数据相当于指纹。这些信息可能存在于广泛的数据集中,可作为全局标识符,”德蒙鸠耶说。
对于有固定工作的人来说尤其如此,而这简直是跟踪狂的美梦!
“你从家到工作场所,下班后再返回家中,相当有规律。大多数人在地址A居住,在地址B上班,”Salinger Privacy咨询公司董事安娜·约翰斯顿(Anna Johnston)说。
她解释道,位置数据即使没有暴露个人的身份,也能使特定人群处于危险境地。例如,健身应用Strava发布的公共地图不经意地威胁到了国家安全,因为它揭示了秘密军事基地里的人员位置和活动情况。
德蒙鸠耶在2015年证明,只需要知道某个信用卡用户的几次购买交易,就可能从数百万条“匿名的”收费记录中识别那人的身份。
只要掌握了发生交易的商店名称和位置,以及大致日期和购买数量,德蒙鸠耶就能仅仅通过三次交易,对94%的人进行身份识别。这意味着某人可以寻找你和朋友一起喝咖啡的Instagram照片、关于最近一次购物交易的推文和一张陈旧的收据,就能将这些信息与你的整个购买历史记录匹配起来。
社交媒体上的一张照片就可能暴露你的整个交易历史记录
德蒙鸠耶和其他人已经一再证明,以记录归档为目的的数据(与个人有关的数据)不可能做到完全匿名,无论那些数据被简化到什么程度。
“以前可能有效,但现在不行了,”他说。
至于如何防止这种隐私侵犯,个人能做的其实很少。
“一旦我们的数据流传出去,往往会被永久保存,”普林斯顿大学计算机科学教授阿文德•纳拉亚南(Arvind Narayanan)说,“有些公司专门整合不同来源的个人数据,建立虚拟档案,并利用数据挖掘技术,以各种方式来影响我们。”
抛弃手机、只用现金付款,确实有助于减少你留下的个人数字碎片,但这样做并不现实。
“你如果想融入社会,就无法将你流传出去的个人数据量限制到一个有意义的水平,”安全研究员克里斯·维克里(Chris Vickery)说。
而且,个人还很难就软件和服务收集数据的方式作出知情同意。如果很容易重新识别某人的身份,那么企业不共享个人身份信息的承诺是毫无意义的。
“关键是好的法律和恰当的执法,”德蒙鸠耶说。他表示,欧盟的《通用数据保护条例》是“朝正确方向迈出的一步”。
“隐私法的一个缺陷在于,让无法充分了解风险的消费者承担太多的责任,”约翰斯顿说,“应该让数据保管人(比如阅批、研究人员和企业)承担更多的法律责任。”
但德蒙鸠耶依然乐观。他说大数据“潜力巨大”,对医学研究和社会科学尤其有好处。
他建议,研究人员和阅批不应该公布庞大的数据集,而是应该开发接口,允许其他人在不直接访问原始数据的前提下就数据提出需求。
“背后的想法是不失去对数据的管控,确保对象保持匿名状态,”他说。
“隐私未死。我们需要它,隐私终将得到保护。”