由于城市里遍地都是传感器和智能手机,我们所有人都走在一个大型的数据工厂里。通过地铁旋转门、发送文本、甚至只是把电话放在口袋里:我们每小时都在生成位置标记数据。所有这些数据对于想要了解城市的规划者和设计师来说都是一个福音 — 当然,对于想要了解其中人员的监视资本主义巨头、政府和广告商来说也是如此。
他们一直在高喊着:这些数据是匿名的!已经从数据中清除了任何识别功能! 但这不是真的。
麻省理工学院的一组科学家和城市规划师在一项新的研究中表明,无论如何,弄清每个人的身份都是相当简单的事。换句话说,当您在城市中处理多个数据集时,可以非常快速地对匿名数据进行去匿名化。
麻省理工学院 Senseable City Lab 创始人 Carlo Ratti 与 IEEE 共同撰写了该研究报告。
首先,他们合并了两个新加坡人的匿名数据集,一个是手机日志,另一个是过境旅行,每个都包含“位置标记”,详细说明了每个数据点的时间和地点。然后他们使用一种算法来匹配数据在每组之间紧密重叠的用户 — 换句话说,他们有电话日志和具有相似时间和位置标记的过境日志 — 跟踪这些标记随着时间的推移如何紧密匹配以消除误报。最后证明,花一个星期的时间可以实现匹配17%的用户、11周达到95%的准确率 — — 利用智能手机增加的GPS数据,只需不到一周的时间就可以达到这个数字。
虽然麻省理工学院的小组并没有试图揭露这个数据集中的特定用户,但他们证明了恶意行事的人可以使用相同的过程将这些匿名数据集与个人数据集合并,轻松将时间戳固定在一起,以确定每个人的身份。
不仅仅是恶意行为者、政府或公司可以使用这个过程来监视公民。城市规划者和设计师也可以从这些大型城市数据集中学到很多东西 — 例如,Ratti自己的实验室最近将这些数据用于减少停车的项目,而其他团队则用它来研究从城市贫困程度到可访问性的所有内容 — — 需要小心的是,将所有数据合并可以对其进行彻底的去匿名化。
“作为研究人员,我们相信使用大规模数据集可以发现前所未有的关于人类社会和流动性的见解,使我们能够更好地规划城市,”麻省理工学院未来城市交通组织的 Daniel Kondor 在发布中表示。“然而,重要的是要表明识别是否可能,以便人们可以意识到共享移动数据的潜在风险,目前,这些丰富的信息大部分由少数公司和政府机构掌握,他们对关于我们的一切知道的太多了,虽然我们对它们普遍了解甚少。我们需要注意避免数据垄断和滥用。“
换句话说,随着城市规划者、科技公司和政府收集和共享所有人的数据,我们现在必须知道:“它是匿名的”这种宣称绝不是隐私保障。当他们深入研究我们生成的数据时,城市和公民需要要求永远不会被深入识别这些数据。
Sorry, your data can still be identified even if it’s anonymized. Urban planners and researchers at MIT found that it’s shockingly easy to “reidentify” the anonymous data that people generate all day, every day in cities.