浏览历史记录曝光你的内心全景图:开源调查演示
【2018年11月19日存档】切勿轻视您留在互联网上的任何一点数据,它们汇总起来将是非常致命的。一旦落入有目的的人之手,就极有可能令您陷入危险。上周我们发出了一个游戏邀请,请您通过使用开源调查汇总目标人的数据,以日记的形式构建目标人的生活和思想。本文是 IYP 对这一游戏的演示。是的,这是一个较为极端的演示,我们的游戏参与者不必如此模仿,仅希望您能通过这篇演示了解到谷歌有多可怕。
这是一个星期五的早晨。J 先生在新加坡人民公园附近的一间公寓的床上醒来。粉红色床单、米色墙壁、谦虚简约的装饰使 J 先生感到舒适。以每晚 44 美元的价格从 Sarah 租来这个地方并不是一个坏主意,Sarah 是一个非常随和的东道主,一个在新加坡生活了一年多的美国人,曾经在欧洲和东南亚各地旅行和生活过。
J 先生醒来的房间位于一栋独特的 103 米高的建筑物中,名为 People’s Park Complex,这是东南亚第一个同类购物中心,为新加坡的后期零售业发展奠定了基础。那个星期五早上,从这个社会最奢华的建筑物之一的 22 楼放眼望去,景色很美。
天气晴朗,炎热潮湿,通常是4月,所以淋浴时的水不够热的事实并没有太多打扰 J 先生。无论如何,在新加坡的热带气候中难道还有人想要热水浴吗?
此地是 J 先生在新加坡过去几天内的任务基地,他于4月7日从香港飞来。前一周是不同会议的混合,除了他对汉堡的喜爱之外,J 先生的想法很少(他真的很喜欢通过旅行在不同的地方探索)。这一次,他的主要兴趣是单身人士的在线约会网站、城镇夜总会、移民女工问题、以及这个繁忙的东南亚港口的外籍人士的情况。作为一名瑞士籍的外籍人士,这个话题也许会让他产生共鸣。
这几乎是一种解脱,因为前几周以来占据他的脑子的都是一些来自 YouTube 视频和纪录片的刺激,主要集中在战争雇佣军、英国和美国在阿富汗的部队的黑暗面。
这一天的开始像其他任何时候一样。此刻在苏黎世的家中应该是 01:36:04 ,在 J 先生拿起他的笔记本电脑并继续浏览网页时。
他在前20分钟内节奏缓慢; 他用谷歌搜索了“新加坡年轻女演员”,查看了 FehrAdvice&Partners AG 的一位经理的 LinkedIn 页面,他来自苏黎世地区,看了一眼“新加坡 Joicy Chu 的明星”,并阅读了维基百科关于奥斯卡获奖纪录片“Taxi to the Dark Side”的文章,这是关于一名阿富汗出租车司机被美国士兵关押在巴格拉姆基地并被殴打致死的故事。
在深入思考他的新加坡探险之前,他查看了两个关于面试技巧的网站。在网上寻找新的工作机会对他来说已经有一段时间了。顺便说一下,大约一个小时之后,他的思绪就会徘徊在中年危机问题上了。 休息了12分钟后,他开始计划在城里度过他的一天。他需要做的第一件事就是乘坐 354 Admiralty Drive,花一小时的时间到达城市的北部。
在一个尚且陌生的城市里要去这么远的地方的想法可能会让人感到不舒服,J 先生正在放大和缩小谷歌地图,并多次检查不同的选项。
J 先生感兴趣的下一个位置似乎更有前途 — 瑞士俱乐部,成立于 1871 年,当时它被称为新加坡瑞士步枪射击俱乐部,这个地方的创始人奥托先生的朋友们经常抱着他们的步枪上在马里士他路的森林里进行一些严肃的射击练习。今天,该俱乐部是一个花哨的上层俱乐部,有游泳池、餐厅和宾馆。
以上每一个字均来自对在线数据的窥视
– I — 探索浏览历史
以上这个小故事基于一个小小的摘录,只有一个两小时的样本,完全来自瑞士记者 J 先生的互联网浏览历史。2015 年6月下旬,他参观了柏林的战术科技办公室,并且他参加了这个开放私人生活的游戏 — — 即 看到通过他在自己的设备上创建的数据,老大哥可以得到什么。
我们探索的其中一个数据集是 J 先生的浏览历史收集。我们的目标是找出我们可以从一个人的浏览历史中挖到多少东西,或者,换句话说,任何人可以仅仅通过利用一个人的浏览记录得到哪些信息。
查找浏览历史记录背后的真实姓名和社交图
查看数据集只需要花几分钟时间,以关联此浏览历史记录背后的人的真实姓名。只需对他的 Facebook 流量进行排序,即他访问的个人资料页面,就能识别到真人。
由于 Facebook 正在实施“实名制政策”,这是将某人的浏览历史记录与其真实姓名联系起来的一种邪恶方式。有许多学术论文讲述了如何根据用户的浏览模式和行为识别身份的模型。 探索 Facebook URL 则更容易曝光某人的隐私,仅仅根据 URL 的结构,我们就能够重建这个人的社交关系图的一部分 — — 是的,这种方法可以揭示任何追求实名上网的中国用户的私密生活,以及任何使用实名制的应用程序的用户,包括没能按照基本步骤采取匿名的用户。
这个故事仅仅依据 Facebook。对于中国的微信来说,您将“收获”更多。
—— J 先生的意图,愿望,需求和偏好 ——
在 2005 年的研究中,行业分析师 John Battelle 将谷歌描述为“意图数据库”,这是’一个庞大的点击流数据库,包含可以被发现、查询、存档、跟踪和利用一个人的欲望、需求、意向和偏好’。从某人的浏览历史中探索就可以为我们提供很多线索。
不同形式的 Google 相关网址可以揭示不同的有趣信息。 首先,最基本的信息隐藏在国家域名中,仅在此基础上,我们就能够看出 J 先生正在浏览哪个国家/地区的网页。
下图显示了 J 先生的在线世界,包括他在两个月内访问过的所有网站。通过这种社交网络分析,我们可以看出谷歌在他的在线活动中占据主导地位。是的,这就是危险所在(点开大图)
通过解析 Google URL 的查询段,我们可以跟踪 J 先生在此期间的兴趣、需求和思路。如果将来自 YouTube(另一项 Google 服务)的网址添加到此,则 J 先生的“云”思想就会更加完整了。
现实挖掘:J 先生在哪里,以及想要去哪里
地理信息系统 如 谷歌地图是很难避免的。通过将物理层与多个信息层相结合,通过移动电话的位置数据进行增强,它们已经确立了自己作为导航物理空间、大城市复杂的公共交通系统、商业和社会服务、历史信息、甚至包括野生口袋妖怪生物及其训练中心空间的必要工具。
并且,这些地理信息系统为我们提供的服务不仅包括人们的在线行为数据,还包括人们如何与物理空间互动的信息。
当 J 先生在谷歌地图上搜索某个位置时,或者试图找到他的下一个目的地的路线图时,我们可以从他的浏览器历史记录中轻松提取相关信息。例如,看到 Google 地图向他建议的确切路线和交通工具的网址,或者从浏览日志中查看被他手动放大或缩小的地图上的点,你试试看?这是非常具有侵入性的。
并非所有这些位置标签都代表了他的确切位置,其中一些可以被解释为他的意图、愿望或偏好。总而言之,这些信息可以描述物理信息景观中的概况,其中他的实际位置与他的兴趣或愿望的位置混合在一起。
住宿➕早餐
探索我们可以在某人的浏览历史中找到的其他服务,可以更深入地了解某人的生活。我们用 J 先生在新加坡醒来的这张床上开始了整个故事。
从他的浏览历史中找到的 Airbnb 页面得到了他的床的照片。当有人选择在 Airbnb 上租用哪套公寓时,我们都可以看到一个类似的清晰的模式。
通常都是首先浏览不同的选项,但是,当用户心中做出决定时,他们就需要与公寓的所有者取得联系,这是一个可以在浏览历史记录中显示出来的心理活动。例如,将此信息与来自 Google 地图的网址相交,可以帮助我们确认某人在该特定公寓住宿的位置和时间。
我们还可以探索许多其他服务。例如,浏览某人的 Yelp 历史记录可以帮助我们了解他们的食物偏好。同样,不同服务的组合还可以揭示一系列的思想和事件,并帮助构建某人的真实行为。例如,在某一时刻,J 先生正在浏览网页,探索他感兴趣的常用主题,然后他开始在城镇的某个特定区域探索 Yelp,使用谷歌地图导航到确切的位置,然后登出。
—— 探索模式:算法眼中的习惯生物 ——
我们人类都是习惯的生物,我们倾向于在日常行为中创造重复的模式。我们倾向于在相似的时间睡觉和醒来,相似的早晨惯例、相似的社交互动仪式。如今,由于我们生活的许多部分都是由技术调节的,因此这些模式通过不同的数字足迹得以复制和可见。
当识别出模式时,异常检测就诞生了。正如 Pasquinelli 所说,模式和异常的两个认知极点是算法治理的同一枚硬币的两面,只能在模式规律性的基础上检测到意外的异常(“Anomaly Detection: The Mathematization of the Abnormal in the Metadata Society”, Matteo Pasquinelli (2015))。
模式识别和异常检测都被用作理解大量数据的方法,我们所有人的数字足迹正被许多参与者 — — 全球政府机构、互联网公司和服务提供商或数据交易商 即第三方,所收集。
在算法的眼中被认为是“异常”的东西就可以将您列入政府机构的重点监视列表,或者某些行为模式可以导致您被标记为在线广告的投放目标 — — 这也是为什么我们自己也许都无法识别自己的模式“异常”,但政府知道,数据中间商知道,任何一个老大哥都知道。 在 J 先生的简单条形图和热图的情况下,基于浏览动作的次数就可以揭示出几种行为模式。
我们将在下周的文章中详细演示电子邮件元数据开源调查的可怕现实,⚠️它已经非常值得警惕,生活模式分析是一种专门用于记录或理解受试者私密习惯的监视方法。它是一种计算机化的数据收集和分析方法,用于确定受试者的过去行为、确定其当前行为、并预测其未来行为 — — 是的,少数派报告,但已经不是小说。
只需快速浏览一下这张热图,就可以揭示 J 先生在香港和新加坡(4月5月26日至26日)旅行期间的行为差异,以及他在瑞士逗留期间的更有条理的行为模式。
我们可以发现从5月1日到5月7日晚的潜在假期(离线)时段,工作日和周末之间的差异,以及他最喜欢的午休时间。 模式不仅可以在某人浏览的频率水平上进行探索,而且还可以探索随着时间的推移浏览历史记录中的特定网站或服务。
—— 跟踪器 ——
不同的参与者试图获取一个浏览历史的不同部分,这取决于他们在数据流中的位置。几乎每一个在线环境中的移动都被数百个不同的隐形跟踪器跟踪和记录,这些跟踪器是一个隐藏的和无声的“传感器”网络,它们收集有关您的在线动作的所有信息,而您根本不会发现任何迹象表明它们存在。
我们使用了一种方法来映射 J 先生正在访问的网站背后的跟踪器,这些跟踪器基于为 Trackography 开发的工具 Tactical Tech 的项目。在下图中,您可以找到他们背后的所有跟踪器和公司。(点开大图)
—— 深挖 ——
之前的例子只是探索 J 先生的浏览、关系和意义的表面层次,仅从 URL 本身中提取。引起他注意的所有文本、图片或视频的真正含义,当然并不总是只从访问过的页面的 URL 中直接看到。为了更深入地了解他的经验,我们需要深入了解内容本身。
如果我们放弃不合理的想法,从某人的浏览历史中读取每篇文章,并标记每个内容(那太累了),一个明显的选择是找到一种从内容中自动提取关键词和含义的方法 — — 这就是中国、美国等国家的审查者和情报人员使用的方法。
对于这项调查,我们选择测试一种可用的解决方案,该解决方案使用一种人工智能、机器深度学习方法进行文本分析 — Cloud Natural Language API。 根据 Google 的说法,这个附加到其深度学习平台的工具可用于提取有关人员、地点、事件等信息,这些信息可在文本文档、新闻文章、或博客文章中提及。它可用于了解社交媒体上的情绪、或通过呼叫中心或消息传递应用中发生的对话来解析意图。
回到我们在星期五早上的故事开头,当 J 先生阅读维基百科关于纪录片“Taxi to the Dark Side”的文章时 — 下面就是 Google 自然语言、深度学习平台了解 J 先生正在阅读的内容:
很明显,这种工具可用于分析我们所有人的在线行为,更准确地说,用于识别游戏中各种参与者感兴趣的关键词、人物或位置。这是在更深层次上理解和分类某人的行为、需求和兴趣的重要步骤。
类似的做法,用于从 Facebook 、微信等平台上创建的内容中提取和聚类主题和关键词,以便将用户行为转化为利润。
但是,你知道的,相同的过程可以潜在地用于完全不同的目的,例如将用户与政府机构的“特别感兴趣的”关键词、人或位置相关联。
谁有权浏览这些数据?
了解谁可以访问我们的浏览历史以及分析它的可能性,将使我们深入了解信息社会中新的权力结构和财富分配。
浏览器 — — 用于 Web 浏览的基本软件是浏览器。本质上,它是一种软件,可将用户的命令(最常见的 URL)转换为服务器可以理解的请求,然后以用户可理解的方式表示服务器的响应。因此,浏览器是这个拼图中的单个部分,其中包含有关用户浏览习惯的所有数据。大多数现代浏览器允许创建配置文件,即允许用户登录,并在他们使用的所有设备上具有相同的设置、书签和历史记录。这意味着他们正在将这些数据传递到一个中心点,该中心点由构建特定浏览器的公司/组织所拥有。我们现在都知道这家公司是谁……没错,Google。
Cookies — — 超过 50% 的网站使用 cookies . Cookie 收集的数据有不同的应用程序,其中一些确实影响功能(本地化和用户特定设置,但最广泛使用 Cookie 的是广告。更准确地说,对用户的习惯进行分析。许多 cookie 收集有关引荐来源 URL 地址的数据。
Network — — 互联网作为一个网络是一个非常物理的东西,它由服务器、电缆、路由器和其他网络设备组成,使流量能够流动。这些网段由不同的实体建立,大多数时候是控制网络基础设施的公司,但不是所有网络在物理和技术上都是安全的。攻击者可以通过多种方式连接到网络,并嗅探数据流量,虽然密码和财务详细信息等数据通常是加密的,但 URL 则不会加密,这就会将它们带到网络嗅探器的触及范围之内。
悲剧的法律 — — 许多国家的立法都有所谓的数据保留法,要求 ISP 和电信公司保留6个月到2年的元数据,具体取决于您在哪个国家/地区。这意味着,如果访问您的保留数据,就能看到在两年前您正在访问的所有网站,所有在线行为,也就是您的全部生活,因为如今每个人都将内心留在互联网上了。对于使用 SSL / TLS 的网站,只有域名可见,而不是完整的 URL,但这并不会使这些保留的数据不那么具有侵入性,因为其逻辑映射可能导致任何种类的不同结论。
IV — 从过去到现在
您认为这是现代数字世界的“创新”性人权灾难?不不,它有深远的历史。
19 世纪的根源
1850 年代美国海军上尉 Matthew Fontaine Maury 通过美国海军天文台发现了数千艘旧船的原木。当时,在航行完成后,日志不被视为重要信息。源于他的痴迷,他开发了一种方法,系统地从每个日志中提取关键信息,并开始手动绘制地图信息,使用超过 1,200 万个数据点,以提高船舶的导航速度和安全性。
他被认为是我们今天称之为大数据分析的先驱之一,他是第一个认识到由数千个较小数据块创建的信息之价值的人。但对于我们的背景来说,这个故事还有另一个有趣的方面。
他的地图被证明是非常有用和成功的,不仅在海军内部,而且在商船之间。了解新数据收集的重要性,Maury 建立了交换船舶原木地图的原则。这种提供产品或服务的做法,在他的情况下映射,以换取航行日志,就如今天的浏览历史数据,这就是 150 年后 Google 或 Facebook 等当代数字极权的主要商业模式的基本组成部分。
再倒退十年,19世纪40年代,在大西洋的另一边,在英国,还有另一个与我们的故事相关的重要历史事件。根据 David Vincent 的说法,这一时期促进了我们现在称之为社交网络的创造,利用当时的信息技术(邮政服务)来扩展个人互动领域,通过在一天内来回交换邮件,可以在城市内进行对话、安排和参与会议。
在 1840 年之前,邮政服务主要由政府控制之外的非正式信函分散网络运行,旨在规避皇家邮政的高额费用。当 Penny Post 作为一个集中的,低成本的政府邮政服务被引入时,由于担心日益增长的工人阶级运动,“保护国家免受内部威胁”(也就是维稳),因此抹杀了隐私问题。这使政府能够获得公民的邮政通信,并且第一次系统性地统计了一个国家的通信实践并生成了统计数据。
正如 Vincent 所描述的那样,现在可以进行同样的统计测试。它更加微粒化、体积更大、更快速,与十九世纪不同,它还涉及跨国公司的利润。
“秘密办公室”在 1650 年代形成,并在邮政总局内作为卧底国家间谍机构运作。该办公室的主要工作就是拦截英国和海外之间的邮件,并阅读它们。在19世纪40年代,秘密办公室以某种方式被暴露,并就其行为接受了调查。
现在:走向思想警察
“There was of course no way of knowing whether you were being watched at any given moment. How often, or on what system, the Thought Police plugged in on any individual wire was guesswork. It was even conceivable that they watched everybody all the time. But at any rate they could plug in your wire whenever they wanted to. You had to live — did live, from habit that became instinct — in the assumption that every sound you made was overheard, and, except in darkness, every movement scrutinized.” — — 1984, George Orwell
人们一直在努力减少“电子通信交易记录”,仅仅是关于一个人行踪的额外信息,就像调查人员从线人那得到的东西。或者通过所谓的“国家安全”借口获得的,这是一种行政传票,使美国联邦机构能够在没有事先司法监督的情况下收集公民的隐私信息。
2016 年2月举行的听证会上,坐在美国参议院特别委员会面前,FBI 负责人提到增加有争议的关键字过滤;当时的六年前,在类似的意图失败之前,美国政府对通信内容完全漠不关心,只寻求其技术性记录,认为“获取元数据会更快更容易”; 所有已经存在的数据,每次点击都会大规模生成。(详见我们本周后期的具体演示)
但是电子通信交易记录或通信数据 — 例如拨打的号码、发送的文本消息的接收者,所涉及的设备的 IP 地址,特别是所访问的网络域名的记录 — 经常能显示出比内容本身更多的隐私信息,我们将就这一问题做一系列详细说明和开源调查演示。用隐私组织的话来说:“这些信息可以揭示一个人的政治关系,医疗条件,宗教信仰,药物滥用史,性取向,甚至他或她的全天活动的细节,”描绘出一个人最私密的生活全景图。
Snowden 揭露的国家安全局 一个名为 Xkeyscore 的计算机系统,用于搜索和分析全球互联网数据时(美国国家安全局每时每刻都收集的东西),对通信数据的渴望的真正范围被揭示出来。作为“从互联网开发情报的最广泛的系统”,包括电子邮件的内容、访问和搜索的网站,以及他们的元数据,Xkeyscore 允许 NSA 分析师在没有事先授权的情况下搜索其庞大的数据库。
由 DARPA 资助的另一个项目可以让我们深入了解数据收集和分析的未来应用。多尺度异常检测(ADAMS)程序可创建、调整和应用技术,以便在海量数据集中进行异常表征和检测。数据中的异常提示在各种现实世界环境中收集额外的可操作信息。
该项目基本上通过分析个人的浏览习惯以及其他数据源(例如手机日志或位置数据),创建了在军事等大系统中识别下一个 Edward Snowden 或 Chelsea Manning 的平台。
数据热潮绝不仅限于西方所谓的“反恐战争”管理者和其他政党,但它拥有同样的普遍借口,即所谓的“国家安全” — — 是的,这是当今世界最大和最流行的狡辩之词。
例如,中国认为现在是时候将游戏向前推进一步了:最大的国营防务承包商之一中国电子科技集团正致力于开发收集和整合数据的软件,关于工作、爱好、消费习惯、和普通公民的其他行为数据。官员们宣布,这个被称为预测性警务数据平台的“统一信息环境”将首先在少数民族人口的地区进行测试。除了传统的数据收集方式,该平台还整理了中国公民的在线行为数据。
您还认为“技术性解决方案只是 IT 界书呆子才应该具备的知识”吗?是否能掌握基本的隐私保护技术已经事关您的安危!
谁是 J 先生?
那么,我们真的可以通过浏览历史记录中的 URL 来真正了解 J 先生是谁吗?
您已经看到,从 J 先生的浏览历史中收集的数据就能提供对他在某一天内的意识流的惊人洞察。我们只是在做最简单的演示,而真正的老大哥可以拿到更多的数据来确认这些思想所具有的实际意义的任何可能性。无论哪种方式,J 先生仍然暴露。J 先生可能只是一个普通的、体面的、有点疲惫的家伙,寻求从职业跑步机上获得短暂的喘息。而完全放弃了自己的隐私权。
我们只希望您不是他。⚪️