可怕的“连点成线” 和互联网审查—— 监视之恶(四)“反恐”歧途
【2018年2月15日存档】权力集中的领域势必吸引着滥用权力和贪图权力的人。而互联网让权力再一次出现了集中化高峰,如今的网络安全沙皇和五十年前的安保部队沙皇没什么区别,人类正在建立一种同样的威权控制架构,它吸引人们去滥用它。
人们往往会集中于罕见而惊人的威胁,而忽视了平凡的常见的威胁,就如人们会害怕飞机比驾车多一些,即使前者更安全。或者害怕恐怖分子比警察多一些,即使有数据表明,仅仅在美国警察杀人的数量是恐怖分子的 9 倍。具体数据在这里《You’re Nine Times More Likely to be Killed by a Police Officer than a Terrorist》。
所有人都憎恶恐怖分子,憎恶暴力,当权者很明白这点,于是“反恐”就成为了他们说服人们接受侵入性监视手段的最有效理由之一。但必需知道,大规模监控绝不是防范恐怖主义的有效方法,不仅无法给人民带来安全保证,反而首先就危害到了人民的基本权益。简单说说为什么。
可怕的“连点成线”
“连点成线”这个比喻是 NSA 在为他们的监控行为做辩护中反复使用的。然而这是个可怕的误导性比喻。这不是涂色书中的游戏,那些点都是被编号的,而现实生活中,“点”只能在事实的基础上得到确认。
著名风险工程专家 Nassim Taleb 将这种趋势称之为 “叙述谬误 narrative fallacy”。人类是天生的讲故事高手,而故事世界比现实更有条不紊、可预测、连贯一致,问题在于你无法生活在故事里,这不是在写 homeland 剧本。数据显示,美国运输安全管理局的禁飞名单上有 2 万多人,恐怖分子身份资料库(也称为观察名单)上有 68 万人,他们中有 40% 不属于任何公开的恐怖集团。
数据挖掘技术使我们能将点连接起来,但当企业成功挖掘了我们的个人信息时,有三个关键问题使数据挖掘不能成为发现恐怖分子的工具。分头说。
挖掘本身的侵犯人权问题前文已有论述,此处搁置。
第一也是最重要的:错误率问题。对于广告来说,即使有很大的错误率,数据挖掘也能达到目的,但对于找到恐怖分子这样的需求来说,需要非常高非常多的精准度。
当你搜索一个特定事物时,当每一件事每年都存在合理数量,当错误警报的成本很低时,数据挖掘的效果比较好。检测信用卡诈骗是数据挖掘比较成功的案例之一,所有信用卡公司都会挖掘交易数据以揭发盗卡消费模式。美国有超过 10 亿的活跃信用卡流通,中国有 5 亿左右,在美国的数据是大约有 8% 被盗用。许多被盗的信用卡都有共同特点:购物场所不是持卡人经常去的地方,这些卡被用于购买旅程、奢侈品和黑市商品。在许多案例中,数据挖掘系统能通过阻止欺诈交易而将损失降到最低。误报的唯一代价就是给持卡人打电话,要求核实购买记录。
恐怖分子可不一样,主要因为诈骗经常发生,而恐袭不常发生。这意味着即便是高精准度的恐怖主义预测系统也会因为不可避免的误报而变得无用。(在统计学中它叫做“基准利率谬误”,对此感兴趣的读者可以参见这里的详细说明:Effective counterterrism and the limited role of predictive data mining )
原因在于检测数学运算,所有的监测系统都有错误,系统设计人员可以调整参数使误报、漏报最小化。在恐怖分子检测系统中,当系统错误地将某种无害的东西识别为威胁,就会出现误报;当系统漏掉了某次实际攻击,就会出现漏报。依赖于你如何“调整”检测系统,你可以增加误报的数量来确保漏掉攻击的数量减少,或者以漏掉一些攻击为代价来减少误报的数量。
因为恐怖袭击不常发生,不管你调整得多么好,误报都将彻底充斥整个系统。彻底指的是:如果系统能发现所有的恐怖袭击,那么数百万人会被错误地指控参与了系统发现的每一次“恐怖阴谋”。
如果误报的成本较小,也许能够处理所有被系统标记的无辜受害者。想想机场的全身扫描仪,它对身体进行扫描时警报就一直未断,但运输安全管理局的工作人员可以通过简单的搜身轻易发现误报。这不适合于更一般的基于数据的恐怖主义检测系统。每一次警报都需要漫长的调查来确认它是否属实,不仅耗时耗材,还妨碍情报官员做其他有效的工作。
最简单的说就是:当你看到一切的时候,其实你什么都没看到。
NSA 前局长 Keith Alexander 对此的形容最贴切:“你得去大海里捞针”。这句话完美地诠释了大规模监控和大批量数据收集所存在的问题。当你要找到一根针的时候,你最不应该做的就是把一个草垛堆在上面,而那些痴迷于“收集一切”的当权者,堆上的可不止一个草垛。
NSA 自己也意识到了这点,他们的文档证实了,而军事情报界甚至谈到了“从消防水管中饮水”的问题:太多的噪音完全掩盖了真实的线索。
同时,误报充斥着整个系统。我曾经在剧评里写道,homeland 片中最为贴切的隐喻就是主人公的躁郁症,911 后的美国就是患上了躁郁症一般,对数据的痴迷、对社会的全面控制的需求都证明了这点,如今它已成为美国异议人士的讽刺对象。其中比较典型的根据就是大量出现的严重的错误警报。当时国安局每个月向联邦调查局发送上万份提示信息,所有这些信息都被证明是假警报。 “Spy Agency Data After Sept. 11 Led. F.B.I. to Dead Ends” 被美国自由公民联盟记录(PDF)。
这和一个女主角的躁郁症所付出的代价可完全不在一个重量级上,所有人都被因此搞得疲惫不堪,所有公民都被严重侵权,民主被削弱。其根源就是那个古老的名为“Suspicious Activity Report, SAR 可疑活动报告” 的数据库:数以万计的报告,几乎没有任何实际效果(PDF)。
拦截了所有人的电话通讯元数据,只有一次取得了“成功”,拦截到了一个出租车司机给索马里组织送了8500美元,而此人对美国没有直接威胁。此事多年来一直是舆论笑柄。但即便这件事本身都有可能是捏造的。
第二个问题是:每一次攻击都是独一无二的。在波士顿马拉松终点站高压锅炸弹发生之前,谁也不知道这种情况会出现。而且今后也不大可能会出现了。如果把高压锅当成检测策略,必败无疑。并且任何一种标准都是如此。
第三个问题是,国安局尽力想要找到的人都非常狡猾,他们的工作就是逃避一切检测。在个性化营销的世界里,典型的监控对象不会试图隐藏自己的活动,在警察国家环境下却并非如此。敌对关系将这个问题变得更加复杂。
这三个问题并不是一成不变的,但必需说,如果你的任务是找恐怖分子,数据挖掘就是错误的工具,因为所有大规模监控都要求对不合理的信息进行反馈。Keith Alexander 还是局长的时候非常坚定地支持对用户大规模数据收集,他认为泛在监控能帮国安局阻止911 袭击……这基本不可能。连波士顿马拉松爆炸案都没能阻止,尽管其中一名袭击者就在当局的“恐怖分子名单”上,两名袭击者都在社交媒体上有不良记录 —— 那是2013年,911 发生后的12年,大规模的收集依然被证无效。道理很简单,袭击者的数据已经被收集了,却在爆炸发生之前,没人觉得该数据点有什么值得关注的地方。
911 袭击事件委员会可以说理解到这一问题了,该委员会的报告展示了一个失败的“连点成线”。大规模监控的支持者要求收集更多的数据,但这份报告说,情报界在没有实施大规模监控的情况下拥有与阴谋相关的所有信息,“失败只是因为分析不足”(这里指向详细报告 PDF)。
2006年,凭借大规模监控并没有找到内衣炸弹袭击者 Tsarnaev。尽管他的父亲反复警告美国政府他非常危险。液体炸弹在伦敦的公寓被检获,不是通过大规模监控,而是最传统的调查性质的警方工作。
相关例子非常多。有记录的国家安全局的成功案例都来自目标性监控,而不是大规模监控。分析表明,情报部门获取潜在的袭击阴谋是通过可疑活动报告,以及其他无关犯罪调查。大规模监控并没有在此提供任何支持。(前面的链接指向详细研究报告)
互联网审查
扎克伯格已经变成了事实上的宣传部长。根据 Facebook 全球政策管理总监的报告,Facebook 现在拥有一个由 10,000 名成员组成的并快速增长的安全团队,其中 7,500 名员工负责审查网上内容。该团队还有一个所谓的“互联网反恐组”,由前智库和执法人员组成,专门在网上嗅探“恐怖主义内容”。据 Bickert 称,Facebook与许多其他公司合作,将公司确定为‘违反标准’的媒体全写入黑名单,黑名单上的人最终会受到所有社交媒体的限制。
审查是大面积展开的,宣传部并不是 Facebook 的专利。但究竟什么是恐怖主义,尚且没有一个全球公认的定义,何况“恐怖主义言论”?那么这些互联网巨头究竟是根据什么来审查内容的呢?它们没有告诉你,恐怕他们自己也说不清楚。
但每个人都知道,不论你想过滤什么样的内容,首先要做的都是对所有数据的全面拦截,也就是监视每个人都在做什么,你需要建立能够监控所有人的基础设施,也就是大规模监控系统。
权力集中的领域势必吸引着滥用权力和贪图权力的人。而互联网让权力再一次出现了集中化高峰,如今的网络安全沙皇和五十年前的安保部队沙皇没什么区别,人类正在建立一种同样的威权控制架构,它吸引人们去滥用它。
服务商在这里扮演着这样一种角色,他们主动剥削人们接触互联网信息的能力。不论你把权力赋予公司、政府,还是其他什么人,都存在着巨大的风险。
互联网上的确有一些内容令人作呕,但解决这个问题的方法绝不是政府和服务商主导的审查,很多国家都存在骚扰人民的所谓“常规监督”。
那么应该怎么办?德国“黑客元老”瓦乌·荷兰德曾经说过:“过滤应该由最终用户来决定,由终端用户的终端设备来执行”。这就是答案。
也就是说,每个人都带着一个过滤器,就长在脖子上——你的大脑。过滤不该由政府代表人民来执行,如果人们不想看到某些东西,那好,他们就不会去看,而且,不论如何,现在也的确需要你自己去过滤很多事情。
早已被威权国家用作对社会实施高压政策的借口
中国官方越来越多地以“中国暴力恐怖事件日趋多发”为借口,主张制定《反恐怖主义法》。还模仿到了互联网审查的借口,宣称网络也越来越被恐怖组织所利用,因此迫切需要加强制度化。
中国外交部大言不惭地表示希望美方尊重中方正常的立法活动,不要搞“双重标准”。称:包括美国在内的一些国家出于反恐需要,在相关立法中规定了网络运营商和服务商的协助义务。中国的反恐法就是参照美国等国的反恐法而制定的……真是噎死人的回应。
国际人权组织只能用“定义模糊”来反驳,比如大赦国际东亚地区负责人 Nicolas Bequelin,他认为中国反恐法在恐怖主义、国家安全、以及极端宗教等许多问题上的定义都十分模糊。这就给中国官方的镇压活动提供了巨大的空间,这将严重的威胁中国的人权,尤其是在中国的西藏以及新疆等地。此外,这一法案的另一个问题是它将给予中国政府无比巨大的权利,使他们有权监控在中国运营的电信运营商的巨大的电子数据库,并且强迫企业提供解密技术。所以,这其实是一大侵犯自由的法律,它将帮助中国政府维护国家安全,也就是捍卫中国共产党的统治。
他说的很对,但问题在于,理论角度上它根本无法定义清晰,就如本文上面所分析的,即便可以精准定义恐怖主义,“反恐”也不能作为大规模监控的理由。于是国际人权组织对中国的反驳力度可以说一直很弱,真正能切入其要害的反驳方法就是论证监控无助于所谓的反恐。当然,论述成功的结果就是将美国的做法一起反驳了,这是无可避免的,因为事实如此,任何人的观点不应该在以回避事实为手段,否则必定会处于弱势地位。
在美国,很多专家和研究人士曾经多次论述或陈述过为什么监控无助于“反恐”,包括基地问题专家 Lawrence Wright、有线电视新闻网安全分析员 Peter Bergen 等,他们清楚地解释了为什么大规模监控所起到的效果会适得其反:它使得侦破和阻止恐怖行径的难度愈发加大。
民主党国会议员 Rush Holt 作为一名物理学家,同时也是国会中为数不多的科学家之一,他曾明确指出,收集所有人的通话交流记录只会使得真正的恐怖分子所商讨的阴谋模糊不清;采取有针对性的而非不加区分的监控将提供更具体有效的情报信息;而当前的法律使得情报机构数据泛滥,他们无暇对之有效地分类处理。并且,以反恐为理由的要求削弱加密技术的举措,使得对老百姓非常重要的生活部分比如银行、病例、商业等等系统更容易受到骇客的攻击。
然而事实显示,直到如今当权者仍未改变。NSA 去年收集了 5.34 亿电话和短信记录,是 2016 年的三倍还多。Snowden 在 2013 年曝光了 NSA 的大规模信息收集之后,美国国会议员于 2015 年通过法律试图限制 NSA 的大规模情报收集。结果反而是 NSA 的电话和短信记录收集从 2016 年的 1.51 亿大幅增长到了去年的超过五亿。
而包括中国、土耳其在内的很多国家已经将“反恐”作为最强借口以针对社会异议人士和少数民族施加了史无前例的高压政策。
控制一切才是真正的目的
纸质媒体衰落的同时,六家跨国互联网公司控制了 90% 的线上内容,Truthdig 专栏作家 Chris Hedges 与纽约大学媒体研究教授 Mark Crispin Miller 做了一期关于信息自由的对谈。其中 Miller 很不客气地将当下被上述巨头把持的信息生态形容为“gleichschaltung”。这是个纳粹术语,德语原意是“一体化”,这个词被纳粹用来建立一个渗透社会各个方面的极权统治和协调制度。你可以把它理解为北京政府追求的意识形态一致性。
他指的是通过算法实现的流量定向,就是通过强化一些内容的出现频率、同时削弱另一些,以达成“大一统”的目的。监视是基础工程,是成功定向的前提,它需要首先了解你最容易接收哪些方面的信息。我将在后面的文章中专门分析算法的问题。
实施监控可以帮助政府对原本应该可以异彩纷呈的政治信条实现“统一”。这不是纳粹和北京的专利。在20世纪之交,英法均设立了特殊的监控部门,以应对反殖民主义运动的威胁。阿拉伯之春期间反抗独裁政权的民众抗议活动中,叙利亚、埃塞俄比亚、埃及和利比亚等地的政府都在针对国内持不同政见者对互联网的使用进行监控……
很多调查足以表明,在独裁政府深陷民众的重重包围之中时,他们索性从西方科技公司大量购买监控工具。叙利亚的阿萨德政权甚至从意大利监控企业 Area SpA 直接调入了许多员工,他们获悉叙利亚“迫切需要对人员进行跟踪”。
在埃及,穆巴拉克的秘密警察购买破解 Skype 密码的工具,对激进人士的网络通话进行窃听;在利比亚,记者和抗议人士闯入政府的监控中心,结果发现了冰箱大小的黑色设备,这些东西都产自法国监控企业 Amesys,被用来监控利比亚主要互联网提供商的网络流量,“打开邮箱、破解密码、潜入在线聊天工具,并勾勒出不同的监视目标之间的关系”。
有能力对人们的交流沟通进行窃听,为从事此举的人提供了极大的权力。除非这类权力可以得到严格的监督控制和问责考量,几乎很容易就会被滥用。若要指望政府在完全保密的情况下开启大规模监控机器,而且完全不会另徇私情,既有悖于历史,也与人性基础背道而驰。
互联网早已不再是只能实施几种生活功能的几个孤立的域名,正相反互联网构成了我们生活的核心,几乎与所有事情息息相关。尤其是在网络上,人们更倾向于表达真实的内心,那些平日不敢说出口的话却全放在了互联网上。事实已证明,这是很危险的。但这不是我们的错。
将互联网纳入大规模监控系统所产生的效果与历史上任何国家实施的监控都大为不同。所有以往的监控体系由于条件所限相比之下更具局限性,也便于规避。然而允许监控体系在互联网上生根发芽,则意味着基本上所有形式的人类互动、规划甚至想法本身,都会受到政府的监视。
—— 未完待续 ——
本系列完整版在这里: