越接近权力的顶层难度就越大,这就是开源情报的局限性;但你依旧能获得一些重要的见解,以形成进一步调查的依据。
这就是为什么我们说,开源情报不是实现变革的终极解决方案,而是其中一个重要的步骤 —— 关于信息民主化的步骤。
随着全面数字化的进程接近完成,开源情报的能力将更加明显。
关于 Facebook 的政治旋转门在这里看到:《深层政治:Facebook金字塔的人形肌理 — — 仅仅依靠开源数据,扒开利维坦的内裤》。本文是关于谷歌的。
Google 把自己描绘成一个有趣的、友好的、游戏化的形象,有效地分散了人们对该公司不断增长的财富、信息和影响力的注意力。
如果您还不知道谷歌是怎么诞生的,在这里看到:《谷歌的真面目 — — They’re always watching》。
本文会将色彩从表层转移到更暗的地方,并调查这项活动的一个特定方面:谷歌与公共机构(特别是欧洲政府机构)之间的旋转门。
这件事很重要,因为欧洲是打破 “高堡奇人” 的唯一希望(您可以在下面的文章中看到解释) —— 本文将展示的信息很可能会对此期望严重不利。
仅仅从可公开获得的在线资源中就可以找到数量惊人的信息 —— 和所有开源调查一样,诀窍通常只是在于你知道该从哪里找。以下是 exposingtheinvisible 的调查演示。
谷歌自己承认,该公司 “与许多其他公司一样”,与政府机构和政府官员建立了密切的关系。
谷歌透露,2015年它在游说欧盟方面花费了超过400万欧元 —— 远远超过了2012年(也就是仅三年前)在游说方面花费的100万欧元。
但是,谷歌与公共机构和政府官员之间的关系更为微妙:在过去十年中,已经确定至少有80人在Google和欧洲政府之间转移了工作。
正是这种“旋转门”构成了这项调查的基础。
首先提出几个问题:哪些人从Google跑到政府去工作,反之亦然?他们确切是从哪里转移的?何时转移的?最重要的是,可以使用公开信息源找到这些问题中的哪些答案?
查询 Google 的旋转门
谷歌的透明度报告项目记录了政府组织与谷歌之间的人员往来,即 所谓的 “旋转门’’,从而跟踪了人员从政府到谷歌的就业过渡,反之亦然。
在2016年6月的报告显示,过去十年来至少有80个人在 Google 和欧洲政府之间转移了工作。
当然,这不仅是欧洲的现象,而且 Google 透明度报告还发布了有关在美国发生的政治旋转门数据。
将 Google 透明度报告发布的数据集用作起点,来扩展收集的证据。再将此数据集与从 LinkedIn 和 Twitter 等网络平台收集的信息、搜索引擎搜索请求、以及从在线新闻站点收集的数据结合在一起。
Transparency International 将 “旋转门” 定义为 “个人在公职和私营部门或志愿部门中以同一职位转移的现象。如果监管不当,可能会遭到滥用”。
这里的滥用主要是指利益冲突。如谷歌透明度报告所述:“谷歌一直是政府、美国企业(和欧洲)社会中透明度和开放性的最积极倡导者之一,但并没有使其自身达到相同的透明度水平。尽管要求别人开放,但该公司对其自身的运营和与政府的往来却非常不透明。从与当选官员和任命官员的关系到政治游说和公共政策运作,美国人(和欧洲人)对 Google 如何从政府那里获得想要的东西知之甚少。”
以上是 Google Transparency Project 为欧洲提供的Google旋转门可视化,可以在此处使用交互式可视化。
在开始查看 Google Transparency Project 的数据集之前,先找到有关 Google 在游说欧盟方面花费的金额的信息。
通过在开放数据门户网站 Lobbyfacts.eu 上搜索,该网站收集来自欧盟透明度注册机构的信息,由此发现,Google 目前在游说上的支出逐年大幅增加。
下图显示了Google报告用于游说的金额(2015年超过400万欧元)。
其中列出了打算影响欧洲立法的组织和个人。根据 Google Transparency Project 的数据集,在9位注册的 Google 游说者中,有7位被识别并包含在该数据集中。
查询数据
第一步是分析和可视化从 Google Transparency Project 和在线媒体来源获得的数据,以评估想查找哪些互补数据、以及在哪里可以找到它们。
从 Google Transparency Project 获得的数据(请参阅此处的数据集)以从 Google 转移到政府职位的人的名字为特征(反之亦然),他们离开或加入了哪个组织、离开和加入的日期、他们的新旧职位,以及相关信息的来源。
根据这个数据集,提出的问题集中在三点上:这些人从哪个国家迁移到Google、这些人是谁、他们什么时候迁移的。
然后的计划是研究其他数据源,以检验认为Google雇用那些离开政府职位的人的假设,因为他们在政府机构中的人脉和影响力。
为了能理解这一点,在网上搜索了有关Google和政府之间转移的人的特殊技能和专业知识、工作角色和社会关系的其他信息。
这项研究主要关注 Google Transparency Project 的欧洲数据集,而不是美国数据集。这是因为到目前为止,与美国相比,欧洲方面的研究较少。
Googlexit:谁将加入Google?
为了了解识别出的个人将离开哪个政府职位,就此创建了一个可视化图,展示了这些人从何处加入Google。
第一个结论是,数据集中显示,离开政府职位加入Google的人比离开Google加入政府工作的人更多。
通过可视化此数据可以看到,有两个主要群体转移到Google职位,分别来自英国和欧盟。还可以看到有少量Google员工被调往政府职位。
离开Google的个人最常为欧洲委员会、欧洲议会以及英国政府机构工作。并且发现很少有同时在Google和欧洲政府机构工作的个人案例,这些案例通常是个人在有限的时间内为政府机构提供有关特定问题的咨询服务。
英国:两党均分
希望更仔细地了解英国,因为它是所有国家/地区加入Google人数最多的国家。这个旋转门究竟是在戴维·卡梅伦的保守党政府期间最常发生?还是在托尼·布莱尔的工党政府期间?还是两者之间没有区别?
通过浏览报纸文章和Google搜索可以发现,David Cameron 与那些和Google有着特定联系的人之间有关系密切。并且还发现,这不仅是保守党的现象,因为托尼·布莱尔也拥有自己的人脉和纽带。
不要错过谷歌搜索的技巧《攻防皆可用:GoogleDorking 高级运算符完整列表》
与数据集中观察到的任何其他英国政府机构相比,英国政府总部唐宁街10号涉入其中的人最多。
以下是保守党和工党这些知名人士与谷歌之间关系的部分例子:
他们是什么时候转移工作的?
现在已经对这些人转移了什么工作和搬到哪里的情况有了更多的了解,进一步想要了解的是他们何时转移的。
通过绘制此图,希望可以发现一段时间内旋转门发生的趋势。
通过数据集可以获得有关人员何时转移并加入各种政府组织和机构以及加入Google的时间信息。由此创建了这些事件的时间表,以绘制政府官员和Google员工的个人就业动向。
有趣的是,2011年有明显的一批人离开了政府开始为Google工作。想知道是什么触发了这一举动吗?
就英国而言,这意味着是在2010年大选之后发生的,当时Google员工被雇用加入总理大卫·卡梅隆的团队,但是在这方面没有看到2014年或2015年有太多举动,那两年也是英国、欧洲议会、法国和比利时的大选之年。
所以与大选有关的结论需要再考虑。
从 Twitter 和 LinkedIn 查找数据
在对 Google Transparency Project 的数据集进行了分析和可视化之后,想更深入地挖掘并找到更多信息,并测试一些假设 —— 认为Google雇用了那些离开政府职位的人,因为他们在政府机构中的人脉关系和影响力。
在两个网络平台上寻找这些信息: Twitter 和 LinkedIn。
现在手边有个人姓名,因此可以手动搜索他们拥有的任何 Twitter 个人资料,还可以仔细查看 Google 透明度项目已经从中获取信息的个人的 LinkedIn 页面。
不要错过方法:
LinkedIn调查
由于 Google Transparency Project 已经从 LinkedIn 上删除了信息,因此需要专注于数据集中未包含的数据,例如名单上的人就读的大学以及他们添加到LinkedIn个人资料中的主要技能和专业知识。
从 LinkedIn 收集信息被证明很困难,因为需要一定数量的同意才能访问该信息。但确实搜集到的 LinkedIn 数据质量相对较好,因为它与欧盟官方 *游说者数据库* 中的记录基本吻合。
通过将注意力集中在英国得以在这一探索上更多的发展,因为 LinkedIn 倾向于在英美语境中有更广泛的使用。此外,在技术公司工作的人往往在 LinkedIn 等平台上有很好的代表性。
在此数据集中确实找到了一些可以通过对报纸文章进行定性研究验证为有政治影响力的人。但是,鉴于他们的职位,他们中的许多人并不像人们期望的那样活跃在网络平台上 —— 本调查发现许多高层员工很难被追查。
连接关系
这里想要绘制的是个人以前曾工作或目前正在工作的组织。希望能提供一些洞察力,了解到那些通过旋转门的人通过以前的工作场所彼此认识,以及那些使用旋转门的人是否在特定的机构或公司中被过分突出。
通过绘制这些数据,可以在可视化结果中清楚地看到英国的统治地位。工党、保守党、唐宁街10号和下议院显然是主要的共享工作场所。
该数据集中包含的 Google 员工工作的两个最常见的地方是在欧洲议会或欧盟委员会。共同工作场所列表中提到的其他公司是 Uber 和 Cisco Systems。
技能特征
在查看 LinkedIn 的个人资料时发现,他们中的许多人都标注了他们认为自己拥有的关键技能和专长,并在个人资料上进行了营销。
鉴于对这些组织之间流动的人员类型的这种详细了解,可以对其进行映射和分析,以观察这些人是否在任何共同技能方面有联系。
并且也有兴趣调查 Google 是否正在积极雇用来自具有特殊技能和专门知识的政府机构的特定类型员工。
通过刮取这些 LinkedIn 个人资料中列出的技能和专业知识,确实发现了一些有趣的见解。
离开Google的人中最常提及的技能被列为 “战略传播”,对于加入Google的人来说,他们被标记的三大主要技能是:公共政策、政治和战略。
据此,对于那些加入Google的人来说,Google有望获得对国际关系、欧盟以及更进一步的国际法和欧洲法律的更具体的了解。
看到这里会感觉很有趣,因为它有助于阐明Google可能有兴趣从欧洲机构招聘的员工类型,并提供了一些关于公司可能希望如何利用这些新员工进行工作的见解。
还查看了 LinkedIn 上目标人标记的求学经历,以查看其中是否有很多重叠之处。通过研究与大学的隶属关系以代替现实世界中的联系 —— 这点与调查 Facebook 时一样,沿用的是 “校友” 规则。
毫无疑问,在这里对的结果并未得出特别有趣的结论 —— 英国牛津大学是数据集中个人覆盖人数最多的大学;美国常春藤盟校的毕业生占员工人数的主导地位,而欧洲大学的出现率不是影响力的有趣指标。
Twitter
本数据集中的个人不仅共享了过去或现在的雇主Google,而且他们对彼此也有潜在的兴趣 —— 可能在社交媒体上互相关注并互动。
Google透明项目的数据集未包含从 Twitter 收集的结果信息。于是本调查想看看是否可以通过收集在线关系的信息来跟踪离线联系。
通过使用数据抓取工具 Littlespoon(该工具的代码在此处,还可以查看该工具的GUI版本),研究通过诸如以下指示项将 Twitter 个人资料彼此连接的不同方式:
谁关注谁
简短的个人资料中包含有趣的信息
提及和回复形式的互动
查看哪些个人资料正在谈论相同的主题并使用相同的标签,这通常感觉就像是某种共同的努力
在比较美国和欧洲的数据集时,能够在欧洲数据集中识别大量的 Twitter 用户名;在公开可用的帐户中,收集了#标签和提及内容,以及本调查的名单上的人员正在关注的人以及关注他们的人。
结果发现,具有真正权力和影响力的人很难通过 Twitter 和 LinkedIn 进行在线跟踪,并且与在 Google 和政府机构中任职比较短暂的成员相比,长期任职的人其在线个人资料的可收集信息被证明是很有限的。
旋转门中所涉及的人物在谈论什么?
首先想要了解的是,该数据集中收集的人物在Twitter上正在谈论什么。
此处收集了 5076 条推文(大约相当于每人被收集了200条推文),并通过输入这些推文及其关联的标签,在可视化软件 Gephy 中可以看到许多关键字之间联系。
关于 Gephy 的演示,见:《想知道老大哥是如何侵犯你的吗?挖掘更深层的内幕 》。
从收集到的数据来看,数据集中的 Twitter 用户似乎正在共享 Google 产品之一 YouTube、跨大西洋贸易和投资合作伙伴关系协定(TTIP)、英国脱欧标签 #StrongerIn 和 Uber 的信息,这是仅举几例最常用的主题标签。
他们听谁的话?
为了了解本数据集在 Twitter 上关注最多的帐户是谁,通过可视化 Gephy 运行了收集的关于谁在关注谁的数据。
排名前三的帐户是 Alphabet 执行主席Eric Schmidt、《经济学人》、和 Google 的 Twitter 帐户。
能够确定该清单上的人最感兴趣的领域包括:该行业的人员和组织帐户(绿色气泡);从事政策工作的个人和机构(红色气泡);欧盟和国际机构(黄色气泡);最后是英国的相关新闻、名人、和机构(蓝色气泡)。
关系网络的焦点是谁?
Alphabet 的执行主席埃里克·施密特(Eric Schmidt)位居榜首,其次是 Demis Hassabis 和乔安娜·希尔兹(Joanna Shields)。
这应该并不奇怪,因为他们是该榜单上最知名的Google员工。
数据集中的某些人要么在 Twitter 和 LinkedIn 上完全没有在线状态,要么选择将自己的个人资料设为私有,这样就无法公开调查他们。
当在线收集数据时,会基于每个人都在线且不会捕获不在网格中的 “其他人’’ 的假设,这就会存在一些偏见。
即使个人资料是公开的,但是您可以抓取的内容仍然非常有限。在这方面, Facebook 无法自动抓取,但是,根据其隐私设置,可以手动调查某些个人。
调查 Facebook 的基本方法和演示如下:
影响力网络
最重要的问题是:Google 对政府的影响力如何在网上关系中体现出来?这些在线联系在多大程度上可以推断出与现实世界的联系。
通过查看社交网站以尝试确定可用于判断离线关系的在线世界中的指标。
采用多种方法来识别连接,而不是采用适合所有技术的单一方法。由于数据集很小,于是限制了分析的范围,这使得采用这些技术更容易管理;但的确发现存在许多限制和约束。
具有真正权力和影响力的人难以通过在线追踪和收集信息,因为他们的在线个人资料比那些短暂任职的Google官员和政府官员更受限制。
为了找到有关这些人的信息,我们发现媒体档案库比在社交网络平台上搜索更有用 —— 查找讨论其技能、兴趣和影响力的媒体提及。
最后
👉这项简短的调查着重于信息收集的方法以及潜在的分析结果。
类似于对 Hacking Team 的调查,主题不是数据集中最重要的元素,而是对它们的部署的分析,然后可以将其复制到许多主题和数据集上。
这项调查的重点是查看可以在网上找到哪些信息,这些信息是否可以扩展或提供与已经获得的数据不同的叙述。
尚未讨论使用 LinkedIn 作为数据源的伦理问题(可以单独分析)。这是一个社交网站,对于那些将其用于预定目的的人来说它应该是私有的,但实际上,包含在其中的所有数据对于所有想要查找的人来说都是公开的。⚪️
With thanks to Ana Pop Stefanija, Benjamin Hervit, Christo, Fieke Jansen, Huda Alsahi, Jelly Luise Schuhmacher, Lorenzo Piazzoli, Matteo Azzi, Michele Invernizzi, Nick Forrester, Prem Borle, Simone Griesser and Valentina Dopona. Thanks to Digital Methods Summer School at the University of Amsterdam for facilitating and hosting the workshop.