在追踪网络水军、虚假信息政治宣传、欺诈骗钱等很多调查案例中,您都会遇到网站作为线索;即便您不理解技术,也可以使用最简单的方法挖掘到一些证据,最重要的是,您需要知道该注意哪里。
欢迎回来!
如果您错过了前面的内容,可以在这里回顾:
网站经常被那些从事媒体操纵的人用来赚取收入、收集电子邮件和其他个人信息、或以其他方式建立一个网上滩头。公民调查必须了解如何调查一个网站的存在,并在可能的情况下,将其与可能涉及社交媒体账户、应用程序、公司或其他实体的更大行动联系起来。
请记住,文本、图像或整个网站本身可能会随着时间的推移而消失 — — 特别是在您开始与人们联系并提出问题之后。一个最简单的做法就是使用 Wayback Machine 来保存目标网站上的重要页面,作为工作流程的一部分。
如果一个页面在那里不能正常保存,可以使用诸如 archive.today 这样的工具。这可以确保您可以链接到存档的网页,作为您发现的证据,并避免直接链接到一个传播错误/虚假信息的网站。
关于如何存档证据,不要错过《留下证据:如何存档开源材料?》
Hunchly是一个很好的工具,可以在您工作时自动创建您自己的个人网页档案,具体做法见这里的介绍《如何制作自己的互联网存档》。
关于存档的使用方法,这里有一个详细的指南《如何快速找到你想要的东西:追踪数字证据的小技巧》。
这些存档工具对于调查一个网站随着时间的推移是什么样子,也是必不可少的。还建议您安装 Wayback Machine 浏览器扩展,这样就可以很容易地对网页进行存档并查看早期版本。
另一个有用的浏览器扩展是 Ghostery,它将向您显示网页上存在的跟踪器。这可以帮助您快速识别一个网站是否使用谷歌 Analytics 和/或谷歌 AdSense ID,这将有助于使用下面概述的技术之一。
本集内容将研究调查网站时要关注的四个类别:内容、代码、分析、注册和关联元素。
内容
大多数网站至少会告诉您一些关于他们是什么的简介。无论是在专门的 “关于” 页面,还是在页脚或其他地方的描述,这都是一个好的开始。同时,缺乏明确的信息可能暗示该网站是匆忙创建的,或试图隐瞒有关其所有权和目的的细节。
隐瞒所有权有很多原因,比如敏感人士发起行动动员的网站,其中不应该被找到所有权和身份的详细信息,以避免被政府当局加害。在 “关于” 页面找不到详细介绍并不是 “可疑” 的确定性标准,您应该结合更多线索以进行分析。
除了阅读任何基本的 “关于” 文本外,还要对网站的内容进行彻底审查,以确定谁在经营它,其目的是什么,以及它是否是一个更大的网络或倡议的一部分。
需要寻找的一些东西:
它是否在关于它的页面上标识了所有者或任何企业实体?也要注意它是否没有 “关于” 页面。
它是否在主页或任何其他页面的最底部的版权声明中列出了公司或个人?
它是否在隐私政策或条款和条件中列出任何姓名、地址或公司实体?这些名字或公司是否与页脚、关于页面或网站其他地方列出的不同?
如果该网站发表文章,注意署名以及它们是否是可点击的链接。如果是的话,看看它们是否指向有更多信息的作者页面,如个人简历或作者的社交媒体账户链接。
该网站是否有相关的社交媒体账户?这些可能是在主页的顶部、底部或侧面的小图标形式,或者是邀请您点赞其 Facebook 页面的嵌入。如果页面上有 Facebook 和 Twitter 等平台的图标,将鼠标悬停在这些图标上,在浏览器窗口的左下方查看它们所指向的URL。通常情况下,一个匆忙创建的网站不会费心在网站的模板中填写具体的社交媒体资料ID。在这种情况下,您只会看到链接显示为 facebook.com/,没有用户名。
该网站是否列出了任何产品、客户、推荐或其他可能有联系并值得研究的人或公司?
一定要在主页之外挖掘。点击所有的主菜单,向下滚动到页脚,找到值得访问的其他页面。
检查内容的一个重要部分是看它是否是原创。该网站的 “关于” 页面或其他一般文本是否是从其他地方复制的?该网站是否传播虚假信息或误导性信息,或帮助推动特定的议程?
2018年有一个大型的数字广告欺诈项目,该项目涉及移动应用程序和内容网站,以及空壳公司、假雇员和假公司。调查人员最终发现有超过35个网站与该计划有关。识别许多网站的最简单方法之一是复制一个网站的关于页面上的文字,并将其粘贴到谷歌搜索框中,就会立即发现大约有20个网站的文字完全相同。它们是一个宣传网络。
欺诈者还为他们的幌子公司创建了网站,以帮助他们在广告网络的潜在合作伙伴来访进行尽职调查时显得合法。一个例子是一家名为 Atoses 的公司。它的主页上列出了几个员工的头像。使用 Yandex 的反向图像搜索(最好的人脸图像搜索)很快就能发现,其中有几个是盗取的图像:
Atoses 在其网站的页脚也有这样的文字:“我们精心打造精美实用、相互联系的生态系统,使企业成长,并在网络媒体和用户之间建立持久的关系”。
这段文字也出现在至少两家营销机构的网站上。
如果一家公司在其网站上使用的员工照片是来自互联网图片库的和搭配了抄袭的文字,您就知道它不是它所声称的那样。
从网站上的文章中复制和粘贴文字,并将其输入谷歌或其他搜索引擎,也是一个好主意。有时,一个声称是新闻来源的网站只是在剽窃其他真实的渠道。
另一个基本步骤是取一个网站的URL并在谷歌中搜索。例如,“forbesbusinessinsider.com” 。这将使您可以了解该网站有多少页面被索引,也可能会出现其他人报道或谈论该网站的例子。您也可以通过加载谷歌新闻的主页并在搜索框中输入 “forbesbusinessinsider.com” 来检查该网站是否被列入了谷歌新闻中。
另一个提示是将网站的URL粘贴到 Twitter.com 或 Facebook.com 的搜索栏中。这将显示出人们是否正在链接到该网站。
一旦您挖掘了一个网站的内容,就该了解它是如何传播的。这方面有两个工具可用:BuzzSumo 和 CrowdTangle。
2016年,一项研究从海外经营的美国政治新闻网站的调查将目标锁定在北马其顿的 Veles 镇上的网站。调查者利用域名注册的细节(下文会有更多介绍),确定了100多个从该镇运行的美国政治网站。为了了解他们的内容有多受欢迎,以及他们发表的是什么样的报道,取几个看起来最活跃的网站的网址,并在 BuzzSumo 中对其进行搜索。BuzzSumo 是一种工具,可以根据网站在Facebook、Twitter、Pinterest和Reddit上的参与程度来显示网站的内容列表。它有一个免费版本,不过付费产品提供的结果要多得多)。
可以立即看到,这些网站在 Facebook 上参与度最高的文章是完全错误的。下图显示了 BuzzSumo 的基本搜索结果屏幕,其中列出了特定网站的Facebook、Twitter、Pinterest 和 Reddit 的参与度,以及2016年的一些虚假报道样本:
确定一个网站的内容如何在 Facebook、Twitter、Instagram 和 Reddit 上传播的另一个方法是安装免费的 CrowdTangle 浏览器扩展,或使用其基于网络的链接搜索工具。两者都提供相同的功能。这些工具是免费的,但您需要一个Facebook账户才能使用。
BuzzSumo 和 CrowdTangle 的关键区别在于,您可以在 BuzzSumo 中输入一个网站的URL,它将自动调出该网站上参与度最高的内容。CrowdTangle 是用来检查一个网站的特定URL的。因此,如果您输入 buzzfeednews.com,在 CrowdTangle 中,它将只显示该主页的参与度统计,而 BuzzSumo 将扫描整个域名的顶级内容。另一个区别是,CrowdTangle 的链接搜索工具和扩展将只显示过去七天的Twitter参与情况。BuzzSumo 提供的是网站上文章在Twitter上的所有分享次数。
作为一个例子,在 CrowdTangle 链接搜索中输入一个关于多伦多沸水警告的虚假旧报道的URL。该网站后来删除了这篇报道。CrowdTangle 显示,这个网址自发布以来在Facebook上收到了超过20,000条互动、评论和分享。它还显示了一些分享该链接的网页和公共团体,并提供了查看 Instagram、Reddit和Twitter类似数据的选项。请记住:Twitter 选项将只显示过去七天的推文。
在这里,看到的一小部分页面和群组名单并没有真正反映出 Facebook 的总互动数量。这至少有一部分原因是,在最初发布链接时,一些传播链接的关键页面后来被 Facebook 删除了。这是一个有用的提醒,CrowdTangle 只显示来自活跃账户的数据,它不会向您展示分享某个特定URL的每个公共账户。这是一个选择,但仍然非常有用,因为它经常可以揭示特定社交媒体账户和网站之间的明确联系。
如果同一个 Facebook 页面一直 —— 或专门 —— 分享一个网站的内容,这可能表明它们是由同一个人经营的。现在您可以挖掘页面,将信息与网站进行比较,并有可能确定参与的人和他们的动机。
CrowdTangle 中列出的一些 Facebook 链接分享结果也可能是人们在 Facebook 群组中分享的文章。注意分享链接的账户,看看他们是否传播过该网站的其他内容。同样,这可能是一种联系。
注册
网络上的每个域名都是一个中央数据库的一部分,该数据库存储了有关其创建和历史的基本信息。在某些情况下您可能会很幸运地找到有关支付注册域名的个人或实体的信息。可以通过whois搜索来调出这些信息,许多免费的工具都提供这种搜索。还有一些很好用的免费和低价的工具,可以带来额外的信息,如谁在一段时间内拥有一个域名、它被托管的服务器、以及其他有用的细节。
有一点需要注意的是,当您注册一个域名时,为保护您的个人信息而付费是相对便宜的。如果您对一个域名进行whois搜索,结果列出了诸如 “注册隐私”、“WhoisGuard保护” 或 “Perfect Privacy LLC ” 的注册人,这意味着它受到了隐私保护。即使在这些情况下,Whois搜索仍然会告诉您该域名最近的注册日期、何时到期以及该网站所在的互联网IP地址。
DomainBigData 是调查域名及其历史的最佳免费工具之一。您还可以输入电子邮件或个人或公司的名称,通过这些数据而不是URL进行搜索。
您可能想收藏的其他负担得起的服务是 DNSlytics、Security Trails 和 Whoisology。一个很好的但更贵的选择是 DomainTools 的Iris调查产品。
例如,如果在 DomainBigData 中输入 dentondaily.com,可以看到它已被隐私保护。幸运的是,仍然可以看到,它注册于2019年8月。
另一个例子,在 DomainBigData 搜索 newsweek.com。立即看到所有者并没有为隐私保护付费。这里有一个公司的名字,一个电子邮件地址,电话和传真号码。
还可以看到,这个实体自1994年5月以来一直拥有这个域名,而且该网站目前的主机是52.201.10.13这个IP地址。接下来要注意的是,该公司的名称、电子邮件和IP地址都是链接,这意味着它们可以将您引向属于 Newsweek LLC 的其他域名,domains@ibtimes.com,以及托管在同一IP地址的其他网站。这些联系在调查中是非常重要的,所以查看同一人或实体拥有的其他域名总是可能有效。
至于IP地址,要注意完全没有联系的网站可能被托管在同一台服务器上。这通常是因为人们使用同一家托管公司来托管他们的网站。一个一般的规则是,在同一服务器上托管的网站越少,它们就越有可能相关。但这并不确定。
如果您看到一个服务器上有数百个网站托管,它们之间可能没有所有权连接。但是,如果您看到只有九个,例如,您感兴趣的那个网站有私人注册信息,就值得对其他八个域名进行whois搜索,看看它们是否可能有一个共同的所有者,以及这个人是否可能也拥有您正在调查的网站。人们可能为一些网络域名支付隐私保护费,但却忽略了对其他域名的保护。
使用IP、内容和/或注册信息是识别网络和其背后行为者的最基本方法。
下面来看看另一种利用网页代码调查网站的方法。
源代码和分析
首先是查看网页的源代码,然后在其中搜索,看是否能找到谷歌 Analytics 和/或谷歌AdSense代码。这些都是来自谷歌的大受欢迎的产品,使网站所有者能够跟踪网站的统计数据或通过广告赚钱。一旦集成到一个网站,每个网页都会有一个独特的ID,与网站所有者的 Analytics 或 AdSense 账户相连。如果有人经营多个网站,他们往往使用同一个 Analytics 或 AdSense 账户来管理这些网站。这就为调查人员提供了机会,通过在源代码中找到相同的ID,就可以将看似独立的网站连接起来。幸运的是,这很容易做到。
首先,进入您的目标网站,使用 dentondaily.com。在Mac版Chrome浏览器中,选择 “查看” 菜单,然后选择 “开发人员” 和 “查看源代码”。这将打开一个包含网页源代码的新标签。在PC版的Chrome浏览器中,按ctrl-U键。
所有谷歌Analytics的ID都以 “ua-” 开头,然后有一串数字。AdSense ID 有 “pub-” 和一串数字。您可以通过在页面上进行 “查找” 在源代码中找到它。在Mac上是 command-F;在PC上是 ctrl-F。这就会出现一个小的搜索框。输入 “ua-” 或 “pub-”,然后您会看到页面中的任何ID。
如果您找到一个ID,复制它并将其粘贴到 SpyOnWeb、DNSlytics、NerdyData 或 AnalyzeID 等服务的搜索框中。请注意,您可能经常从每个服务中收到不同的结果,所以测试一个ID并比较结果很重要。在下面的图片中可以看到 SpyOnWeb 发现了三个具有相同 AdSense ID 的域名,但 DNSlytics 和 AnalyzeID 又发现了其他几个域名。
有时一个网站在过去有一个ID,但现在已经不存在了。这就是为什么必须在任何其他据称有这些ID的网站上使用同样的查看源代码方法,以确认它们的存在。请注意,AdSense 和 Analytics 的ID仍然存在于 Wayback Machine 中一个网站的存档版本中。因此,如果您在一个现存的网站上没有找到ID,一定要检查 Wayback Machine。
所有这些服务都可以免费提供一些结果,但通常需要付费才能得到完整的结果,特别是如果您要追踪的ID在很多其他网站上都存在的话。
关于检查源代码的最后说明。即使您不懂HTML、JavaScript、PHP或其他常见的网络编程语言,也值得扫描整个页面。例如,如果人们重复使用相同的设计模板,有时会忘记改变页面或网站的标题。这个简单的错误可以提供一个连接点。
比如调查 Atoses这样的幌子公司的广告欺诈计划,其中牵涉到一家名为 FLY Apps 的公司。查看该公司网站单页的源代码,其中包含了纯文本的 “Loocrum” 一词(如下):
在谷歌上搜索这个词,发现一家名为 Loocrum 的公司,其网站设计与 FLY Apps 完全相同,并且有一些相同的内容。通过whois搜索发现,用于注册 loocrum.com 的电子邮件地址也被用来注册相关调查中发现的其他空壳公司。FLY Apps 和 Loocrum 之间的这种联系提供了重要的补充证据,证明经营 FLY Apps 的四个人与整个欺诈计划有关。而且,只需简单地滚动一下源代码,寻找看起来不合适的纯文本单词,就可以发现这一点。
结论
即使有了上述所有的方法和工具,您仍然有可能陷入死胡同,尤其是在面对高明的对手时。但是,往往有另一种方法可以在一个网站上找到联系或进一步调查的途径。点击每一个链接,研究内容,阅读源代码,看看谁在网站上签名,看看谁在分享它,并检查您能想到的其他任何东西,以揭示真正发生的事。⚪️
—— 未完待续 ——