AS22 如何发现社交媒体上的机器人账户?- 12种方法
【2019年12月26日存档】这里是识别虚假账户的一些技巧 —— 请注意,每一个指标都不可以作为单独的判断标准。它们应该结合起来考虑。
“机器人”(冒充真实人类的虚假社交媒体帐户)在 Twitter 等平台上占有重要地位。它们的数量有百万计;最大的僵尸机器人网络有几十万虚假账户彼此关联。
这些“机器人”会严重扭曲民主辩论,尤其是当它们集体出动的时候。
它们可用于操纵热门话题或主题标签趋势;它们还可用于放大或攻击特定的消息或文章;并同时用来骚扰其他用户。
同时,相对而言,许多机器人网络很容易被发现,而无需使用专门的软件或商业分析工具。
本文列出了许多线索,这些线索对于揭露虚假帐户来说都很有用。
第一原则
Twitter 机器人只是一个由软件运行的帐户,类似于自动驾驶飞机。由于可以打开和关闭自动驾驶功能,因此,这些虚假帐户在不同时间的行为是不同的,有时可以像自动程序一样,有时也可以像人类用户一样。
因此,以下提示应被视为 *判断给定时间段内机器人行为* 的指示,而不是该帐户是否“是”机器人的非黑即白定义。
并非所有的机器人都是恶意的或政治攻击性的。自动帐户也可以发布例如诗歌、摄影或新闻(新闻媒体经常使用机器人账户推送内容),而不会产生任何扭曲的效果。
因此,我们的重点目标应该是伪装成人类并故意放大政治类信息的机器人。
⚠️在所有情况下,重要的是要注意,不能依靠任何单一因素来识别类似机器人的行为。重要的是多种因素的组合。根据我们的经验,最重要的三个因素可以称为“三个A”:即 activity, anonymity, & amplification。
1、活动
帐户是否自动执行的最明显指标是其活动。
可以通过查看其个人资料页面并用帖子总数除以其活跃天数来计算得出。
要找到确切的创建日期,请将鼠标悬停在“ Joined…”条目上。
可疑活动的基准各不相同。牛津互联网学院的研究人员认为,平均每天发布 50多个帖子是可疑的;这是一个广泛认可的和应用的基准,但可能偏低。
DFRLab 将每天发送72条推文(连续10个小时,每十分钟发送一次)视为可疑,将每天发布144条以上推文视为高度可疑。
例如,账户 @ sunneversets100 于2016年11月14日创建,这是克里姆林宫信息战的放大器。
到2017年8月28日,该账户共创立了288天。在那个时期,它发布了203,197条推文(同样,确切的数字可以通过将鼠标悬停在“ Tweets”条目上找到)。
这意味着每天平均有705个帖子,或者说每天平均连续9个小时在线每分钟1个帖子,持续9个月。这不是人类的行为模式。
但是,仅仅发帖数量大并不是判断标准,在热门事件(尤其是选举期间)发帖量大的真实人类账户有很多。
2、匿名性
第二个指标是帐户显示的匿名程度。通常,提供的个人信息越少、成为机器人的可能性就越大。
例如,@ Sunneversets100 将佛罗伦萨大教堂的照片作为头像,曲线图作为背景,以及匿名的ID和账户名。
唯一的特点是简介里贴的位于美国的政治行动委员会的链接;这远远不足以提供身份证明。
另一个示例是 @BlackManTrump,这是另一个活跃帐户,该帐户在2016年8月28日至2016年12月19日之间发布了89,944条推文(请参阅此处的存档),平均每天发789条帖子。
此帐户完全不提供任何个人信息。简介只是一般性的政治声明,位置标注“美国”。因此没有迹象表明背后隐藏着什么人。
⚠️请注意:我们始终会强烈建议您不要在社交媒体上采用任何真实身份信息,不要在简介、头像、帖子中留下任何真实身份信息。这是为了安全。这样做并不会令您被误会为机器人,请一直记得,任何单一指标都不构成判断条件。
3、放大效果
这也许是最重要的指标。因为机器人的主要作用之一是通过转发、点赞或引用其他用户的帖子来增强它们想要传达的信息。
因此,典型机器人的时间轴将包括一系列的转发和新闻标题的完整引用,很少或没有原创帖子。
判断这点的最有效方法是对大量帖子进行机器扫描。但通过点击帐户的“推文和回复”栏并向下滚动最新的200条帖子,就可以进行更简单的识别。
数字200在很大程度上是任意的,旨在提供合理且易于管理的大样本;拥有更多时间的研究人员完全可以查看更多内容。
例如,截至8月28日,机器人 @Sunneversets100 的最后200条推文中有195条是转推,其中许多都是来自克里姆林宫官方媒体的网点:
@BlackManTrump 直到11月14日的大部分帖子都显示出更高的复杂程度,不再有“RT @ ”这类非人的东西出现 。
因此,@ BlackManTrump和 @Sunneversets 都显示出清晰的类似机器人的行为,结合了很高的活动性、匿名性和针对性放大的迹象。
需要说明的是,@ BlackManTrump 从2016年11月14日至12月13日一直保持沉默;当它恢复发布时,它的发布率要低得多,而且,显然是创作型的推文所占比例升高。
因此,可以说直到11月中旬,它的行为都像一个机器人,但并不是说现在依旧是那个机器人,虽然是同一个账户。
另一种放大技术是对机器人进行编程,使其直接从选定站点共享新闻报道,而无需任何进一步的评论。
当然,直接分享是 Twitter 流量的标准组成部分(例如,欢迎读者分享这篇文章,而不是直接怀疑)。分享本身并不可疑,但是连续发布一长串分享就不同了,比如这样:
4、少量帖子,集中行动
以上讲述的机器人特点是通过单个帐户发布大量内容来实现放大立场的效果。但还有一种是相反的,即 创建大量帐户,每个帐户一次转发一个相同的帖子:即 僵尸网络。
如果用于发布单个帖子的僵尸网络通常处于非活动状态,则可以快速识别它们。
例如,在8月24日,一个名为 @KirstenKellog_ 的账户(现已暂停,但已在此处存档)发布了一条推文,攻击美国调查性新闻组织 ProPublica(propublica.com)。
如上图所示,这是一个活动非常少的帐户。它只发布了12次;其中11个帖子已被删除。它有76个关注者,并且根本没有关注任何帐户。
毫无疑问,它的帖子被转推了,并且被点赞超过23,000次:
同样,第二天,另一个显然是俄罗斯人的帐户发动了几乎相同的攻击,并获得了超过12,000次转发和点赞:
这个帐户也一样是长期闲置的,最早在8月25日发布了6条推文,关注了另外5个帐户:
即使使用#FakeNews(假新闻)和#HateGroup(仇恨团体)这样的标签,两个这样的闲置帐户也能够产生如此多的转推,这超出了合理的范围。
它们的活动和影响之间的这种差异表明,用于放大它们帐户的周边影响力属于一个僵尸网络。
5、共同的内容
帐户是否属于同一个网络的可能性可以通过查看其帖子来确定。如果这些账户同时发布相同的内容或相同类型的内容,则可以怀疑已对其进行了编程。
例如,在可疑的僵尸网络放大了@KirstenKellog_的情况下,许多帐户共享了相同的帖子,这样:
有时,机器人会以相同的顺序共享所有帖子。以下三个帐户属于7月份确定的同一反特朗普网络的一部分:
8月28日,三个帐户再次以相同的顺序共享相同的内容; @ProletStrivings 在该组合中添加了一条转发:
这样一系列相同的帖子是自动化的经典标志。
6、鸟蛋集中营
最原始的机器人特别容易识别,因为其创建者连头像都不想费心。你经常能看到一大群顶着鸟蛋头像的账户集体出没。
但是,必须说,有一些真人账户出于各种原因不愿使用头像 — 包括隐私关注的动机,所以,仅仅使用鸟蛋头像并非是机器人的判断标准。
但是,如果一个帖子的转发或点赞的帐户列表看起来像下面这样……
… 或者,某个帐户的“关注者”页面开始看起来像下面这样:
… 一定程度上这就是机器人活动的标志。
7、被盗用的或来自公共资源的照片
其他机器人制造商则更加谨慎,并试图通过从其他来源获取的照片以掩饰其匿名性。
因此,对帐户真实性的一个很好的测试是反向搜索其头像。我们演示过这一调查方法的操作 ,您可以在这里回顾《网络水军如何试图影响选举? 一个调查案例,观察对选民的在线心理战》。
再一次,快速反向图片搜索的能力是各种调查的基本功。您可以在这里对比各种搜图工具的特点,以基于您每次不同的调查目标帮助找到最合适的选项《搜图功能哪家强?图像验证方法的能力对比》。
无论您使用上面哪种方法,搜索都会显示带有头像的页面,表明该帐户是否可能盗用了头像:
对于“ Shelly Wilson”,同一网络中的许多帐户实际都使用了该头像,足够确认它们是伪造的:
8、机器人的名字?
另一个判断指标是机器人使用的ID(就是带@的那个名字)。
很多机器人带有仅由算法生成的数字字母组合的ID,就像下面这样:
其他人的账户似乎提供了用户名,但是ID与用户名不匹配,就像下面这样:
还有一些通常具有男性化名字但具有女性头像的账户(在机器人中,这种情况似乎比具有男性形象的女性ID更常见,也许是为吸引男性用户而设计的?)
再或者,男性的ID和女性的用户名搭配,就像这样:
再或者,也可能是完全不同的东西:
所有这些都可能表明该帐户是伪造的,冒充了某人(通常是漂亮的年轻女子)来吸引观众。
再一次:仅仅如此依旧不是绝对的指标。使用女朋友的照片做头像并不意味着您有机器人嫌疑 — — 所有这些指标都需要综合起来考虑。
⚠️识别造假的类型、以及它是否是机器人,将取决于其具体行为。
9、异常的多语种推文
有些机器人具有政治性,并且只从一种角度发布。
然而,其他的机器人则是商业性的,并且无论其内容如何,似乎只被出价最高的人雇佣。它们的大多数帖子都是非政治性的。但是它们也可以用来促进政治性的推文。
这种僵尸网络通常以语言使用的极端多样性为标志。
例如,“爱耶稣的女人”埃里克·杨(Erik Young)发布的内容中,显示了阿拉伯语、英语、西班牙语和法语的组合性内容:
西班牙语…
阿拉伯语…
斯瓦希里语(根据Google翻译)…
印尼语…
中文…
语…
并非是说擅长多语种的人“可疑”,再一次,依旧需要综合考虑各种指标:尤其是其行为。
10、商业内容
宣传性的确是僵尸网络的经典指标。
如上所述,某些僵尸网络似乎主要是出于商业性而存在的,只是偶尔涉足政治领域。而它们对广告的关注热情往往会出卖它们。
一个很好的例子是机器人的奇怪网络,这些机器人从通常用于赌博的帐户 @ every1bets 转推了一个政治性的帖子。
如下面的列表所示,转推者具有各种身份:
但是他们都倾向于发布高比例的广告内容。
以如此方式转发的帐户,尤其是,如果它们以多种语言显示时,很可能是商业僵尸网络的成员,被雇用给想要放大或发布其帖子的客户 。
11、自动化软件
潜在自动化的另一个线索是使用URL缩短器。
这些主要用于跟踪特定链接上的流量,但是,使用它们的频率可以指示自动化的程度。
例如,一个最近公开的假账户“ Angee Dixson”使用了德国超模 Lorena Rae 的照片,分享了许多右翼政治帖子。每个帖子都标有缩短网址 ift.tt:
请注意:开源情报社区中很多人也使用缩短链接工具,主要是为了节省字数空间 —— 再一次,仅仅使用缩短链接也不是决定性因素。
这是由一家名为 ifttt.com 的公司生产的一种软件,它使用户可以根据多种条件来自动执行其帖子 — 例如,转发带有给定标签的任何帖子。
因此,充满了 ift.tt 缩短链接的时间线很可能是机器人执行的。
如果其他短链接在整个时间线中重复出现,这种情况也可以显示为机器人。
有些机器人会在网站上发布一长串 ow.ly,这也表明可能是自动化的。Twitter 自己的 TweetDeck 工具允许用户嵌入各种短链,例如 bit.ly 或 tinyurl.com。
顺便说 TweetDeck 是优秀的开源情报调查工具,您可以在这里看到它在调查方面的技巧介绍《从推特中挖掘真相不需要太复杂的工具:一个常用工具的全面指南》。
再次强调,使用缩短链接是很多人的在线生活习惯之一,于是不可以仅仅根据短链接的使用判断是否为机器人。
12、转推和点赞
可以通过比较特定帖子的转发和点赞来收集僵尸网络正在运行的最终指示。
有些机器人被编程为同时转发和点赞相同的推文。在这种情况下,转发和点赞的次数将几乎相同,并且执行转发和点赞的帐户系列也可能完全匹配,就如下面这样:
在此示例中,转发和点赞的次数几乎相同 — 差异小于0.1%。
完全相同的帐户列表以相同的顺序和时间转发并点赞该推文。
在13,000个用户样本中,这不太可能是巧合。它表明存在一个协调行动的网络,所有这些网络都经过编程以点赞和转发相同的内容。
结论
机器人是Twitter生活中不可分割的一部分。许多机器人是完全合法的。那些不合法的往往具有共同的关键特征。
如上所述,最常见的指标是活动模式、匿名性和针对性放大效果,即机器人识别指标的“三个A”。但也存在其他标准。
比如使用被盗的图像、字母数字组合的不规则ID和不匹配的用户名可能会显示账户的伪造;大量的商业帖子或异常多语种的帖子也是如此。
然而,最重要的是意识。
能够识别机器人的用户不太可能被机器人所操纵;他们甚至可以举报僵尸网络并关闭它们。本文的目的就是帮助更多人识别鉴定机器人。希望对您有所帮助。⚪️
顺便介绍一个很酷的网站,自动检测僵尸机器人:https://botsentinel.com/