Twitter决定开源算法以提高代码透明度
Twitter 已将选择哪些推文显示在 GitHub 上的代码发布,并发布了一篇博文解释该决定。它分解了算法在确定要在 For You 时间轴中显示哪些推文时所查看的内容以及它如何对它们进行排名和过滤。
根据 Twitter 的博客文章,“推荐管道由三个主要阶段组成。” 首先,它收集“来自不同推荐来源的最佳推文”,然后使用“机器学习模型”对这些推文进行排名。最后,它会过滤掉来自您已屏蔽的人的推文、您已经看过的推文或对工作不安全的推文,然后再将它们放在您的时间线上。
该帖子还进一步解释了该过程的每个步骤。例如,它指出第一步会查看大约 1,500 条推文,目标是让 For You 时间线中大约有 50% 的推文来自您关注的人(称为“网络内”),50% 的推文来自“您不关注的“网络外”帐户。它还表示排名旨在“针对积极参与进行优化(例如,点赞、转推和回复)”,并且最后一步将尝试确保您不会看到来自同一个人的太多推文。
当然,通过研究人员已经在做的代码挑选,可以获得最详细的信息。
CEO 埃隆·马斯克 (Elon Musk) 承诺此举已有一段时间了——2022 年 3 月 24 日,在他拥有该网站之前,他就 Twitter 的算法是否应该开源对他的追随者进行了民意调查,大约 83% 的回复说“是”。2 月,他承诺将在一周内完成,然后将截止日期推迟到本月早些时候的 3 月 31 日。
马斯克在推特上表示,周五发布的是“大部分推荐算法”,并表示其余的将在未来发布。他还表示,希望“独立的第三方应该能够合理准确地确定可能向用户展示的内容。” 在讨论算法发布的 Space中,他说计划是让它成为“互联网上最难玩的系统”,并让它像 Linux 一样健壮,Linux 可能是最著名和最成功的开源项目。“总体目标是最大限度地利用未后悔的用户分钟数,”他补充道。
马斯克一直在让他的听众做好准备,当他们看到算法时会对算法感到失望(当然,这是在假设人们实际上会理解复杂的代码)。他说它“过于复杂且内部未完全理解”,人们会“发现许多愚蠢的事情”,但承诺会在发现问题时加以解决。“提供代码透明度一开始会令人难以置信的尴尬,但它应该会导致推荐质量的快速提高,”他发推文说。
代码透明度(用户将能够看到为他们的时间线选择推文的机制)和代码开源(社区实际上可以提交自己的代码以供考虑并在其他项目中使用该算法)之间存在差异。虽然 Musk表示它将是开源的,但如果 Twitter 想要赢得这个标签,它就必须真正做这项工作。这涉及弄清楚治理系统,以决定批准哪些拉取请求、哪些用户提出的问题值得关注,以及如何阻止不良行为者为了他们自己的目的而试图破坏代码。
该公司确实表示正在为此努力。GitHub 的自述文件说,“我们邀请社区提交 GitHub 问题,并请求提出改进推荐算法的建议。” 然而,它确实继续说 Twitter 仍在构建“管理这些建议并将更改同步到我们内部存储库的工具”。但马斯克的 Twitter 承诺会做很多事情(比如在做出重大决定之前对用户进行民意调查),但它并没有坚持,所以证据将在于它是否真的接受任何社区代码。
提高其建议透明度的决定并非空穴来风。马斯克一直公开批评 Twitter 的前任管理层如何处理适度和推荐,并精心策划了一系列他声称会揭露该平台“压制言论自由”的故事。(大多数情况下,它只是用来展示正常的内容审核是如何工作的。)
但现在他掌权了,他也面临着强烈的反对——从用户对他们的 For You 页面把他的推文当面推到他们的脸感到恼火,到他的保守支持者越来越担心他们的参与度是多么低。他辩称,该网站的新推荐算法正在“最大程度地降低”负面和仇恨内容,无法访问代码的外部分析师对这一说法提出异议。
Twitter 还可能面临来自开源社区的一些竞争。Mastodon 是一个去中心化的社交网络,在某些圈子中越来越受欢迎,Twitter 联合创始人杰克多尔西正在支持另一个名为 Bluesky 的类似项目,该项目建立在开源协议之上。