1号学术|康奈尔大学:过滤气泡!当心推荐算法(下)

2019-02-09 13:21:21 / 打印

作者:Tobias D. Krafft,Michael Gamer,Katharina A. Zweig

来源:高校|康奈尔大学

时间:2018年12月31日

相关链接:

「过滤气泡」是网络针对个性化搜索而提供筛选后结果的推荐算法。目前,减少「过滤气泡」的负面影响已成为社会关注的重点话题。昨日上篇的推送介绍了康奈尔大学对谷歌搜索结果的个性化分析,下篇将研究搜索结果的区域化程度,并结合尼曼新闻实验室的研究结果,列举目前媒体「戳破」过滤气泡的几种方式。

图片来源:Tracy Parish

搜索结果的区域化程度

搜索结果中的自有内容,主要来自各地区分支机构的网站或地方政客的网站。由于自有内容数量庞大,种类繁多,区域化必然导致搜索结果中出现很多非共享链接。

因此,我们再次将各党派的自有内容分为「区域性」和「非区域性」两类。在这里,我们将采用一种相对保守的方法,即通过URL中清楚显示的地点将这些域名以区域划分。

我们将每对数据捐献者的搜索结果列表中的区域性链接排除在外,然后计算非共享链接的平均数量,再与排除之前的值相比较。由于区域性链接被排除在外,因此最终结果更能代表真正的个性化链接数。

如下表所示,虽然在Die Grunen的搜索结果中,数据捐赠者平均有3个非共享链接,但其中只有一个是非区域性的(并且可以是个性化的)。SPD, FDP, CDU, 和Die Linke的搜索结果相似,在排除区域性链接后,非共享链接数量都大约从3个降至2个以下。

图片来源:Tobias D. Krafft

虽然AfD的结果基本没有变化,但这并不奇怪,因为只显示了六个顶级域名,没有本地分支机构网站。有趣的是,CSU也没有什么变化。不过,德国地图通过显示数据捐献者的大致位置帮助我们解决了这一困惑。地图显示,巴伐利亚州的数据捐献者较少,因为那里的学生在我们调查的前四周仍在暑假。由于大多数本地分支机构都位于巴伐利亚州,所以几乎没有任何区域化的搜索结果。

试验结论

由此我们可以得出结论:无论内容如何,几乎所有搜索结果的重复率都很高,因此在本实验结果中,基于算法的独立过滤气泡的创建和增强并不存在。

但值得注意的是,尽管从谷歌搜索结果中接收到国外网站的用户(可能是由于这些用户的不同搜索语言设置)的结果出现某些重叠,但他们的偏常集群可能是过滤气泡存在的迹象。

回答最初提出的问题:这个算法为我们提供的内容是否是片面的呢?

虽然结果列表显示了大量顶级域名,与该问题相矛盾,但这也并不能说明本应显示的其他顶级域名是否显示,或者某些顶级域名是否经常出现的问题。

如何进行比较呢?一种可能的维度是根据所有互联网用户使用顶级域名的流行程度比较,而这是尼尔森小组(Nielsen-Online-Panel)长期以来监测的内容。尼尔森小组基于一个有代表性的用户群体,对他们的互联网行为进行非常详细的监测。每个顶级域名都有一个基于小组测量值的「有效到达」分数,表示在给定时间段内至少访问过该顶级域一次的用户百分比。

这就导致了另一个先有鸡还是先有蛋的问题。毫无疑问,谷歌是德国最著名的搜索引擎,大量的网站访问都是通过谷歌的推荐完成的。也就是说,有一个未知比例的访问量只在谷歌出现,因此「有效到达」并不能独立于谷歌的搜索引擎算法衡量流行度。

另外,本报告中显示的结果也不能应用于德国的所有谷歌用户,因为数据捐赠者不是代表性样本(由他们自己决定是否参与)。有趣的是,使用不同语言的数据捐献者可能会使这样一个论点无效:即高同质性的用户集代表低程度的个性化。尽管来自不同国家的英语用户不可能达到完全同质化,但是下图也显示了他们的搜索结果列表之间显著的相似性。

图片来源:Tobias D. Krafft

在任何情况下,我们的观察结果都仅对本项目中使用的时间段和搜索词有效。我们不能排除个性化程度随时间变化的可能性,但这项研究展示了如何简单、经济、高效、灵活(关于搜索项)和自动地监控个性化程度。这适用于对每个搜索引擎的研究。

但是这一方法不适用于社交网络和社交媒体,如Facebook、Twitter、Instagram或YouTube的研究。目前只能做到在Facebook帐户的新闻提要中过滤并集中收集用户的所有政治内容,Propublica在2017年的联邦选举研究项目中曾尝试过这一方式。

由于没有API能够在Facebook上选择性访问上述内容,因此唯一的选择是向用户申请完全访问权限(这将涉及隐私问题)或要求他们提交政治内容的屏幕截图。后者既困难,也不能自动分析数据,必须手动描述内容以进行搜索和汇总数据。这就需要研发能够调查所有社交媒体和社交网络的必要接口。

「过滤气泡」与政治倾向

马特·格罗斯曼(Matt Grossmann)在为Knight撰写的一份新报告中写道:「几乎没有人完全处在他们消费内容(如福克斯)的过滤气泡中。但是,人们似乎很喜欢坚持认为媒体气泡破坏了民主,并且这已经成为了一种流行的说法。」

格罗斯曼认为,「对媒体的选择已经比过去更多地成为政治自我表达的工具。」他的研究发现,共和党人并不像传言的那样只看福克斯新闻,民主党人也并没有只看雷切尔·玛多(Rachel Maddow,MSNBC时政类节目主持人)主持的节目。

但是,党派人士现在认为媒体消费是一种具有政治倾向的行为,因此他们认为有正常思维的共和党人应该坚持收看福克斯,而有正常思考的民主党人也应该是MSNBC的忠实粉丝。

下图数据显示,现在民主党对媒体的信任比过去20年来更高,而共和党人则恰恰相反。

图片来源:尼尔森数据

格罗斯曼写道:「目前的研究结果并不支持有关党派媒体气泡及其后果的流行看法」,但这也并不意味着我们可以完全停止对过滤气泡的担忧。

他认为,美国特别需要推动地方政治新闻发展,因为「美国现在有一个积极参与政治讨论的超党派美国人群体,他们主要消费各种国家新闻,」而一个更强大的地方媒体可能成为吸引大多数几乎不消费新闻的美国人的有用工具。

戳破过滤气泡,媒体在行动

图片来源:尼曼新闻实验室

新闻页面底部有一波谱,指针所指位置代表着对文章的意识形态倾向和用户阅读时长的总结。如果一位用户阅读某一种倾向的文章太久,指针就会滑向一个极端,而且app也会自动通知用户,推荐他们看看别的观点。

这款应用的创造者尼克·鲁姆表示,「这款app就是给那些觉得自己的阅读内容并不均衡的人使用的。常年选择一个口味,发现了问题,想要换口味的人最适合它。」

但这个只能在iOS系统上使用的应用还有一个明显的弱点:他们的新闻源只有20家,而这个意识形态追踪功能只能在app内使用。但大部分用户看新闻都有专门的app,所以他们的开发者现在也在积极研究浏览器扩展插件,希望在PC端拓展用户。

《卫报》设立了一个名为「戳破你的气泡」的专栏,专门发一些保守派科普的文章,这虽然与报纸自身立场相悖,为了拓宽读者视野,他们表示愿意这样做。

《华尔街日报》则做了一个产品,「红派蓝派」(Red Feed, Blue Feed),把Facebook上关于自由党和保守党的内容并列在一起。

图片来源:TrendHunter

还有谷歌浏览器的「逃离泡沫」插件,可以为用户提供一些内容积极、可接受的文章,尽力弥补裂痕;纽约WNYC电台的节目《不可割裂》(Indivisible)也希望能让受众找到团结一致的立场。

正如文中研究所述,虽然相关实证研究表明过滤气泡确实存在,但其产生更多归因于媒体内容提供方还是用户个人因素却存在争议。当选择信息时,不难理解受众会根据自己的认知地图选择并接触熟悉且对自己有吸引力的内容。

因此,「过滤气泡」是技术、人性、社会结构共同作用的结果。要解决其对受众信息的偏好性引导问题,既需要推动内容多样化和算法运作过程的透明化,也需要媒体保证报道的公正、客观,完善对话机制,从而改善人们在使用算法新闻时的认知局限性。综合作用、多管齐下,才能营造和谐的媒体信息环境。

孙敏 上海外国语大学广播电视学专业在读学生

推荐阅读

2018年Q4娱乐蓝皮书|平台篇:触底!触底!再触底!

1号合辑 | 预见2019系列