性别和种族刻板印象的语言变化与主要的社会运动和人口变化相关
人工智能系统和机器学习算法最近受到了抨击,因为他们可以根据他们编程的数据来挑选和加强我们社会中现有的偏见。
但是斯坦福大学的一个跨学科小组在4月3日发表的新的“美国国家科学院院刊”上发表了这一问题。
研究人员使用词嵌入 - 一种能够映射词语之间关系和关联的算法技术 - 来衡量美国过去一个世纪的性别和种族刻板印象的变化。他们分析了美国书籍,报纸和其他文本的大型数据库,并研究了这些语言变化如何与实际的美国人口普查人口统计数据和主要的社会变化相关联,例如20世纪60年代的女性运动和亚洲移民的增加。
“Word嵌入可用作显微镜来研究我们社会中刻板印象的历史变化,”生物医学数据科学助理教授James Zou说。“我们之前的研究表明,嵌入有效地捕获了现有的刻板印象,并且可以系统地去除这些偏见。但我们认为,我们也可以使用嵌入作为偏见的定量,语言和社会学分析的历史镜头,而不是去除那些刻板印象。 “。
Zou与历史学家Londa Schiebinger,语言学和计算机科学教授Dan Jurafsky以及电子工程研究生Nikhil Garg共同撰写了该论文,他是第一作者。
“这种类型的研究为我们打开了各种各样的大门,”Schiebinger说。“它提供了一个新的证据水平,使人文学者能够以前所未有的规模追踪关于刻板印象和偏见的演变的问题。”
单词的几何形状
单词嵌入是在文本集合上使用或训练的算法。然后,算法为每个单词分配几何向量,将每个单词表示为空间中的一个点。该技术使用此空间中的位置来捕获源文本中的单词之间的关联。
“嵌入是一种强大的语言工具,用于衡量词义的微妙方面,例如偏见,”Jurafsky说。
接受“光荣”这个词。使用嵌入工具,之前的研究发现,形容词与“男人”这个词的关系比“女人”更接近。
在其新的研究中,斯坦福大学的团队使用嵌入来识别从1900年到现在十年间偏向于女性和特定种族群体的特定职业和形容词。研究人员对报纸数据库中的这些嵌入进行了培训,并使用了以前由斯坦福大学计算机科学研究生Will Hamilton培训的其他大型文本数据集,例如美国图书的Google Books语料库,其中包含了20世纪20年代和21日发表的1300多亿字。几个世纪。
研究人员将这些嵌入发现的偏差与1900年至今的美国人口普查数据中的人口变化进行了比较。
改变陈规定型观念
研究结果显示,在20世纪,人们对亚洲人和其他种族群体的性别描写和偏见发生了可量化的变化。
出现的一个重要发现是,随着时间的推移,对女性的偏见在某种程度上变得更好。
例如,诸如“聪明”,“逻辑”和“体贴”等形容词在20世纪上半叶与男性更多地联系在一起。但是自20世纪60年代以来,随着时间的推移,这些词语越来越多地与随后十年的女性联系在一起,这与20世纪60年代的女性运动有关,尽管差距仍然存在。
该研究还表明,对亚洲人和亚裔美国人的刻板印象发生了巨大变化。
例如,在20世纪10年代,像“野蛮”,“怪异”和“残忍”这样的词是与亚洲姓氏最相关的形容词。到了20世纪90年代,这些形容词被“抑制”,“被动”和“敏感”等词语所取代。研究人员表示,这种语言变化与20世纪60年代和80年代亚洲移民对美国的急剧增加以及文化刻板印象的变化有关。
“刻板印象变化的严峻性对我来说很突出,”加格说。“当你研究历史时,你会了解宣传活动和外国群体的这些过时观点。但当时的文学作品反映了这些刻板印象的难以理解的程度。”
总体而言,研究人员证明,嵌入一词的变化与美国人口普查测量的人口变化密切相关。
卓有成效的合作
研究人员说,这项新研究阐明了人文科学与科学之间跨学科团队合作的价值。
Schiebinger说,在她阅读了之前关于减少机器学习算法的工作之后,她向2016年加入斯坦福的Zou伸出了援手。
“这导致了一次非常有趣和富有成效的合作,”Schiebinger说,并补充说该小组的成员正在一起进行进一步的研究。
“它强调了人文主义者和计算机科学家一起工作的重要性。人文科学研究中这些新的机器学习方法有能力被人们理解,”她说。