华体汇百度百科-百度百科

首页>中国社会科学报>学术资讯>国际

美国自然语言处理包容性不足

2022年09月23日 05:44 来源：《中国社会科学报》2022年9月23日第2498期作者：王悠然/编译

　　本报综合外媒报道 美国斯坦福大学官网近日刊文介绍了该校“以人为本”人工智能研究院研究员贾兹米亚·亨利（Jazmia Henry）创建的非裔美国人白话英语语料库，它有助于提升自然语言处理模型的包容性。

　　非裔美国人白话英语是指非裔美国人讲的英语，其在语法、词汇、口音方面的正式程度低于标准英语；而标准英语指英语国家中最具正式性和权威地位的英语，例如在学校教育、语言评估、官方出版物中所用的英语。在美国，标准英语的使用者日常享受着自然语言处理模型带来的便利，例如语音导航功能、数字助理、语音识别软件。非裔美国人却未必能享受同等待遇，因为现有的大型自然语言处理模型无法理解或生成非裔美国人白话英语中的词汇。更糟糕的是，这些模型的数据经常来源于互联网，而网络上充斥着种族偏误和刻板印象。当带有偏误的模型被用于辅助重要决策时，非裔美国人白话英语使用者可能遭遇社交媒体使用权限受限、购买住房或申请贷款时被拒绝、在司法系统内受到不公平对待等歧视性问题。针对这种风险，亨利创建了一个收录了14.1万余名非裔美国人白话英语词汇的开源语料库，以期帮助科研人员和模型设计人员将非裔美国人白话英语的复杂性和价值融入自然语言处理模型。

　　谈及创建语料库的动机时，亨利说，小时候自己的父母偶尔会说基于英语的牙买加方言和美国东南沿海地区的方言，其他人能够理解也不会歧视，但她能感觉到非裔美国人白话英语被强加了一种耻辱感——如果在非裔社群之外讲这种语言，会被视为智力水平不高。从事数据科学研究后，亨利发现常见的自然语言处理模型非但不能帮助非裔美国人群体，甚至会带来歧视。这些模型通常难以理解或生成非裔美国人白话英语，且包含标准英语中关于非裔的负面联想，因而会加深对非裔的刻板印象。被商业化后，这些模型及其附带的偏误可能导致各类机构作出对非裔美国人不利的决策。

　　亨利最初的想法是将非裔美国人白话英语的数据直接加入自然语言处理模型，但遇到了许多障碍。非裔美国人白话英语的演变速度过快，且词语用法常与标准英语大相径庭。例如，标准英语中“mad”常作为形容词，表示“疯狂的”“愤怒的”；非裔美国人白话英语中“mad”常作为副词，表示“非常”。而且，非裔美国人白话英语中单词的意义在很大程度上取决于情景、讲话人、声调，这些都是自然语言处理模型无法顾及的。

　　最终，亨利决定创建一个非裔美国人白话英语语料库。该语料库根据文本来源分为四个部分。“歌词”部分来自105位非裔美国艺术家的15000首歌；“领导力”部分来自知名非裔美国人的讲话，例如民权运动领袖马丁·路德·金、废奴主义者和妇女权利倡导者索杰纳·特鲁斯（Sojourner Truth）、现任美国最高法院大法官凯坦吉·布朗·杰克逊（Ketanji Brown Jackson）；“图书”部分来自美国高校的非裔图书历史档案，这部分语料的收集难度最大，因为非裔美国人在文学经典中的代表性非常低；“社交媒体”部分来自非裔美国人意见领袖在社交媒体上的视频转录文本、博客文章、推文，这部分语料内容丰富且多元化。

　　亨利谈到，当前常用的一些自然语言处理模型饱含偏误，企业也在想办法减少对这些模型的使用，但随之而来的常常是风险缓释而非偏误缓释。企业有时选择不再触及非裔美国人白话英语或与非裔有关的任何事物，而不是努力寻找解决方案。在亨利看来，为了不再延续对非裔的伤害，现在亟须研发更好的模型、改进流程、探索处理非裔美国人白话英语的新方法。“我希望社会语言学和计算语言学、人类学、计算机科学等各领域学者仔细考察这个新语料库，利用它开展研究，测试它的限度，以使它全面反映非裔美国人白话英语，并提供反馈和算法研发建议。”亨利表示。

　　（王悠然/编译）

责任编辑：常畅

重点推荐