《思与行》杂志 “是时候重新思考人工智能了”
利用人工智能平衡数据改进DEI（多样性、平等与包容性）

2024年5月15日

以推动人工智能数据集去更公平地代表边缘化群体

播放音频

采访

作者：布朗（Grace Browne）
排版设计：古斯（Carsten Gueth）

我们今天向人工智能提供的数据集可能会塑造其未来几十年的价值观走向。一直以来，这个行业都认为，当数据集足够庞大的时候，就可以通过数据的量来实现价值观的多样性。然而，研究人员和倡导者很快发现并证实，实际情况并不尽如人意。现在的问题在于，一个充斥着成见的社会该如何努力，从而让技术习得“中立”的新定义。

观点速递：

偏见愈演愈烈：

若不加以纠正，算法中的偏见可能会进一步加强系统层面上的种族主义或性别歧视。

源于高层圈：

系统性偏见源自科技行业的上层人士，因为他们主要是白种人与男性。

建立意识：

人工智能的问题已然不是未来的反乌托邦议题，而是已经在系统中造成既定的危害。

葛布鲁（Timnit Gebru）在2018年成为人工智能伦理的领军者。彼时，人工智能伦理刚刚崭露头角，它让人们意识到，人工智能不仅仅是存于云端的杂乱算法，也会是一个具有偏见的、会导致出人意料后果的系统。当时，出生于埃塞俄比亚的葛布鲁发表了一篇重量级的论文：由于训练数据的代表性欠缺，面部分析技术在有色女性中的错误率较高。

同年，她被谷歌挖走，成为其人工智能伦理团队的联合负责人。然而，她的任期并不顺利，在2020年12月就被谷歌开除了，尽管谷歌坚称她是自愿辞职。导火索是谷歌要求她撤销她发表的一篇关于人工智能模型偏见的论文。她在这篇论文中呼吁技术公司须所有行动，因为如果它们持续使用现有的历史数据，会加深语言模型对少数族裔的偏见。此外，她一封呼吁关注谷歌雇用少数族裔员工做法的邮件，也引起一些风波。当然，她的离职也并不平静：超过1500名谷歌员工联名签署了一封支持葛布鲁的公开信。

科技界的开拓者：数学家杰克逊（Mary Jackson）克服了种族隔离和性别偏见，在1980年成为美国国家航空航天局兰利研究中心的首位黑人女工程师。

机会平等：1973年，美国国家航空航天局联邦妇女计划咨询委员会起草了一份自我评估与歧视调查问卷，分发给女性雇员。

投喂机器智能指令：在1955年的英国，21岁的计算机操作员向一台名为 “大脑”的计算机输送指令。

电影《隐藏人物》：1935年至1942年期间，当许多男性加入二战战场之时，数十名女性作为“人肉计算机”为美国国家航空航天局（NASA）的前身NACA从事数学和科学计算工作。

29%：2019年的一项研究中发现，在识别与帮助具有复杂健康需求的患者时，算法偏见仍然存在，如果这样的偏见可以被纠正，那么将有更多的美国黑人患者获得额外的医疗。

出自：《科学》

自2022年底发布以来，一款由OpenAI公司开发的ChatGPT聊天机器人大受欢迎，该系统可以一键创建文本、图像与视频内容，从此开启了一个生成式人工智能系统被广泛使用的新时代。《时代》杂志在2023年初称：“这一转变是自社交媒体开发以来最重要的技术突破。”政府与部分像是葛布鲁这样的学者对于这一新兴热潮产生了危机感：随着更大、更强的AI迅速发展，这项技术会不会就此而失控？葛布鲁的一系列经历预示着科技公司根本不愿意解决隐藏在算法中的危害和偏见。然而，现在是认真面对这些问题的时候了。

如今，算法遍布在我们生活的方方面面，尽管许多人显然意识不到这一点。这些算法小则出现在我们搜索信息的时候，大则涉及法官判刑。机器学习技术，曾经只出现在付费期刊里的那些繁琐论文之中，现在已切实地融入了现实世界，绝无退路。包括住房、社会福利和治安等在内的公共和社会系统，，也不乏人工智能系统的痕迹。人们曾一度认为，人工智能训练的数据集是如此庞大，它可以消除数据中所有持有偏见的观点。然而，越来越多的事实都在证明情况并非如此。直到 2010 年代，算法可能会反映训练算法者既有偏见的这一观点，才逐渐被人所知，人们才意识到技术并非是中立的。如果不加以纠正，潜藏在算法中的系统性种族主义或性别歧视，可能会导致社会伤害。

理查森（Rashida Richardson）

是一名技术政策专家，也是一名研究人工智能对社会和公民权利影响的研究人员。

理查森（Rashida Richardson）一开始并不是公平人工智能领域的专家。相反，她是一位美国律师，擅长解决房屋、学校种族融合与刑事司法改革等民权问题。后来，她发现许多系统的人们越来越多地运用算法做“脏活”。一些算法公司向政府提供技术，而政府则将其视为可以解决有限资源问题的灵丹妙药。理查森对此表示怀疑：“算法怎么可能真正解决那些源于结构性不平等的问题？”

她调查了那些向警察部门大胆宣扬它们优秀技术的公司，其中有一个是政府正在使用的机器学习技术——预测性警务系统。它利用历史犯罪数据预测未来可能发生犯罪的地点，或最有可能参与犯罪的人员。2019年，理查森和她的同事合作发表了一篇论文，研究了美国13个使用该系统的司法管辖区。其中有9个地区是由非法警务操作衍生出来的数据，换言之，使用“肮脏的数据”训练算法。它们或多或少地为了降低犯罪率的伪造数据，又为了达标逮捕配额在无辜人身上栽赃毒品。因此，这些算法就有可能会不公平地针对少数族裔。

Portrait of 理查森（Rashida Richardson） — 理查森（Rashida Richardson）

法律与技术政策专家

预测性警务系统只是暴露算法偏差的其中一种方式罢了，但也足以造成一定的危害。以医疗保健为例：人工智能与医疗领域的结合可以帮助实现更快、更好、更便宜的医疗服务，因此，人们对此产生了浓厚的兴趣。但如果设计不得当，人工智能可能会进一步恶化种族偏见。

2019年发表在《科学》上的一篇论文显示，美国医院广泛投入使用的一种算法普遍歧视黑人。在确定谁有资格获得高风险医疗保健管理计划时，算法通常会选择相对健康的白人患者，而非健康状况较差的黑人患者；而该算法每年正为2亿人提供医疗服务。

2022年发表的一篇论文表明，图像识别技术声称可以像专家一样对皮肤癌进行分类。然而研究人员观察到，在训练人工智能系统的数据集中很少涵盖有色皮肤的图像，它基本只包含欧洲、北美和大洋洲人种的图像。“这些发现更加凸显了在数据集不透明的情况下，对大众广泛使用算法是非常危险的。”

Abstract artwork in Neon Green, Neon Purple and Silver by Carsten Gueth

深入研究机器学习算法公平性的宾夕法尼亚大学助理教授亚茨卡（Mark Yatskar）对行业内的重大变革感到悲观。他在他的研究工作中发现，该领域内的科学家很少考虑他们的最终用户。然而，即便要求研究人员确保机器学习的公平性和道德性，也不能解决问题，因为他们不是最终应用技术的人。

葛布鲁（Timnit Gebru）

是一名政治活动家，同时也是一名专研算法偏见的计算机科学家，以及技术多元化的倡导者。她是Black in AI的联合创始人，也是DAIR研究院的创始人。

亚茨卡认为，呼吁监管加强虽然简单但绝非正确的答案，因为研究公平性问题的人员之间并没有达成基本的一致，甚至他们对于公平性的定义都不尽相同。”同样的问题，有些研究人员可能把它叫做算法公平问题，而另一些人也可能觉得是算法出现的诸多问题。在数据完全透明的情况下，研究人员可以进行所谓的算法审计，即：通过检查算法的输入、输出和代码发现偏差。如果无法解决问题，则需要在公开声明中说明。

另一个障碍在于，由于私营公司自己训练的算法是保密的，这大大增加了研究人员分析数据的难度。不可避免的是，这些系统性偏见至少有其中一部分源于科技行业的高层人士。如今，人工智能行业内绝大多数是白人与男性。在2019年的报告中，80%的人工智能教授是男性；在Meta的人工智能研究人员中，女性仅占15％；在谷歌，占比降至只有10%。报告这么写道：“拥有性别多样化的经验和体会是人工智能系统开发员所需的基本要求，这可以帮助他们识别和减少系统性偏见带来的危害。”

Portrait of 葛布鲁（Timnit Gebru） — 葛布鲁（Timnit Gebru）

创始人

DAIR

曾担任白宫和联邦贸易委员会技术顾问的理查森表示，目前根本没有明确的方法监管这些人工智能技术，因为政府部门对技术的运作方式了解甚少。比起确保算法的公平性这件事，困扰人工智能系统的问题更具系统化、更难以解决。即便是现实当中的人常常都带有偏见，那我们又该如何让算法不带偏见呢？“你不能把它与社会方面分开，我们只是不知道如何处理这些问题。”理查森说道：“政策的制定者和社会都不愿意处理这些复杂的问题。”

越多地认识到技术不会对偏见免疫这个事实，越好。尽管近年来人们的意识已经逐步增强，但是，理查森认为，仍然没有人确切地知道该如何去做。“尽管紧迫性不断增加，却没有人明确知道如何去做。”她说，“没有人愿意坦率讨论去解决问题到底有多么困难。”

离开谷歌后，葛布鲁宣布成立了一家以社区为驱动、以多元化视角为中心的独立人工智能研究所，称为DAIR（the Distributed AI Research Institute）。她不断呼吁人们关注人工智能危害的认知。2023年3月，包括马斯克和沃兹尼亚克在内的人们签署了一封公开信，呼吁行业暂停人工智能发展，为期六个月，以防止“人类文明的失控”。此外，葛布鲁与其他几位人工智能伦理学家共同撰写了一篇反驳信，信中写道谷歌没有指出人工智能目前造成的危害：“现在是时候采取行动去关注一些焦点了，但这不应该是想象中所谓‘强大的数字化思想’。而是应该去关注那些采取了造成剥削既定事实的技术的公司，因为这些做法往往会加速集权，加剧社会的不平等。”

关于作者