跳转到内容

Lentis/算法偏差

来自维基教科书,开放世界开放书籍

算法偏差指的是计算机系统产生的不良结果,这些结果错误地或不公平地优先考虑某一组人而不是另一组人。本章目前重点关注美国算法偏差。

尤其重要的是机器学习 (ML) 和人工智能 (AI) 中的算法偏差。

公司和个人越来越多地依赖人工智能系统。搜索引擎结果、社交媒体推荐、招聘决策、股市预测和警务实践都使用人工智能预测模型的信息。[1] 这些模型中的算法偏差特别危险,因为人类存在自动化偏差,即人类在面对计算机生成的解决方案时倾向于无视矛盾信息。[2] 这增加了人工智能系统中的偏差导致系统使用中产生不公平或不公正结果的可能性。

人工智能系统中是如何出现算法偏差的?通常,人工智能系统运行在从现有来源收集的大量数据集上,没有经过细化。这会导致任何现有的偏差,通常是制度性的或隐性的,被传递到人工智能系统。[3] 考虑一个旨在为计算机科学职位找到最佳候选人提供竞争优势的人工智能招聘算法。由于计算机科学目前是男性主导的领域,招聘算法可能会错误地优先考虑男性申请人。类似案例的例子是亚马逊的招聘算法。这样,人工智能系统会复制现有的偏差,并在现状中延续现有的偏见。

组装偏差是一种针对人工智能和机器学习系统的独特算法偏差类型,它描述了人工智能系统引入的目前社会中不存在的新偏差。[4] 组装偏差源于人工智能模型是生成性的而不是纯粹统计性的想法。一个更好的理解这种现象的玩具例子是人工智能生成逼真的图像。[5] 当被要求创建蜘蛛的图像时,人工智能模型可能会生成一只十一条腿的蜘蛛的极其详细、逼真的纹理图像。即使人工智能只接受过八条腿的蜘蛛的图像训练,但人工智能对如何计算腿没有概念——相反,它创建了定义蜘蛛的自身指标。

人工智能开发和研究职位明显缺乏多样性。只有大约 20% 的人工智能研究人员是女性,其他少数族裔群体也同样代表性不足。[6] 因为开发人工智能系统的最终目标通常是对模糊的概念进行量化,所以在场和参与系统工作的人员的观点会强烈影响结果。人工智能职位缺乏多样性代表了另一个可能的偏差来源,因为多数人的观点将在结果中被过分重视。

目前,人工智能系统中算法偏差导致的不公平结果似乎主要损害了女性和性或种族少数群体。对抗人工智能和机器学习这种意想不到的结果是一个正在进行的研究领域。[7]

案例研究和社会影响

[编辑 | 编辑源代码]

亚马逊的招聘算法

[编辑 | 编辑源代码]

2014 年,亚马逊启动了一项使用人工智能审查求职简历的项目。该项目的目的是减少在寻找合适候选人以填补职位空缺方面所花费的时间。人工智能接受了该公司过去 10 年提交的简历的训练。提交的简历的人口统计数据与大多数科技公司的相似:主要由男性组成,尤其是在技术职位方面。因此,人工智能产生了偏向男性简历而不是女性简历的算法,因为之前大多数成功的候选人都是男性。这体现在算法中,因为它惩罚了包含“女性”一词的简历,或者奖励那些包含更多男性简历中常见的词语的简历,例如“捕捉”或“执行”。还发现该算法会降低那些毕业于女子学院的候选人的等级。[8]

为了对抗该工具的性别偏见结果,亚马逊使该程序对与性别相关的术语保持中立。通过这样做,亚马逊参与了内部审计,这是一种旨在减少算法偏差的技术,通过确保机器学习模型中出现的任何偏差都被发现并停止。但是,它没有解决问题的核心,即基础数据。另一种方法是分析现有的数据集以预测算法可能存在偏差的地方,根据需要评估和修改对数据的假设。这种方法在其他人工智能应用中取得了成功。然而,在本例中,亚马逊没有解决基础数据问题。这促使算法找到了对候选人进行排序的其他歧视性方式。该工具于 2017 年被退休,原因是“高管对该项目失去了希望”。[8]

亚马逊的批评者认为,这种算法助长了他们员工队伍中的性别差距。亚马逊没有否认他们的招聘人员查看了该工具生成的推荐,但坚持认为该工具“从未被[他们]用来评估候选人”。[8] 亚马逊的反对者认为,两者是相互排斥的;招聘人员肯定受到该工具的影响,即使他们声称没有受到影响,该工具会根据 1 到 5 颗星对候选人进行评分。一些批评者,比如 ACLU 律师雷切尔·古德曼,进一步认为人工智能招聘工具“并没有消除人为偏差——它们只是通过软件洗去了这种偏差”。[9] 人工智能招聘技术的支持者更加乐观:在 CareerBuilder 2017 年的一项调查中,55% 的美国人力资源经理表示,人工智能将在未来五年内成为其工作的常规部分。[10] 然而,正如 LinkedIn 人才解决方案副总裁约翰·耶尔辛解释的那样,该技术还有很大的改进空间,才能“独自做出招聘决策”。[8]

亚马逊此后恢复了该项目,希望强调多样性能够带来更公平的算法结果。但是,在没有对模型训练的数据进行批判性评估的情况下,尚不清楚为什么特定的算法重点会带来非歧视性的算法结果。

人脸识别算法

[编辑 | 编辑源代码]

包括 IBM 和微软在内的几家公司开发了人脸识别算法,这些算法仅使用人脸识别个人。[11] 这些算法可供公众使用,并且已被警察部门与视频监控程序一起使用。[12] 2018 年,乔伊·博拉姆维尼研究了 IBM、微软和 Face++ 人脸识别算法在性别分类方面的偏差,发现它们都对“较浅的面孔比较深的面孔表现得更好”,并且对“较深的女性面孔”表现最差。[13] 所有算法在“较浅的男性和较深的女性”之间都存在准确性差距,超过 20%,其中 IBM 的算法表现最差,差距为 34.4%。[13] 2019 年,美国国家标准与技术研究院 (NIST) 证实了算法性别偏差和种族偏差是一个行业范围内的问题,在研究的 189 种人脸识别算法中,对有色人种,尤其是女有色人种的准确性最低。[14] 针对这项研究,IBM 停止了他们的人脸识别算法的研究。[15],微软和 Face++ 发布了他们的人脸识别算法的改进版本,并将他们的准确性差距缩小了 19% 以上。[16],亚马逊禁止警察部门使用其人脸识别算法。[17]

预测性警务

[编辑 | 编辑源代码]
另请参阅:Lentis/预测性警务

贷款算法

[编辑 | 编辑源代码]

金融科技 (Fintech) 是一个领域,贷款算法开始取代面对面的会议。在美国,45% 的大型抵押贷款机构提供基于软件的贷款解决方案,但它们因歧视性定价而受到审查。Bartlett 等人进行的一项研究发现,通过在线平台和面对面会议,黑人和拉丁裔借款人平均支付的购买贷款利率比同等借款人高出 7.9 个基点,再融资贷款利率高出 3.6 个基点。这种差异每年给黑人和拉丁裔借款人造成 7.56 亿美元的损失。研究人员发现,算法中的歧视程度比面对面的贷款机构低约 40%。具体来说,当使用 Fintech 算法时,弱势群体借款人支付的利率比其对应者高出 5.3 个基点(比传统方法低 2.6 个基点)[18]。该研究分析了 2008 年至 2015 年间由 Fannie Mae 和 Freddie Mac 发放的 30 年期固定利率单户住宅贷款,发现贷款机构从向弱势群体发放的购买贷款中获得了 11% 到 17% 的更高利润[19]。尽管贷款算法表现出比传统的面对面贷款机构更少的偏差,但任何程度的偏差的持续存在都强调了需要审查贷款算法并确定算法偏差的来源。

贷款算法基于机器学习和大数据,它们使用各种客户属性来设定价格。例如,地理位置可能起着重要作用,因为算法可以定位比较购物可能性较小的地区。算法可能确定金融沙漠地区,这些地区的金融储备较低,申请人面临着垄断定价,而不是拥有许多选择。算法可能不会专门针对弱势群体申请人,但其逻辑可能会设定更高的价格,因为知道申请人更有可能接受它[19]

训练数据中潜在的历史歧视也可能导致算法不利于弱势群体,并加剧财富差距。Fintech 贷款算法使用未来借款人的信用记录、就业状况、资产、债务以及申请的贷款金额来设定利率。“如果你输入的数据基于历史歧视,那么你基本上是在另一端巩固歧视,”负责任借贷中心拉丁裔事务主任 Aracely Panameño 说。研究还表明,发放高利贷的公司经常在以有色人种为主的社区中进行“捕食”,因为这些社区通常银行分支机构较少。银行报告正面和负面信用行为,而高利贷服务仅报告逾期付款。结果,这些社区中的弱势群体发现自己拥有不完整或有偏差的信用记录,这些记录后来被输入到贷款融资算法中[20]

COMPAS 犯罪再犯算法

[编辑 | 编辑源代码]

针对替代制裁的矫正罪犯管理分析 (COMPAS) 算法是一种机器学习算法,用于刑事判决期间的司法决策。COMPAS 用于威斯康星州、纽约州、加利福尼亚州和佛罗里达州,预测再犯的潜在风险。该商业算法由 Northpointe, Inc.(现为 Equivant)创建,使用问卷将被告归类为“低风险”、“中风险”或“高风险”,得分分别为 1-4、5-7 或 8-10[21]。年龄、性别和犯罪历史等因素被使用,而种族则没有[22]。今天,COMPAS 仍然被用来为保释、判决和提前释放提供建议,许多人质疑 COMPAS 在提供客观建议方面的有效性和公平性,特别是在种族方面[23]

2016 年,普利策奖获得者非营利新闻机构 ProPublica[24] 进行了一项研究,以评估 COMPAS 的种族偏见。COMPAS 得分中风险或高风险,被告在 2 年内再次犯罪,以及 COMPAS 得分低,被告在 2 年内没有再次犯罪,被认为是正确的预测[25]。ProPublica 发现,白人和黑人被告的再犯预测正确率分别为 59% 和 63%。这大致相同。该公司在接受质询时表示,“该算法的目的是实现这一目标。对所有群体都具有相同比例的正确率的测试不会存在偏见。”[23]。Northpointe Inc. 甚至在其《实践指南》中引用了其他研究,证实其算法的成功和中立性[26]

ProPublica 发现,黑人被告的得分从 1 到 10 都是均匀的,而白人被告的得分主要较低。在调整了黑人被告整体再犯率较高的因素后,ProPublica 发现,COMPAS 在保持类似准确率的同时,“更有可能将黑人被告错误地分类为高风险,而不是将白人被告错误地分类为高风险……该测试倾向于对白人犯相反的错误”。[25]

延续的系统性种族主义

[编辑 | 编辑源代码]

COMPAS 延续了刑事司法系统中存在的历史和结构性偏见。例如,COMPAS 考虑一个人的居住地。以少数民族为主的地区通常受到更多警方的监管,这会夸大逮捕数据。如果地理位置与再犯率相关,那么种族也会间接地相关。因此,这些相关性在没有采取有效性措施的情况下可能是危险的。作为一个私人公司,Northpointe 没有法律义务分享关于 COMPAS 如何计算其得分或权衡其变量的详细信息[21]

被标记为高风险/中风险的被告可能会受到更严厉的判决。美国判决委员会发现,被判处 60 到 120 个月和超过 120 个月监禁的罪犯再次犯罪的可能性明显降低[27]。如果被告被怀疑是高风险,他们可能会被判处更长的刑期,并且不太可能获得保释或提前释放。尽管 COMPAS 宣称种族中立,但它对黑人被告的错误标记可能会导致负面后果,并可能进一步加剧刑事司法系统中的种族不平等[24]

美国医疗保健管理算法

[编辑 | 编辑源代码]

美国多个医疗保健系统使用商业算法来指导医疗决策,并针对患者进行“高风险护理管理”计划,以帮助确保提供适当的护理。这些计划中的大多数对患有危重疾病的患者是有益的,因为他们拥有专业的护士团队、额外的初级保健预约时间以及其他稀缺资源[28]。因此,医院和保险公司一直依赖一种特定的算法来最大限度地降低患者的成本,同时针对从这些计划中获益最多的更严重的患者[29]

2019 年,Obermeyer 等人针对“越来越担心算法可能会通过构建算法的人员或用于训练它们的

研究发现,与白人患者具有相同算法预测风险的黑人患者,其慢性病患病率高出 26.3%。此外,研究人员发现,当观察特定生物标志物(这些标志物反映了各种慢性疾病(高血压、糖尿病、坏胆固醇等)的严重程度)时,黑人患者的疾病比具有相同风险评分的白人患者更严重。这是因为与患有相同慢性病的白人患者相比,黑人患者产生的预期医疗费用更低。由于该算法将患者医疗保健支出作为生成风险评分的主要机制,因此这些支出差异导致了对黑人和白人患者疾病感知水平之间的差异。[28]

延续的系统性种族主义

[edit | edit source]

该研究确定了导致黑人医疗保健支出减少的两个系统性原因,这些原因导致了该算法的偏差。首先,尽管拥有医疗保险,但贫困患者仍面临着许多障碍,这些障碍可能会阻碍他们获得医疗保健(地理位置、交通工具、工作或育儿的竞争性需求、了解寻求医疗保健的原因等)。其次,种族可以通过医生的直接歧视或医患关系的变化影响患者的支出,导致患者没有被推荐接受进一步的治疗或选择不寻求进一步的治疗。这些观察结果表明,用于决策模型的准确方法可能会间接地使社会中的特定群体处于不利地位,并可能延续现有的系统性种族主义。[28]

结论

[edit | edit source]

未来,算法偏差将对人类活动产生越来越大的影响。[30] 显然,不受监控、不受约束的算法生产和应用对不同群体的人们来说可能是灾难性的。公司和行业能够轻松利用这些算法,造成了一个环境,在这个环境中,不公平的结果会不断延续。减少算法偏差的可能途径包括立法、内部审计和社区裁决,以及提高意识和责任文化。[30] 许多这些途径主要属于社会性和非技术性,这与算法偏差的社会技术性质相一致。算法偏差的日益普遍仅仅是技术影响美国乃至全世界人类生活的一种方式。在广泛采用之前,必须仔细检查许多其他具有看似无限潜力的新技术,因为未能做到这一点会导致有害后果,而这正是当今许多应用算法的情况。最后,建议对立法对算法偏差的影响、算法偏差对美国以外国家的影响以及新的偏差缓解技术进行进一步研究。

参考文献

[edit | edit source]
  1. IBM. (n.d.). 大数据分析. https://www.ibm.com/analytics/hadoop/big-data-analytics.
  2. Cummings, Mary (2004). "智能时间关键决策支持系统中的自动化偏差" (PDF). AIAA 第一次智能系统技术会议 (PDF). doi:10.2514/6.2004-6313. ISBN 978-1-62410-080-2. 存档于 2014-11-01.
  3. Hao, K. (2019 年 2 月 4 日). 这就是 AI 偏差的真正发生方式 - 以及为什么它如此难以修复. MIT 技术评论. https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/.
  4. Waller, R.R., Waller, R.L. 组装偏差:超越透明算法偏差. 心灵与机器 32, 533–562 (2022). https://doi-org.proxy1.library.virginia.edu/10.1007/s11023-022-09605-x
  5. Gray, Richard. (2018 年 11 月 27 日). 为什么机器会梦到 15 条腿的蜘蛛。 https://www.bbc.com/future/article/20181127-the-weird-way-machines-with-ai-see-the-world
  6. Kumar, S., Choudhury, S. 人工智能中的性别和女权主义考虑,从发展中国家的视角,以印度为例。人文学科和社会科学通讯 9, 31 (2022). https://doi.org/10.1057/s41599-022-01043-5
  7. Hao, K. (2019 年 2 月 4 日). 这就是 AI 偏差的真正发生方式 - 以及为什么它如此难以修复. MIT 技术评论. https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/.
  8. a b c d Dastin, J. (2018 年 10 月 10 日). 亚马逊放弃了显示对女性有偏见的秘密 AI 招聘工具。 路透社. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
  9. Goodman, R. (2018 年 10 月 12 日). 为什么亚马逊的自动化招聘工具歧视女性. 美国公民自由联盟. https://www.aclu.org/blog/womens-rights/womens-rights-workplace/why-amazons-automated-hiring-tool-discriminated-against
  10. CareerBuilder. (2017 年 5 月 18 日). 超过一半的人力资源经理表示,人工智能将在未来 5 年内成为人力资源的常规部分 [新闻稿]. https://www.scribbr.com/apa-examples/press-release/
  11. Najibi, A. (2020). 人脸识别技术中的种族歧视. 新闻中的科学; 哈佛大学. https://sitn.hms.harvard.edu/flash/2020/racial-discrimination-in-face-recognition-technology/
  12. Hao, K. (2020 年 6 月 12 日). 阻止亚马逊向警方出售人脸识别的两年斗争. MIT 技术评论. https://www.technologyreview.com/2020/06/12/1003482/amazon-stopped-selling-police-face-recognition-fight/
  13. a b Buolamwini, J., Gebru, T., Friedler, S., & Wilson, C. (2018). Gender Shades: 商业性别分类中的交叉准确性差异 *. 机器学习研究论文集, 81, 1–15. http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf
  14. Grother, P., Ngan, M., & Hanaoka, K. (2019). 人脸识别供应商测试第三部分:人脸识别供应商测试 (FRVT) 第三部分:人口统计影响. https://doi.org/10.6028/nist.ir.8280
  15. Jee, C. (2020 年 6 月 9 日). IBM 表示不再进行人脸识别工作,因为它被用于种族分析. 技术评论; MIT 技术评论. https://www.technologyreview.com/2020/06/09/1002947/ibm-says-it-is-no-longer-working-on-face-recognition-because-its-used-for-racial-profiling/
  16. Buolamwini, J. (2019). 可操作的审计:调查公开命名商业 AI 产品偏差性能结果的影响 - MIT 媒体实验室. MIT 媒体实验室. https://www.media.mit.edu/publications/actionable-auditing-investigating-the-impact-of-publicly-naming-biased-performance-results-of-commercial-ai-products/
  17. Hao, K. (2020 年 6 月 12 日). 阻止亚马逊向警方出售人脸识别的两年斗争. MIT 技术评论. https://www.technologyreview.com/2020/06/12/1003482/amazon-stopped-selling-police-face-recognition-fight/
  18. Gunn, D. (2019 年 10 月). 少数族裔借款人支付更多,即使在算法贷款下也是如此. 摘要第 10 号. www.nber.org/digest/oct19/minority-borrowers-pay-more-even-under-algorithmic-lending
  19. a b Counts, L. (2018 年 11 月 13 日). 少数族裔购房者面临普遍的统计贷款歧视,研究发现. BerkeleyHaas. newsroom.haas.berkeley.edu/minority-homebuyers-face-widespread-statistical-lending-discrimination-study-finds
  20. Martinez, E., & Kirchner, L. (2021 年 8 月 25 日). 隐藏在抵押贷款审批算法中的秘密偏差. 标记. themarkup.org/denied/2021/08/25/the-secret-bias-hidden-in-mortgage-approval-algorithms
  21. a b Park, A. L. (2019 年 2 月 19 日). 机器中的不公:刑事判决中的预测算法. 法律与世界. https://www.uclalawreview.org/injustice-ex-machina-predictive-algorithms-in-criminal-sentencing/#_ftn2.
  22. Rahman, F. (2020 年 9 月 7 日). Compas 案例研究:机器学习模型的公平性. 走向数据科学. https://towardsdatascience.com/compas-case-study-fairness-of-a-machine-learning-model-f0f804108751.
  23. a b Angwin, J. 和 Larson, J. (2016 年 12 月 30 日)。刑事风险评分中的偏差在数学上是不可避免的,研究人员说。ProPublica。https://www.propublica.org/article/bias-in-criminal-risk-scores-is-mathematically-inevitable-researchers-say。
  24. a b Spielkamp, M. (2017 年 6 月 12 日)。检查算法的偏差。麻省理工学院科技评论。https://www.technologyreview.com/2017/06/12/105804/inspecting-algorithms-for-bias/。
  25. a b Larson, J.,Mattu, S.,Kirchner, L. 和 Angwin, J. (2016 年 5 月 23 日)。我们如何分析 COMPAS 累犯算法。ProPublica。https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm。
  26. Northpointe Inc. (2015 年 3 月 19 日)。COMPAS Core 实践指南。http://www.northpointeinc.com/downloads/compas/Practitioners-Guide-COMPAS-Core-_031915.pdf
  27. ORD(2020 年 4 月)。美国量刑委员会研究与数据办公室。监禁时间和累犯。https://www.ussc.gov/sites/default/files/pdf/research-and-publications/research-publications/2020/20200429_Recidivism-SentLength.pdf
  28. a b c d Obermeyer, Z.,Powers, B.,Vogeli, C. 和 Mullainathan, S. (2019)。解剖用于管理人群健康的算法中的种族偏见。科学366(6464),447–453。https://doi.org/10.1126/science.aax2342
  29. Vartan, S. (2019 年 10 月 24 日)。在主要的医疗保健风险算法中发现了种族偏见。科学美国人。https://www.scientificamerican.com/article/racial-bias-found-in-a-major-health-care-risk-algorithm/.
  30. a b Garcia, M. (2016 年 12 月 1 日)。机器中的种族主义:算法偏差的令人不安的含义。世界政策杂志,33(4),111 - 117。
华夏公益教科书