研究 | 闫坤如:人工智能价值对齐的价值表征及伦理路径(一)

来源: 中国工艺美术学会   时间:2025-04-07  浏览量:172

人工智能价值对齐是一个规范性问题,也是个技术性问题,既需要从伦理上论证对齐的可能性和合理性,也需要从技术上实现人工智能对齐的目标。为了实现人工智能价值对齐的目标,需要分析人工智能价值对齐的内涵要义、明确人工智能价值对齐的价值表征,通过分析人工智能价值对齐的原则和方法,在分析人工智能技术本性和伦理疑难的基础上,坚持人工智能在社会中的地位是一个规范性问题,而不是一个描述性问题,是人决定人工智能技术的研发和应用,人为人工智能技术立法。此外,还需打通人工智能价值对齐的道德规范和设计的技术标准之间的逻辑鸿沟,从技术层面和规范层面给出人工智能价值对齐的伦理路径。

人工智能技术迅猛发展,引发生产、生活方式变革,也改变人类理解世界的方式。同时,人工智能技术革命的颠覆性作用引发隐私泄露、数据鸿沟、就业替代等社会问题,因人工智能技术的自主性和算法不透明性等原因导致伦理风险剧增,为了人工智能技术的安全发展和应用,需要人工智能技术满足人类的需求和期望,这就是人工智能价值对齐(Artificial Intelligence Value Alignment)。人工智能价值对齐是一个重要的领域,因为随着人工智能系统变得越来越强大,它们可能以与人类目标不一致的方式行事。人工智能价值对齐成为人工智能安全发展的前提和基本要义,引发了理论界和产业界的关注。人工智能价值对齐是人工智能发展的根本性、基础性工作,是需要优先考虑的问题,也是一项具有挑战性的工作。
一、人工智能对齐的内涵要义与价值表征
人工智能对齐对于人工智能技术的发展和应用都是根本性的。在此语境中,澄清人工智能对齐的内涵、挖掘其技术的内在属性,分析其价值表征显得尤为重要。
1. 人工智能对齐的内涵分析
人工智能对齐是一个新领域,研究如何使所创造的系统能够满足人类的需求和期望,人工智能对齐的目标是防止人工智能的运行违背特定个人、群体或整个社会的利益。1960年,“控制论之父”诺伯特·维纳(Norbert Wiener)在著作《自动化的道德和技术后果》中指出,随着机器学习进一步发展,它们可能会超出人类预期。“我们最好完全确定赋予机器的目标就是我们真正想要的目标。”这是人工值智能对齐的初步表达,人工智能对齐(AI alignment)就是人工智能价值对齐,维纳认为研发机器的目标是最大限度地实现人的价值,是实现人类目标。布莱恩·克里斯汀(Brain Christian)在《人机对齐:如何让人工智能学习人类价值观》中对人工智能对齐给出的定义为:“如何确保这些模型捕捉我们的规范和价值观,理解我们的意思或意图,最重要的是,做我们想做的事,已经成为计算机科学领域最核心、最紧迫的科学问题之一。它就是:对齐问题。”2019年,弗吉尼娅·迪格纳姆(Virginia Dignum)提出人工智能“以人类福祉为中心,并与社会价值观和伦理原则保持一致”。人工智能对齐指的是人工智能系统的目标与人类利益与价值观相一致,人工智能发展符合人类意图。通过上述对人工智能对齐内涵要义的分析,我们可以看出,人工智能对齐是研究如何使人类创造的人工智能系统能够满足人类的需求和期望,让人工智能技术的能力和行为与人类的价值、真实意图和伦理原则相一致,目标是为了人工智能系统的安全应用,避免人工智能技术违背人类意愿。从这个意义上讲,人工智能价值对齐是人工智能技术安全使用和规范发展的核心议题和最根本问题。
通过以上对人工智能对齐内涵要义的分析,我们可以看出,人工智能价值对齐既是一个过程也是一个结果。人工智能对齐的目标具有两重性,对齐具有伦理目标和技术目标。人工智能对齐的出发点和落脚点是体现人类意愿,中期伦理目标是设计和使用过程中体现人类价值观和道德规范,中期技术目标是人工智能系统的研发和运行安全可靠、值得信赖;人工智能对齐的终极伦理目标是人类福祉、社会公平公正、人类的自由解放等,人工智能对齐的终极技术目标是技术为人类服务而非技术控制人类,技术为“我”而非技术异“我”,更不是“我”为技术。
2. 人工智能技术的工具性价值分析
人工智能技术应符合人类意图,不违背人类发明和使用技术的初衷,符合人类意图是技术价值的逻辑起点。一方面,技术是内在价值与工具性价值的统一体,首先,技术具有内在价值,技术能解决问题、提高效率、改善生活,是人类文明的标志和社会发展的重要驱动力;其次,技术具有工具性价值,它是为了满足人类自身愿望、实现人类特定目的的工具。技术从研发开始就体现设计者的意志和愿望,负载了人类价值。技术在人类文明发展中发挥重要作用,技术工具史也就是人类文明史,没有技术工具的发明和制造,就没有人类文明的产生和发展。另一方面,技术也可能成为破坏环境、加剧不平等和威胁人类福祉的工具。如果人工智能技术不与人类的价值观和根本利益对齐,则可能导致人工智能技术的行为不符合甚至违背人类意愿,不能体现人类的价值目标。技术的内在价值和工具性价值表明人工智能技术的价值表征是作为工具实现人类福祉而存在,是为了满足人类的目的,是为人类的自由和幸福,技术发展也要接受人类的评估和考量。通过对技术价值表征分析,我们可以看出,无论人工智能技术是否具有智能、作用多么强大,都只是作为工具而存在,而技术工具必须满足人类愿望,必须与人类价值观和伦理原则保持一致,不对人类的价值和权利造成干扰和伤害,也就是说,人工智能技术发展必须坚持与人类价值对齐,而不能违背人类意志和愿望。
3. 人工智能技术内在属性是风险性
人工智能技术风险指的是人工智能技术研发和使用引起社会结构变化,在推动人类进步和为人类带来福祉的同时,因其不确定性和复杂性造成各种损失的可能性。人工智能技术的风险属性取决于其不确定性程度,人智能系统中存在的算法偏差、模糊逻辑和模糊集合等不确定性均可能偏离人工智能技术的初衷而引发风险,人工智能在给人类带来福祉和便利的同时,也带来了危害公共安全、隐私泄露、算法偏见、就业替代等一系列的伦理挑战。英国巴斯大学的乔安娜·布赖森(Joanna Bryson)和艾伦·温菲尔德(Alan Winfield)在《人工智能和自主系统的标准化伦理设计考虑》中指出,随着人工智能发展到超过人类能力的程度,它可能会控制我们的资源并战胜我们的物种,最终导致人类灭绝。机器取代人、控制人的后果引发人工智能技术应该以人类价值观为目标的思考。首先,人工智能技术能力超过人类,它虽然是人类研发的工具,是对人类智力和体力的增强,也是人类肢体的延伸,但从研发之始,就预设了其能力超过人类,技术人工物超过人类能力是人类“善假于物”的表现。例如,阿尔法狗下围棋战胜人类说明机器人通过学习智能可能超过人类;运用人工智能技术的自动文本翻译速度超过人类;运用自动驾驶系统的汽车决策和行动超过人类;机器算法的数据处理规模和速度远超人类等。其次,人工智能技术作为工具有失控风险。人工智能技术发展难以控制,具有潜在的风险属性。人工智能设计阶段可能产生道德算法风险和道德决策风险;人工智能使用阶段潜藏人类主体性地位被削弱的风险、数据隐私泄漏风险、算法歧视、道德标准固化等风险。人工智能技术风险的本质既具有客观实在性,也与相关主体的价值取向和价值选择相关,体现了不同利益相关者的价值倾向和伦理考量。再次,人工智能技术可能反过来控制人类。例如,决策中的数据依赖、个性化推荐中的算法控制、卫星导航的技术依赖、手机上瘾、网络沉迷等现象表现为人类生产生活依赖技术,甚至表现为技术操控人类,人被技术束缚甚至裹挟。随着人工智能的进化,人的主体性有丧失的可能性。梅拉妮·米歇尔(Melanie Mitchell)在《AI 3.0》中阐述了人工智能失控风险,“从图灵测试到奇点之争,我们无法预测智能将带领我们去往何处”。通过以上分析可知,人工智能技术具有风险属性,为了保障人工智能技术的安全可靠,从研发的技术逻辑开端就必须要考虑人类价值观和伦理规范。
二、人工智能对齐的思路、原则与方法
人工智能对齐要求人工智能根据人类意愿的设计,实现人类的意愿。学者从不同思路给出了人工智能对齐的原则和方法。
1. 人工智能对齐的思路分析
学者从不同视角来分析人工智能对齐问题。迄今为止,为了避免人工智能失控,学者和产业界人士做了很多尝试,归纳起来,规范人工智能技术发展主要有以下几种思路。
第一种思路是不研发自主性人工智能机器,让人工智能技术的发展局限在人类的工具层面;第二种思路是增强人工智能系统透明性,对其科学原理和技术手段、技术规则进行解释;第三种思路是为人工智能嵌入人类道德。第一种思路不研发自主性人工智能会限制人工智能技术发展、阻碍人类文明进步。目前,各个国家把人工智能技术发展提升到国家战略地位,成为国际竞争的核心技术,人工智能技术是社会进步的新引擎,阻碍或者限制其发展既不现实也不可能;第二种思路增强人工智能系统的透明性,打开算法黑箱,让人工智能体的行为可以得到解释。但如果不透明性或者自主性是人工智能系统的本质特征所在,正如人脑不是白箱一样,不透明性也是人工智能系统的独特性所在,打开人工智能技术黑箱之路既是不具有理论可能性也是不具有技术可行性的难题;第三种思路把人类道德嵌入人工智能系统,这种思路成为价值对齐的最佳选择。文森特·邦尼曼斯(Vincent Bonnemains)、克莱尔·索雷尔(Claire Saurel)等人在《嵌入伦理:技术和伦理挑战》中提出一种可以被人工伦理推理的形式化的方法,该方法包括用形式化的工具来描述一个情境和伦理原则模型,并解释为什么一个给定的规定在伦理上是可接受的,或者说是不可接受的。纳文·森达尔·戈文达拉朱鲁(Naveen Sundar Govindarajulu)和塞尔默·布林斯霍尔德(Selmer Bringsjord)在其论文《道德规范必须嵌入机器人的操作系统》中提出通过设计把人类道德嵌入人工智能系统中,让人工智能系统具有道德决策能力。尝试将人类道德嵌入人工智能体,让人工智能可以按照人类道德行动,从而让机器行动符合人类价值观,即发展人工智能技术是为了人类的福祉和价值目标。
2. 人工智能价值对齐的原则
人工智能价值对齐原则的提出可以追溯到艾萨克·阿西莫夫(Isaac Asimov)。1942年,美国科幻作家阿西莫夫提出,随着机器的自主性越来越强,要制定相应的原则维护人工智能技术安全,他提出了著名的机器人学三大法则,即:“一、机器人不得伤害人类,或因不作为而使人类受到伤害。二、除非违背第一法则,机器人必须服从人类的命令。三、在不违背第一及第二法则的情况下,机器人必须保护好自己。”阿西莫夫试图提出的发展机器人的三大法则是人工智能价值对齐的最初原则,其他学者承继阿西莫夫的机器人学法则,从不同视角对人工智能对齐的原则和方法进行探索。艾伦·J.汤姆森(Alan J Thomson)和丹尼尔·L.施莫尔特(Daniel L.Schmoldt)提出,计算机系统的开发本身就需要引入社会伦理和道德治理机制,提高代码本身的质量。2006年,吉安马尔科·维格(Gianmarco Veruggio)主张机器人的设计者、制造者、编程者和使用者应对机器人的社会后果进行控制监督,使机器人造福于人类。瑞安·汤肯斯(Ryan Tonkens)提出了什么样的人工智能机器可以被创造的问题,分析了组织和个人应该承担的道德责任。还有一些学者立足于人工智能价值对齐原则的具体可操作性内容进行分析。例如,2015年,美国人工智能专家斯图亚特·罗素(Stu⁃art Russell)、“开放慈善项目”(Open Philanthropy Project)的项目经理丹尼尔·杜威(Daniel Dewey)与麻省理工学院物理学教授、未来生命研究所(Future of Life Institute)创始人迈克斯·泰格马克(Max Tegmark)提出人工智能价值对齐原则,将其表述为“我们如何建立与人类价值观一致的自治系统?”2023年10月,北京大学、剑桥大学、卡耐基美隆大学等联合发表《人工智能对齐:全面性综述》就如何确保AI系统的行为与人类的意图和价值观保持一致提出四个关键原则,即:鲁棒性(Robustness)、可解释性(Interpretability)、可控性(Controllability)、伦理性(Ethicality)原则(简称为RICE原则),其中鲁棒性原则指的是人工智能系统具有稳定性,人工智能系统具有抵御外在或内在干扰而维持系统正常运行的能力;可解释性原则指的是人工智能系统自主性、系统决策过程、推理方法、模型推理等具有透明性,可以被人类理解和解释;可控性原则指人工智能系统的行为由人类指导,人类能够对人工智能系统进行有效的监督、干预和纠正等;伦理性原则指的是人工智能系统坚持全球价值标准,符合人类社会的价值观。这四个人工智能对齐原则指导人工智能系统与人类意图和价值观相一致。但总的来说,这四个原则只有伦理性涉及人工智能伦理对齐的原则,鲁棒性、可解释性和可控性属于人工智能系统的安全性原则,且这四个原则本身并不是最终目标,而是服务于人工智能对齐的中间阶段的目标,人工智能对齐的最终目标要符合人类价值观,维护人类的尊严和福祉。
3. 人工智能对齐的方法
只有指导性原则而没有具体的实施方法也不能达到人工智能价值对齐的目标,学者意识到这个问题,纷纷给出人工智能价值对齐的方法。拉森·加布里埃尔(Lason GabrielIason)在论文《人工智能、价值与对齐》中给出了人工智能对齐的三种方法:(1)研究世界各地的人们持有的道德信仰之间是否有一种全球性的重叠的共识(global overlapping consensus);(2)试图用“无知之幕”(veil of ignorance)的理念为人工智能建立正义原则模型;(3)利用社会选择理论来结合不同的观点,满足大多数人的偏好,通过社会选择解决价值取向不同的问题。第一种方法面临着人类多元价值观融合难题,国际组织和行业学会从共同规范和职业道德方面关注全球重叠共识的形成,不同行业学会和职业群体积极参与,提出不同的价值对齐方案。有的行业学会或者组织从职业道德层面关注伦理对齐设计。例如,2015年,美国电气与电子工程师协会(IEEE)提议了人工智能的“伦理对齐设计”(Ethi⁃cally Aligned Design,简称EAD)的指导方针。2016年发布第一版“伦理对齐设计”倡议,2017年12月发布了《伦理对齐设计:将人类福祉与人工智能和自主系统优先考虑的愿景》报告,呼吁将人类规范和道德价值观嵌入人工智能系统中。这些方案比较宏观,缺少具体的技术要求和具体可实施的设计标准。加布里埃尔的第二种价值对齐方法涉及罗尔斯的“无知之幕”思想实验。无知之幕要求规则制定者对于社会信息完全掌握且是基于完全理性的,并且要求规则制定者拥有相同的效用函数和风险偏好。人工智能系统不具有人类一样的伦理主体地位,即便行为方式符合规范原则,但若对这些伦理规范的合理性缺少理解和把握,就不可能严格按照罗尔斯的“无知之幕”来运行。第三种方法是利用社会选择理论满足大多数人的价值目标和价值偏好,但利益相关者的不同价值诉求差异性以及价值观的多元性和复杂性,也使得社会选择具有盲目性,不同时期具有不同的价值共识、不同行业具有不同行业的道德共识,通过社会选择理论难以真正实现人工智能对齐。
通过上述对人工智能价值对齐的思路、原则和方法的挖掘,我们可以看出,学者对于人工智能对齐的研究要么是基于人工智能体的技术规范的研究,缺少对设计者行为或者意图的研究,缺少对人工智能设计者和人工智能系统的两个维度的关注;要么是基于职业伦理进路分析人工智能价值对齐,缺少对人工智能技术的伦理困境的分析和哲学视角的反思,学者更多的是对人工智能对齐重要性的分析,缺少对人工智能对齐路径的具体分析。如果想实现人工智能价值对齐,就必须分析人工智能系统的伦理地位,必须分析其对齐过程中的伦理疑难,必须把其伦理原则转化为技术设计标准,从而真正达到人工智能价值对齐的目标。

闫坤如,华南师范大学哲学与社会发展学院教授、博士生导师。

责任编辑:张书鹏

文章来源:伦理学研究 

上述文字和图片来源于网络,作者对该文字或图片权属若有争议,请联系我会。