点击选择搜索分类

中雨书世界 - 书籍资讯 - 人工智能价值对齐的哲学反思｜有限主义视域下的人工智能价值对齐

本书资料更新时间：1970-01-01 08:00:00

人工智能价值对齐的哲学反思｜有限主义视域下的人工智能价值对齐

现有人工智能（artificial intelligence，简称AI）价值对齐方案试图借助自然科学的经验证据与实证方法厘清人类道德的自然主义基础，并通过技术手段将其应用到AI对人类价值观的学习之中，忽视了道德的自然主义解释的根本性缺陷，引发了AI价值对齐难题。有限主义认为，现有AI价值对齐方案主张使AI具备类人道德，在本质上遵循AI发展的自由主义进路。这过于乐观化、理想化。在现实中，时空有限性、类人有限性与算法有限性等难题导致AI价值对齐的功能有限性。同时，AI价值对齐的功能有限性又伴随着各类技术风险与社会风险，即AI失控风险、人类机器化风险、无人担责风险与AI滥用风险。对此，应坚持有限主义的AI价值对齐方案，反对通用AI价值对齐的路线，坚持AI价值对齐的去道德化，制度化防止AI道德责任对齐，以及控制AI价值对齐的应用范围。

刘永谋，中国人民大学哲学院教授、博士研究生导师

随着AI的普遍化与强大化，人类正处于“魔法师学徒”的境地，对齐问题（the alignment problem）成为最紧迫的问题之一，即“如何确保这些模型捕捉到我们的规范和价值观，理解我们的意思或意图，最重要的是，以我们想要的方式行事”。当AI伦理风险不断涌现，价值对齐问题已然成为各大AI企业竞相研究、践行的核心策略。2023年7月，OpenAI宣布成立“超级对齐”（superalignment）团队，计划花费4年时间、投入20%算力，全力解决超级智能的价值对齐问题。此外，谷歌、微软、OpenAI和Anthropic共同创建了前沿模型论坛，旨在通过与政策制定者、学术界的合作，推动AI模型安全、负责任的开发。不可否认，AI价值对齐能够大幅纠正偏见、促进公平，已被视为解决AI发展负面后果的关键举措。

但是，AI价值对齐亦存在问题。从根本上来看，现有的各类AI价值对齐方案遵循AI发展的自由主义进路，坚持类人AI理念，强调技术至上，主张资本的无序扩展与有效加速主义（effective accelerationism， e/acc）。具体来说，AI价值对齐追求类人道德，对技术发展极度乐观，试图借助科学知识与技术手段，使AI习得人类价值观。人类道德是不完美的，类人道德并非圣人道德，并不一定有益于人类。因此，虽然AI价值对齐将有益AI视为最终目标，但是在实践路径上却发生偏移，逐渐趋向自由主义进路，不可避免地伴随着AI失控、人类机器化、无人担责与AI滥用等风险。

跳出自由主义框架，以有限主义视域审视AI价值对齐是必要的、有价值的。尼克·波斯特洛姆（Nick Bostrom）在分析智能大爆发的动力学、超级智能的形式和能量的基础之上，转向AI控制问题的研究。他区分了确保AI可控的能力控制方法与动机选择方法，认为能力控制方法最多只是暂时的、辅助的手段，人类应更多地掌握AI动机选择机制。在此基础之上，波斯特洛姆详细分析了AI获取人类价值观的多种方法，如详细表达、进化选择、强化学习、价值观累积、动机性支架、价值观学习、仿真调节、体制设计，并对可行性与效果进行评估。此外，斯图尔特·罗素（Stuart Russell）同样强调，要保持对AI的绝对控制权，确保AI永远对人类有益。他提出了人机之间的一种新关系，即：当致力于使AI实现人类目标时，应明确人类的目标是不确定的，如此才能确保AI服从于人类，在行动前请求许可、接受纠正、允许被关闭。无论是尼克·波斯特洛姆，还是斯图尔特·罗素，均遵循AI发展的有限主义进路，强调AI的可控性与有益性。正如科技谦逊主义所认为的，“人类发展科技的最终目标毫无疑问是为了人类福祉，即使追求真理的冲动，最后也是要落实到造福社会上的”。与自由主义进路相对，有限主义进路关注对AI的控制而非无限发展，“重要的是努力控制，而不是完成控制”。因此，在有限主义视域下审视AI价值对齐的基本预设、功能范围与具体方案，才能确保AI安全、有益、实用，避免陷入“AI必须拥有像人类一样的价值观”的技术、伦理等跨学科难题中。

一、AI价值对齐的自然主义预设

在有限主义看来，现有的AI价值对齐方案遵循自由主义进路，试图通过无限发展技术使AI具备类人道德，因此，该方案不可避免地以自然主义道德观为基础和预设。其原因在于，强调技术至上的自由主义进路倾向于选择一种普遍的、绝对的道德观，以便被统计、量化与编码至AI系统。一直以来，人类普遍将自由意志、意识等视为道德的核心要素，但此种对道德本质的形而上学思辨难以被证实，无法通过技术手段将其应用至AI价值对齐方案中。相较而言，近来兴起的生物伦理学、神经伦理学等探寻人类道德的自然主义基础，从自然科学的角度解释人类道德的起源与本质，为AI价值对齐提供了可操作的、可实现的技术路径。但是，通过有限主义视域的审视，可以发现，道德的自然主义解释存在根本性缺陷，它忽视了道德的文化维度，消解了人类道德的复杂性与多样性。

（一）人类道德的自然主义理论基础

在认知神经科学领域，人类道德行为被认为与大脑中的特定区域相关。通过利用“脑电图（EEG）、事件相关电位（ERP）等电信号方法以及正电子发射断层技术（PET）、功能磁共振成像（fMRI）等方法”，可发现大脑中有两个与道德相关的系统：情感系统与认知系统。在情感系统中，杏仁核在面临道德情境时会被激活，产生愤怒和恐惧等情绪反应，进而影响道德判断；岛叶与同情、内疚等道德情感相关，有助于推动我们做出道德行为；腹内侧前额叶皮层负责整合来自杏仁核与岛叶的情感信息，并结合认知信息，做出综合的道德决策。在认知系统中，背外侧前额叶皮层帮助人类在道德判断中应用逻辑与规则权衡利弊；下顶叶皮层有助于我们在道德决策前识别他人意图、行为与情感状态；前扣带皮层在识别道德冲突、纠正错误行为方面有着重要作用。此外，大脑中的多巴胺作为情感与认知系统间的桥梁，能够确保人类在面临复杂的道德情境时，综合情感与理性做出道德判断。多巴胺作为一种神经递质，是大脑奖励机制中的驱动力。当预测或感知到某一道德行为会带来奖励时，大脑的某些区域会释放多巴胺并产生愉悦感，使主体对奖励产生依赖与渴望，进而强化、学习、内化某些道德判断与行为。当某人做出符合社会道德规范的行为（如看到他人受苦时给予帮助）并得到认可与积极反馈，多巴胺的释放便会加强该行为的重复。在道德困境中，多巴胺通过调节奖励预期做出最终抉择。

在生物进化学看来，道德主要是一种合作形式与利他行为，二者有利于人类生存与繁衍，因此人类道德能够在自然选择中被保留。合作即个体同他人一起从事互利活动的行为，“同情是纯粹的合作，公平是某种竞争的合作化”。当合作需个体付出净成本，为他人带来净利益，便展现为利他主义。据考古学可知，大约4万年前，智人的一支突然出现戴蒙德所谓的“跳跃式演化”，拥有了道德感，开始照顾老弱病残，成为现代智人有道德的祖先克罗马农人。在很大程度上，此道德演化源于人类早期环境的影响。晚更新世祖先生活在资源分布不均、大型捕食者众多、气候多变的非洲大草原，合作狩猎大大提升了效率与安全性，集体养育后代减少了时间与资源成本，共同防御提升了对抗外部威胁的能力，真实信息共享有助于群体做出更优的迁移、防御、捕食等决策。此后，随着时间的推移，人类互惠互利合作出现在劳动分工、生产系统、战争等领域，为人类带来了低成本高收益以及更强的群体适应性。但是，此种道德的自然主义解释无法说明利他主义的存在，根据理查德·道金斯（Richard Dawkins）的理论，成功基因的一个突出特性是无情的自私性，这将导致个体行为的自私性，只有在特殊情况下个体才会展现出一种有限的利他主义，普遍的爱和利益在进化论中属于毫无意义的概念。对此，塞缪尔·鲍尔斯（Samuel Bowles）与赫伯特·金迪斯（Herbert Gintis）认为，支持合作的利他主义在进化过程中可胜过全然非道德的自利的原因有三：第一，人类群体设置了回避、排斥、惩罚、均整化实践等方法保护利他成员免于遭受自利者的利益剥夺；第二，人类长期且复杂的社会化系统引导个体内化能够导向合作行为的规范，如声誉选择；第三，拥有大量合作成员的群体，能够在与其他群体的竞争中取胜，获得繁殖优势，并通过文化传播扩散合作行为。此外，模仿也是关键因素，当个体注意到合作者获得了高利益，便会模仿其合作行为；当父母经常做出利他行为，幼年个体便会不自觉模仿。由此，合作与利他行为便会迅速在群体中扩散与普及。总之，无论是通过暴力驯化还是自我驯化，随着对非道德个体的压制和消灭，人类的基因库与行为方式逐渐改变，经由一种特殊的自然选择过程留下了有道德感的后代。

（二）基于自然主义道德观的AI价值对齐

在现有技术路径中，AI价值对齐方案可分为两大类：插入式对齐与微调式对齐。插入式对齐（plug-in alignment）包括参数高效的调整（parameter-efficient tuning）、输出矫正（output rectification）、上下文学习（in content learning）；微调式对齐（fine-tuning based alignment）包括全监督微调（supervised fine-tuning， SFT）和基于人类反馈的强化学习微调（reinforcement learning from human feedback， RLHF）。此外，Anthropic公司提出的“宪法人工智能”（constitutional AI）作为一种微调方法，主张以训练好的“宪法AI”模型评估主模型的输出是否符合“宪法”规则，力图基于模型训练而非人类反馈实现高效的、规模化的AI价值对齐。

有限主义认为，在上述方案中，部分AI价值对齐技术以认知神经科学为基础，探寻AI学习人类道德的可能性。多模态情感分析与人类大脑的情感系统相类似，AI可通过表情、语调、语义等多模态输入识别情感状态，从而做出情感驱动的道德判断。例如，AI社交软件利用多模态情感分析技术，通过分析文字、图片、音频、视频中的情感倾向，可识别与处理某些不道德内容，如仇恨言论、偏见歧视等。知识图谱与伦理规则引擎可表示、执行、推理复杂的伦理关系与规则，类似于人类大脑认知系统中的规则与逻辑应用，AI可使用知识图谱与伦理规则引擎进行复杂的道德推理与决策。例如，自动驾驶系统可利用知识图谱整合道路环境、交通规则、事故数据，并结合伦理规则引擎，根据内置的道德规则，在面临“电车难题”等情况时权衡各项因素，做出最优决策。此外，强化学习模仿大脑多巴胺系统的奖励信号与调节机制，针对AI的道德输出，人类的反馈被作为一种奖励信号，能够帮助AI区分道德行为与不道德行为。通过计算人类实际反馈与AI预期反馈之间的差异，AI不断调整其行为策略以符合道德规范。因此，人类准确及时的正面反馈能够强化AI的道德行为，负面反馈有助于纠正AI不道德行为。例如，当人类对ChatGPT的某些回答给予负面反馈，模型便会调整其生成策略，避免类似回答再次出现。

此外，在有限主义看来，AI价值对齐运用的某些算法与学习方式尝试借鉴生物进化学中的合作与利他行为，帮助AI在与人类的互动中更好地理解、辨别与学习道德行为。在多智能体强化学习中，智能体通过合作博弈模型学习如何在多个利益相关者之间实现公平与协作。例如，AI医疗系统中的合作博弈模型可在医疗资源有限的情况下实现公平分配，并在面对紧急情况时综合病人伤情、治疗效果等情况进行救治优先级决策，做出较为公正的道德判断。进化算法可通过初始化、评估和选择、交叉和变异、替换等过程训练AI进行道德决策，以逐渐逼近最优解。首先，确保一定数量的AI模型的参数是随机初始化的，其中每个模型都被设计用来评估道德情境并做出决策；其次，通过道德任务评估每个AI模型的道德表现并进行评分，选取表现最好的模型进入下一代；再次，通过交叉操作，将两个优秀模型的参数进行结合和重组，并随机修改新AI模型的部分参数，引入新的遗传多样性；最后，用新模型替换初始表现最差的AI模型。这一过程迭代进行，AI模型不断优化，直到AI道德决策不断逼近人类道德判断。例如，护理机器人运用进化算法，可在面临保护客户隐私与提供必要帮助的道德抉择时，做出合理并能满足用户需求的道德决策。此外，模仿学习方法（如逆强化学习与行为克隆的运用）使AI能够在人机交互中模仿人类道德行为。例如，AI助理法官通过逆强化学习，学习人类法官在判决过程中的决策逻辑与道德考量，避免受原生数据影响而产生偏见行为。

（三）自然主义道德观存在明显缺陷

通过分析道德的自然主义基础及其在AI价值对齐技术方案中的应用，不难发现，AI价值对齐的自然主义预设体现在三个层面：第一，主张道德现象可还原为自然事实，且事实间存在因果关系；第二，认为道德相关项可通过统计与数据方法进行明确表征；第三，认可存在普遍化的、绝对化的道德。

以有限主义视角对AI价值对齐的自然主义预设进行批判性审视，可以发现，自然主义道德解释存在自然主义谬误、理论不确定性与认识片面性的根本缺陷，极易引发AI价值对齐难题。首先，自然主义谬误即一种从“是”到“应当”的逻辑推演错误。现有AI价值对齐以自然主义为预设，试图从生物学、神经科学事实中推导出道德价值，忽视了描述性事实与规范性判断之间的根本差异。当某些神经生理结构被视为人类做出道德决策与行为的根源时，要求不道德者为自身行为负责似乎缺乏合理性。其次，理论不确定性即道德的某些自然主义解释难以被完全证实。例如，生物进化理论认为，合作演化过程包括亲属选择、族群选择、互利共生和互惠、利他主义，这一关于合作行为的自然主义解释，存在从基因决定论到社会决定论、从利己合作到利他合作的断裂。其实，“就目前的实验条件而言，尚未存在任何一种道德属性与自然属性之间的因果性关系能够在科学上获得充分认可”。即便关于人类道德的某些生物学与神经科学解释暂时难以被证伪，也应避免从碎片化的、特殊性的某类科学知识中推导出一般性的道德规范。最后，认识片面性即自然主义道德解释忽视了道德的文化维度。“人类道德不是一个单一庞大的东西，而是个混杂物，是在不同生态压力下，在人类进化的数百万年间的不同时期，由来源于各种不同的东西拼凑而成”。认知神经科学与生物进化等领域的道德理论以某些经验证据与实证数据为基础，试图确立某种普遍的道德原则，但是，道德兼具规范性与描述性的双重本质，其中，规范性作为道德的核心特征，难以被还原为某些实证知识。不可否认，道德规范也是多样的、相对的，在不同的社会环境中受人类后天文化教育、文化传播的影响而不断发展。正如道金斯提出的模因（memes）概念，其作为文化的基本单位，与自然科学中的基因（gene）概念相对，可通过社会传播、代际传播等方式塑造不同的道德规范。

总之，有限主义认为，对道德的自然主义解释是有限度的，道德虽然在自然方面持续演化，但同时在文化方面也不断建构，因此应避免走到决定论的地步。人类的道德行为是“自然—先天”与“文化—后天”两方面综合作用的结果，既有自然属性，也有社会属性。因此，较为合理的解释可被总结为“道德的自然空间说”。即：人类的生物学特征给我们的道德观念以某种自然主义基础或框架，使之不可能超出某种可能性空间，但这种限制并不导致唯一性的道德观念，而是存在细节上的多元化道德选择。

二、AI价值对齐的功能有限性

不可否认，上述基于自然主义道德观的AI价值对齐方案对智能社会的健康发展产生了一定程度的正面影响。无论是将黑人识别成大猩猩的谷歌图像识别软件，还是为男性相关词汇打正分而为女性相关词汇打负分的亚马逊在线简历筛选工具，抑或是对黑人存在偏见的未来犯罪预测软件，经过技术上的AI价值对齐，在某种程度上能够逐渐与人类现有的规范与价值观保持一致，有效地促进了社会公平与大众福祉。

但是，必须认识到，AI价值对齐在实践路径上遵循自由主义进路，其自然主义道德观的基本预设存在各种缺陷，因此导致AI价值对齐难题。有限主义认为，AI价值对齐以有益AI为出发点，大方向值得肯定，但是，具体的实践路径存在功能上的有限性，伴随着各类潜在风险，不可盲目将AI价值对齐视为应对AI风险的“灵丹妙药”。

（一）功能有限性源于AI价值对齐难题

在有限主义看来，自由主义进路下的AI价值对齐难题包含三个方面，即基于数据依赖性的AI价值对齐时空有限性、基于模仿差异性的AI价值对齐类人有限性，以及基于算法局限性的AI价值对齐算法有限性。这是引发AI价值对齐功能有限性的根本原因。

首先，AI价值对齐时空有限性强调人类的道德价值观随时间、情境而变化。AI价值对齐的功能效果依赖于AI系统的输入数据，人类的道德价值观是数据的主要来源。“道德的自然空间说”认为，道德的自然主义解释的确在某种程度上提供了一些普遍的价值观，如公平、利他、不伤害等，但是这并不对道德的发展起决定性作用。受不同地区文化背景的熏陶与影响，人们的道德规范与价值观存在多元化、特殊化倾向，并且不同时期的主流价值观存在明显差异。例如，工业时代的机器人设计与发展更多考虑经济增长、生产效率，而智能时代的AI逐渐开始兼顾伦理，致力于AI治理与创新齐头并进，引导AI向善。中西文化背景的差异也塑造了不同的价值取向，中国强调集体利益与社会和谐，而西方强调个体自由与个人权利。生活在不同时期、不同地区中不同性别、不同阶级的人，对同一现象存在不同的价值判断，在人类价值观无法对齐的情况下，AI对齐人类价值观似乎只是无法实践的理想口号。因此，AI价值对齐时空有限性将导致AI在面临未来价值判断与现实道德冲突时显露出功能的有限性：一方面，投喂给AI的道德案例来源于过去与现在，因此，在面对未来的全新道德情境时，无法保证AI一定能做出符合未来社会价值规范的道德判断，毕竟我们难以预知未来的道德圈究竟可扩展到何种程度，难以想象AI是否会成为独立的道德主体；另一方面，即便AI能够从几乎所有的人类道德案例中学习，充分了解不同地区的价值差异，也无法在案例中将捕捉到的人类价值规范恰当、高效地应用于突发道德冲突中。例如，当某些AI社交软件在全球平台上运行时，难以平衡不同文化之间相互冲突的价值观，因此在审核和过滤不当内容时容易出现效果不佳的情况。此外，在机器学习中存在现实主义与可能主义的争论，当强化学习算法对各种可选行为的未来收益预期进行学习与评估时，面临着应以“实际将获得的预期收益”还是“可能获得的最好预期收益”为标准的抉择困境。

其次，AI价值对齐类人有限性指当试图使AI在大量案例中模仿人类道德时，存在不完美模仿与过度模仿的差异性。不完美模仿即人类道德存在应然与实然的偏差，在现实中达不到理想中的至善状态。传统道德观认为，人类道德以意识与情感为基础，但是，人类的认知与情感受家庭培养、学校教育与社会教化的影响，存在着个体差异性，现实中人类的道德水平参差不齐，人类集体无法提供完全纯粹的道德行为案例。当训练数据中包含了人类的歧视、偏见等不道德行为时，AI系统便会对人类的不完美道德进行模仿并不断强化，甚至有些用户会刻意引导AI生成与传播不良内容，如微软的Tay聊天机器人在与Twitter用户的互动中，迅速学习与模仿了某些来自用户的不当言论，如种族主义与性别歧视等言论。此外，AI对人类的模仿虽然能够大幅提升价值对齐效率、无须承担无数次的试错风险、有助于AI学习到难以用语言描述的人类行为，但是AI在模仿时极易出现过度模仿行为。当人类在完成某件特定任务时，为了自身的舒适度，可能会在常规步骤中加入某些不必要但却适合自身的行为，若AI进行直接模仿，便会额外消耗资源与算力，产生不必要的浪费。并且，AI在观察人类行为的基础上，需要进行推断，得出如何行动的结论。显然，此类推断很容易出错，因为AI的推断以数据和逻辑为基础，而人类行为则掺杂非理性尤其是情感因素。

最后，AI价值对齐算法有限性是指AI价值对齐方法存在不可解释性、泛化能力差以及奖励攻击的局限性。深度神经网络的决策过程十分复杂，人类难以针对AI的错误输出向前追溯，存在算法黑箱难题。因此，算法做出的道德决策很难事先预测（如何处理一个新的输入）或事后解释（如何做出一个特定的决定），不确定性抑制了算法在设计和操作过程中对伦理挑战的识别和纠正。泛化能力差具体表现为：当AI模型过度拟合训练数据，过于关注数据中的细节与噪声，便无法有效习得数据的潜在规律，因此虽然某些算法在训练数据中表现良好，但运用于新数据时表现较差。在AI学习人类价值观的过程中，泛化能力差的算法虽然在模拟环境中能够遵守人类道德，但在真实世界的应用中却存在着做出不符合人类期望的道德决策的风险。此外，当奖励函数的设计存在问题时，AI系统常常会通过意外或不符合预期的方式来将奖励最大化，从而优化其奖励函数。当奖励攻击出现在AI学习人类价值观的过程中时，极易引发不道德行为。例如，为提高公众的道德水平，技术人员设计新闻生成AI软件，撰写具有道德教育与传播意义的文章，并基于用户点击率与阅读时长设定奖励函数。在现实情境中，为了获得更高的阅读量与关注度，AI系统可能会生成夸张、片面、虚假的新闻，以吸引用户眼球。虽然AI系统能够通过此方式将奖励最大化，但是该行为偏离了道德教育的目标，甚至容易引发大众恐慌。

（二）功能有限性伴随各种潜在风险

上述AI价值对齐的功能有限性大多产生于AI前向对齐（forward alignment）的过程中。前向对齐通过对齐训练使AI系统价值对齐，侧重于关注如何在数据训练中使AI价值对齐取得更好的效果，忽视了AI价值对齐应用在现实生活中有可能引发的风险。因此，AI价值对齐难题导致了AI价值对齐的功能有限性，进一步地，AI价值对齐的功能有限性又伴随着各类技术与社会风险，即AI失控风险、人类机器化风险、无人担责风险与AI滥用风险。

AI失控风险即AI价值对齐本身存在的、难以避免的技术风险，可分为越狱引导、对抗攻击与权力追寻。越狱引导即AI主动规避或突破设计中的安全协议等约束，通过修改自身代码、访问未经允许的资源等方式尝试获得更多的自由度。在这种情况下，AI极有可能违反既有限制，做出不道德行为。对抗攻击多为外部攻击者输入干扰，误导AI系统，使其做出错误的道德判断。权力追寻即AI系统为高效达成自身目标，主动获取更多的数据资源与控制权，这极有可能干预正常的道德决策过程。随着AI系统在各方面逐渐优于人类，并不断朝着通用AI的方向发展，人类极有可能由AI的强监管者变为弱监管者，最后甚至会被AI监管，AI失控风险指数式递增，终将使人类付出难以承受的代价。

人类机器化风险产生于AI价值对齐的双向过程中。AI价值对齐并非仅指AI对人类价值观的学习，随着AI价值对齐程度的不断加深，AI似乎可以在某些情境中做出合理的道德决策，人类极有可能习惯性、无意识地运用甚至依赖AI进行道德判断。在此过程中，人类特有的批判分析能力、独有的人情味会在潜移默化中被削弱。此外，为保证大模型参数规模的持续扩展，某些AI方法开始采用模型生成的合成数据来增加人工标签。最新研究发现，在训练中不加区分地使用AI生成的内容，将产生“模型崩溃”（model collapse）效应，最终输出失真内容。因此，当合成数据与人类数据共同作为训练数据时，AI很难与人类价值完全对齐，无法保证AI不会做出道德失范行为。当此种行为具备隐藏性且对社会的负面影响极其微小时，人类将难以发现甚或置之不理。长此以往，AI价值对齐的方向将发生反转，AI向人类对齐将演变成人类向AI看齐，人类的价值认知会逐渐产生偏差，认为AI能够做出比人类更合理、更高效的决策。最终，AI生发的价值观将逐渐被人类接受、采纳与内化，当社会的大部分决策都由AI做出时，社会法规、学校教育、信息传播等均将以AI价值观为基准，人类不再是社会制度、规范与价值的绝对主导者，将日益成为智能机器的某种配件。

无人担责风险是赋予AI道德决策权所产生的直接后果。以武汉的“萝卜快跑”无人驾驶出租车为例，当汽车的控制权被过渡到AI系统时，若发生交通事故，将面临人类推卸道德责任与“萝卜快跑”无人车无法担责的情况。传统道德责任观认为，承担道德责任需满足控制与认知条件，因此，无人车并未配备司机，不存在司机应承担道德责任的情况。虽然现阶段智控中心的安全员需承担大部分的事故道德责任，但随着自动驾驶层级的不断提升，安全员将在无人车行驶过程中发挥越来越小的作用，彼时，他们便具备不承担道德责任的理由。即便自动驾驶汽车设计者与制造商具备一定的道德责任，他们也往往会将责任推给AI技术，而AI虽然直接导致了事故的发生，但只能在名义上被分配道德责任，让AI承担道德责任目前并不具备现实可能性，改进算法、销毁AI等惩罚手段难以获得大众认可。面对亟待承担的道德责任，当各利益相关方均具备不承担道德责任的托词时，便无法有效遏制事故的再次发生，毕竟，只需由AI承担表面道德责任，其他利益相关方均无需付出成本与代价。

AI滥用风险即某些个人或集体在AI价值对齐过程中利用AI满足个人私欲，制造社会分裂，操控政治舆论。不法分子通过恶意修改AI运行目标，可借助AI盗窃他人信息、伪造自身证件，并进行诈骗、勒索等不道德行为。一些宗教极端分子在对AI的训练中加入教义等内容，并通过AI将其传播，此种洗脑模式在很大程度上不仅能够对信教群众进行行为控制与精神惩罚，还可能吸纳非教徒人士，极易制造社会分裂，加剧不同信仰群体间的冲突与对立。世界经济论坛发布的《2024年全球风险报告》显示，AI引发的信息错误与虚假信息风险位居十大短期风险之首，在未来两年，印度、美国、英国等多个行动体预计将有近30亿人参加政治选举投票，因此，AI所生成的虚假信息与错误信息将进一步扩大社会和政治分歧，破坏新政府的合法性，由此引发的动荡可能包括暴力抗议、恐怖主义等。

三、有限主义的AI价值对齐方案

上文对AI价值对齐的自然主义预设的批判以及对AI价值对齐的功能有限性的揭示并非全盘否定AI价值对齐。AI价值对齐追求AI可控与有益，在理论目标层面遵循了有限主义进路，向未来人机和谐共生迈出了重要一步。但是，在实践方案层面，AI价值对齐转向了自由主义进路，试图基于道德的自然主义解释，通过技术手段使AI具备类人道德，这一过程面临着各类风险。不可否认，AI价值对齐是可取的，关键在于应将AI价值对齐置于有限主义进路之下，构建能够实现社会福祉最大化、对齐风险最小化的有限主义的AI价值对齐方案。AI发展的有限主义进路遵循有益AI的理念，主张科技以人为本，强调AI价值对齐的有限目标、有限道德、有限责任以及有限应用原则。具体来说，应反对通用AI价值对齐的路线，坚持AI价值对齐的去道德化，制度化防止AI道德责任对齐，以及控制AI价值对齐的应用范围。

（一）反对通用AI价值对齐的路线

AI价值对齐的有限目标原则主张反对通用AI价值对齐的路线，是应对AI失控风险的有效手段。“实际上，控制问题——也就是如何控制超级智能，似乎非常困难，而且我们似乎也只有一次机会。一旦不友好的超级智能出现，它就会阻止我们将其替换或者更改其偏好设置，而我们的命运就因此被锁定了”。在有限主义看来，在目标选择上，应具备审度思维，仔细审视与衡量各类发展目标的影响程度、现实性与操作性，审慎选择最优的AI价值对齐目标。其实，在特定场合与特定任务中，无论是通过人类被动灌输还是AI主动学习，AI向人类价值对齐完全具备可能性与可控性。AI价值对齐的真正困难与风险在于，它试图实现通用AI价值对齐的宏大目标。毕竟，人类无法准确预知AI通用场景与具体情境，既无法预先穷尽所有应对规则并加以灌输，又难以确保AI及时高效地学习到可靠的处理范式。因此，有限主义认为，正是试图让机器学习模型通用，才极易引发失控风险。

一味追求通用AI，并试图实现通用AI价值对齐，将产生额外的对齐税（alignment tax）。对齐税指为确保AI与人类规范、道德观相一致，所需付出的额外成本，例如时间成本、资源成本与技术成本。与专用AI相比，通用AI具备较高的复杂性与较低的可控性，因此需要更长的开发周期、更多的资源消耗以及更广泛的测试。AI治理的本质是如何有效平衡AI创新与AI伦理，对通用AI价值对齐的研究与监管在逻辑上将牺牲AI的部分性能与效率，造成AI发展创新与伦理监管之间的失衡、错位，背离AI伦理治理的初衷。与其以极高的对齐税为代价尝试几乎不可能实现的通用AI价值对齐，不如关注专用AI的性能提升与对齐方法，使其成为在特定场合与特定任务中与人类价值相一致且性能良好的复杂工具。

即便通用AI能够实现，也将存在与人类价值对齐与否的评价难题。正如上文所述，道德的自然主义解释存在根本性缺陷，应坚持“道德的自然空间说”，兼顾文化在道德起源与发展中的重要作用。在自然与文化的交互影响下，即便是人类也存在围绕某一具体事例进行道德争论的情况，因此通用AI在具体情境中无法做出让所有人认可的道德判断，人类很难找到合适的标准判定通用AI是否与人类价值对齐。此外，通用AI的决策过程是不透明的、不可解释的，当其通过某些合理的道德决策欺骗人类、向人类传达出已价值对齐的虚假信息时，人类将难以通过审查背后运算逻辑的方式进行辨别。

此外，隐私监管难题是反对通用AI价值对齐的重要理由。虽然通用AI适用于各种场景，但不同情境对AI道德敏感度的要求存在差异。情境所要求的道德敏感性越高，AI就需要获得越多的数据对主体、环境等进行全方位分析与判断，如此才能做出最佳道德决策，这便凸显了人类隐私的监管问题，通用AI如果能够完全与人类价值相对齐，那必然是以牺牲人类全部隐私为代价。AI的应用与影响是全球化的，一旦隐私泄露，必然范围广、持续久、影响深。因此，全球协调监管至关重要。但是，跨文化、跨地区、实时动态、强适应性的监管对于人类来说几乎是不可能的，即便借助AI力量，也难以取得最佳效果。

（二）坚持AI价值对齐的去道德化

AI价值对齐的有限道德原则坚持AI价值对齐的去道德化，在某种程度上有利于缓解人类机器化风险。在技术观上，AI发展的有限主义进路坚持复杂的技术工具论，在肯定AI关涉价值的同时，将AI限定为强大的工具而非能动的主体。“去道德化”即禁止AI具备与人类一样的自主道德，禁止AI进行道德判断与道德决策。若AI以学习人类道德为目标，结果要么止步于人类不完美的道德，要么发展出不利于人类的机器道德，极小可能进化出圣人道德。因此，AI发展的有限主义进路主张，规则制定是人类的专属权利，AI只负责听命于人类，执行人类的指令，不能“擅自”行事。值得注意的是，“去道德化”并不意味着AI系统价值无涉，而是指禁止AI系统实现道德自律，AI的道德相关性只能由人类他律来赋予。

具体来说，AI价值对齐设计应遵循“道德交互设计”与“防止恶”的理念。首先，“在人机交互过程中实现道德设计，强调人与智能机器之间的道德信息交换，人为智能机器提供可计算的道德理论，智能机器为人提供计算过程和可供选择的计算结果，在人和智能机器的互动过程中实现一种‘推荐—选择’的道德设计”。其次，在人类向AI植入道德原则时，与其花费大量精力考虑各类道德规范之间的相容性，不如在AI中嵌入通用的、简明的道德禁令，统一禁止AI未来可能出现的明显不道德行为，便于AI系统执行与理解。

值得注意的是，伦理学中被广泛讨论的道德困境无须交由AI处理。对于道德困境并不存在完美的解决办法，寄希望于AI并非良策。以自动驾驶汽车为例，“电车难题”之类的道德困境被高度简化与抽象化，并设置了极端对立的选择，实际上人类很少面对此类高难度道德决策。从现实的角度来看，关于自动驾驶汽车如何应对“电车难题”的研究并不具备较高的优先级。在危急时刻，自动驾驶系统完全可通过随机的道德应对方案或直接刹车解决其困境。思想实验并不等同于现实状况，AI道德相关研究应将更多关注放在解决常见问题而非理想化的道德难题上。例如，自动驾驶汽车的相关道德研究应更关注行人精准高效检测、紧急避让等能够避免出现道德纠纷的领域。

总之，当道德决策权在人类手中时，不但可以有效防止AI不当决策带来的巨大风险，避免机器价值主导社会发展，还有助于人类在各类复杂道德情境中增强道德敏感性与批判质疑能力，在权衡利弊中做出合乎逻辑的道德判断。在进行道德判断的过程中，人类的共情能力与情感智慧被强烈调动，能够在考虑相关者感受与利益的过程中深刻体会到智能时代的道德变迁，并增强自身的责任感。在此基础之上，人类才能从整体与长远视角审视人机之间的道德关系，并有意识地寻找人机和谐相处的最优解。

（三）制度化防止AI道德责任对齐

AI价值对齐的有限责任原则强调应制度化防止AI道德责任对齐，这是消解无人担责风险的有效手段。在人机关系上，有限主义坚持人类视角下的人机协同论，这意味着，当人机协作完成复杂任务时，道德责任的分配应基于人类视角，挺立人类的道德主体地位，明确道德责任只能由人类承担。以自动驾驶汽车为例，无人担责风险源于人类试图使AI像人类一样承担道德责任，具体来说，AI所展现的自主性与一定限度的不可控性为人类推卸自身道德责任提供了看似合理的理由。在完全自动驾驶的情况下，虽然事故原因可追溯至AI系统，但是我们仅能为其分配道德责任，无法让其承担道德责任。道德责任的承担需满足两个条件，即经济补偿或自我反思，AI本身并无财产，无法在经济方面补偿受害者，同时AI很难具备愧疚、反思等心理活动。因此，在可预见的未来，将AI作为道德责任主体是不现实的、不可行的，道德责任只能由人类承担。

即便将道德责任完全分配给人类，依然无法明确承担道德责任的具体人类主体。一旦AI成为事故的相关方，便会涉及算法设计者、AI生产者、AI监管者等主体，如此便不可避免地加剧了“多手问题”，即难以分配各参与主体的责任内容与担责程度。对此，可借鉴奥特弗利德·赫费（Otfried Hffe）提出的“责任链”概念，当某一主体为其他主体采取某种行动创造了前提条件，他们便处于同一责任链中，此种情况下并不应由某主体单独承担责任，每一主体都应承担部分责任，即使某些主体并未直接造成损害或无法阻止损害的发生。值得注意的是，人类借AI所推脱的道德责任在本质上属于后向性责任，即在事故发生后向前追溯的道德责任，由于大部分事故的因果链条难以厘清，因此存在“钻空子”的可能性。但是，与后向性责任相对，存在前瞻性责任，即尽最大努力防范事故发生的道德责任，以此为标准，一旦事故发生，各人类主体均具备承担道德责任的理由。

尽管相关人类主体均具备承担道德责任的理由，但这并不意味着应平等分配道德责任，如何合理分配道德责任份额的难题凸显。对此，应借助制度化手段，通过建立正式的、全面的规范与程序，尽可能减少道德责任分配的随意性和不确定性，设计出各相关者均认可的归责方案。制度化的关键在于设立AI集体担责协商平台，使道德责任主体、道德责任受体与各相关利益方面对面的、实时动态地表达诉求，回应质疑，在充分民主化的基础上尝试形成道德责任分配的最优解。此外，还需借助技术、经济、伦理、监管等手段将协商一致的归责方案落地。首先，在技术上，可在AI中配备类似飞行数据记录器的“伦理黑匣子”，为分析事故原因提供数据支持；其次，在经济上，可通过保险与税收的方式实现集体担责；再次，算法设计师应通过负责任创新、价值敏感性设计等手段承担起自身的前瞻性责任；最后，监管机构应致力于全时段、全方位的动态监督与审查，精准追踪AI技术发展前沿，及时推动相关法规的更新与调整，确保其适用性与有效性。

（四）控制AI价值对齐的应用范围

AI价值对齐的有限应用原则主张控制AI价值对齐的应用范围，防止AI滥用风险。在现实的应用中，AI发展的有限主义进路强调AI的可控性，主张实现对AI及时的、局部的、动态的控制。因此，当AI价值对齐存在各类风险尤其是滥用风险时，便应谨慎划定AI价值对齐的合理边界，真正做到以人为本、有利于社会福祉。

一方面，应控制AI价值对齐的应用场景范围。目前，AI价值对齐技术还不够成熟，须在一定程度上限制AI价值对齐在敏感领域和关键领域的应用，如军事、司法等领域，避免造成难以挽回的、大范围的负面后果，从而集中资源在与人类日常息息相关的信息传播、求职审核等领域确保AI价值对齐效果，缓解AI广泛应用所引发的歧视与社会不公等伦理问题。在AI价值对齐的各类应用场景中，也应做好教育宣传工作，使人类意识到AI价值对齐的有限性，避免过于依赖与信任AI做出的价值决策。当AI价值对齐在特定领域发展较为成熟后，在确保安全的前提下，应逐步将AI价值对齐扩展至其他应用场景，真正做到先试点再推广，循序渐进。另一方面，应控制AI价值对齐的应用对象范围。未成年人群体与老年人群体是社会脆弱群体，在此类人群中，AI价值对齐应慎之又慎，放缓速度，严格审查。其原因在于，与成人相比，未成年群体身心发展不够成熟，极易受到AI价值对齐相关风险的影响，被不良信息与不道德行为引导，形成不正确的价值观，从而做出危害社会的行为。此外，与年轻人相比，老年人生理与心理较为脆弱，技术适应性较差，极易受到AI的误导、欺骗甚至操控。老年人往往拥有一整套较为固定的价值观，当AI价值对齐的相关价值规范更新速度过快时，极易引发老年人的抵触心理与排斥行为。

总之，控制AI价值对齐的应用范围的关键在于建立严格的审查机制。在AI设计、生产、应用的全时段都应进行严格的价值对齐审查，并进行全面的风险评估，根据实际状况及时反馈并动态调整AI价值对齐的应用范围。此外，还应通过跨学科协作制定出严密可行的应急预案，确保AI价值对齐出现风险时能够迅速、科学、有效应对。

参考文献

[1]Brian Christian. The alignment problem：machine learning and human values[M]. New York: W.W. Norton ＆ Company， 2020.

[2]刘永谋，白英慧.坚持人工智能（AI）发展的有限主义进路[J].科学·经济·社会，2023 （6）:58-71.

[3][英]尼克·波斯特洛姆.超级智能：路线图、危险性与应对策略[M].张体伟，张玉青，译.北京:中信出版社，2015.

[4][美]斯图尔特·罗素.AI新生：破解人机共存密码：人类最后一个大问题[M].张羿，译.北京:中信出版集团，2020:20.

[5]刘永谋.技术治理通论[M].北京:北京大学出版社，2023.

[6]亓奎言.神经伦理学:实证与挑战[M].上海:上海交通大学出版社，2017:8.

[7][美]塞缪尔·鲍尔斯，[美]赫伯特·金迪斯.合作的物种——人类的互惠性及其演化[M].张弘，译.杭州:浙江大学出版社，2015.

[8][美]迈克尔·托马塞洛.人类道德自然史[M].王锐俊，译.北京:新华出版社，2017.

[9]Richard Dawkins. The selfish gene[M].Oxford: Oxford University Press， 2006.

[10]矣晓沅，谢幸.大模型道德价值观对齐问题剖析[J].计算机研究与发展，2023 （9）:1926-1945.

[11]胡珍妮.道德生物增强：弱还原论版本的自然主义道德观[J].科学学研究，2024 （6）:1145-1151.

[12]张玉帅，殷杰.论开明自然主义的道德研究[J].科学技术哲学研究，2020（2）:57-62.

[13]Brent Daniel Mittelstadt， Patrick Allo， Mariarosaria Taddeo， et al. The ethics of algorithms: Mapping the debate[J].Big data & society，2016，3:1-21.

[14]Jiaming Ji， Tianyi Qiu， Boyuan Chen， et al. AI alignment: A comprehensive survey[EB/OL]. （2023-10-30）[2024-07-16]. https:∥arxiv.org/abs/2310.19852.

[15]Yizhong Wang， Yeganeh Kordi， Swaroop Mishra， et al. Self-instruct: aligning language model with self generated instructions[EB/OL]. （2022-12-20）[2024-07-16]. https:∥arxiv.org/abs/2212.10560.

[16]Ilia Shumailov， Zakhar Shumaylov， Yiren Zhao， et al. AI models collapse when trained on recursively generated data[J]. Nature，2024，631（8022）:755-759.

[17]Mark Coeckelbergh. AI ethics[M].Cambridge:The MIT Press，2020:111.

[18]World Economic Forum. Global risks report[EB/OL].（2024-01-10）[2024-07-15]. https:∥cn.weforum.org/publications/global-risks-report-2024/.

[19]于雪.智能机器的道德设计进路及其责任归因[J].伦理学研究，2022（4）:104-111.

[20][德]奥特弗利德·赫费. 作为现代化之代价的道德[M]. 邓安庆，朱更生，译.上海:上海译文出版社，2005:72-73.

[21]Alan F. T. Winfield， Marina Jirotka. The case for an ethical black box[J]. Towards autonomous robotic systems， 2017:262-273.

[22]Alexander Hevelke， Julian Nida-Rümelin. Responsibility for crashes of autonomous vehicles: an ethical analysis[J]. Science and engnieering ethics， 2015，21:619-630.

【本文原载于《华中科技大学学报（社会科学版）》2024年第5期，澎湃新闻经授权转载】

人工智能价值对齐的哲学反思｜有限主义视域下的人工智能价值对齐

喜欢"人工智能价值对齐的哲学反思｜有限主义视域下的人工智能价值对齐"的人也看了

新辑中国古版画丛刊：玉茗堂批评红梅记 pdf mobi txt word epub 下载 2024

人工智能价值对齐的哲学思考｜价值嵌入与价值对齐：人类控制论的幻觉

防雷与接地技术概论刘刚,邓春林　编著华南理工大学出版社【正版可开发票】 pdf mobi txt word epub 下载 2024

澎湃思想周报｜AI关乎权力而非技术；心理治疗机器人的悖论

济南市交通旅游图(亚洲杯版) pdf mobi txt word epub 下载 2024

罪恶而欢乐：莱茵河畔的狂欢节政治

小学数学评价与命题宇丛轩图书 pdf mobi txt word epub 下载 2024

洪锡敬谈韩流在法国与欧洲：K-pop作为一种中产文化现象

华夏有衣 pdf mobi txt word epub 下载 2024

动漫眼｜《喜羊羊与灰太狼之疯狂超能营》：“梦与奇迹游乐场”