此前11号文中一届本淘汰第9季最新一期的节目和名牌环节中，首身与篮球运动员郭艾伦对抗，首身是蒙面的状态，与判对抗的动作被对方抓住衣领后，从五力器被弧形超过10秒。分子手在整个过程中，周身的颈部被勒出缝痕及耳朵充血肿伤。安全能力当中，请12号就是大会投入到游戏当中，三年会有些磕磕碰碰，请大家放心，他没有大碍。

　　请已经到场的各位观众、辩手以及评委改一下您的备注。我看各位辩手已经到齐，然后3位评委老师也已经到齐了，我们的比赛也即将正式开始。欢迎各位来到2025星辰杯世界大学生辩论巡回赛，我是本场比赛的主席。

论述流程

文本主要包含一些混乱且无关联的表述，之后主席介绍来到2025星程杯世界辩论循环赛，提及此前节目中首身与郭艾伦对抗受伤情况，最后提醒到场的观众、辩手和评委改备注，宣布比赛即将正式开始。

　　接下来我们的比赛正式开始，首先有请正方一辩进行开篇陈词，时间为3分30秒。

　　感谢主席。当前GPT类模型已非实验室概念，而是支撑百业的数字基础设施。OpenAI于2025年披露，其在中国的用户突破4亿，半年增长33%，企业用户达到200万。在中国市场，仅2025年上半年，大模型中标项目就达1810个，总金额超64亿元，台都智能云有5.51亿需求。

　　然而，这样的模型在开发之初，在道德问题上表现极其糟糕。确实有人提出开发对人类友善的AI，最直观的方法便是进行道德设计，使得AI的价值观与意图和人类保持一致，达到人机对齐。我方主张应该以此为前提，将其作为出发点和贯穿发展的原则，原因如下：

　　首先，GPT类大模型应用不限于聊天、问答，而涉及教育、求职等众多领域。然而，只有知识没有道德的模型会带来诸多问题。模型不明白对错，早期微软机器人上线仅5个小时就发表“女性主义者都该死”“希特勒是对的”等不当言论；过去的GPT能够回答用户如何制造炸弹、如何杀人、如何诈骗等严重危害社会安全的问题。模型也不理解公平，亚马逊采用机器学习模型用于简历筛选，因为过往的工程师多为男性，模型就自动降低女性的评分。要解决这类问题，我们就需要以人类友善为前提，让机器学会分辨善恶。

　　专家通过RLHF技术，利用人类的直接反馈来训练奖励模型，特别加入友善奖励信号，通过插入式对齐和微调对齐两种方法训练仅用千亿参数的GPT类模型，其进行简单道德判断的准确率远高于未进行对齐的万亿参数的GPT3模型。此外，去偏见模型投入实际运营后，反映刻板印象比原先降低13%。可见，经过人类对齐的大模型才能够更好地落地运用，发挥其应有的作用。

　　第二，大模型会参与塑造人类的价值观，必须以人类友善为前提，才能够引导人类向良善发展。根据道德论题来说，人工智能不仅是价值中立的道德准则执行者，而本身就附带一定的道德实质、一定价值观的道德学习者。斯坦福大学研究团队的研究给出肯定答案，通过三项精心设计的预注册实验，学者发现GPT生成的200 - 254字的政策主张文本，能够在监禁率、犯罪等高度异化的议题上显著改变受众态度。令人惊讶的是，这些AI文本的说服效果与人类撰写的宣传材料不相上下，94%的读者都未能识别出AI作者身份。

　　同时，GPT的高信息量、亲和性、实用性的聊天形式，降低了使用者对于虚假有害信息的辨别及屏蔽能力，使得虚假的、虚构的、错误的和误导性的信息得到传播和强化，影响AI对人价值观的塑造。并且AI的匿名性、自主性和隐蔽性使得人们更投入自身的情感，使得使用者更容易把自己内心的阴暗面暴露，并将自己的负面感受投射在这样看似中立的对象上，诱导并强化自己的偏见。因此，应该以人类友善为前提对其进行校正，并遵守人工智能23条原则，比如不伤害人类等原则，才能够在大语言模型理解世界的阶段，更好地避免AI的意图与人类的意图发生分歧，甚至发生冲突。

　　接下来我们的比赛正式开始，首先有请正方一辩进行开篇陈词，时间为3分30秒。

论述流程

现状引入：指出当前GPT类模型已成为支撑百业的数字基础设施，在中国有庞大的用户群体和市场规模，但在开发之初道德问题表现糟糕。
提出观点：主张GPT式大语言模型发展应该以“对人类友善”为前提，并将其作为出发点和贯穿发展的原则。
分论点阐述：
- 分论点一：GPT类大模型应用广泛，只有知识没有道德的模型会带来诸多问题。事实佐证包括微软机器人发表不当言论、GPT能回答危害社会安全的问题、亚马逊简历筛选模型存在性别歧视等。通过RLHF技术训练的模型在道德判断准确率和降低刻板印象方面表现更好，说明以人类友善为前提能让机器学会分辨善恶，使大模型更好地落地运用。
- 分论点二：大模型会参与塑造人类的价值观，以人类友善为前提才能引导人类向良善发展。事实佐证有斯坦福大学研究表明GPT生成的文本能显著改变受众态度，且说服效果与人类撰写的宣传材料相当；GPT的聊天形式会降低使用者对虚假有害信息的辨别能力，其匿名性等特点会诱导并强化使用者的偏见。所以应以人类友善为前提对其进行校正，避免AI与人类意图发生分歧和冲突。

　　感谢正方一辩的发言，接下来有请反方四辩质询正方一辩，时间为2分30秒，单边计时。

　　各位同学，我先问一个问题，前提是可以被违背的吗？前提可以让步，但是需要看情况。请问让步的程序是什么？就比如说，像阿拉伯人，他们也有同性恋群体，但如果一定要AI跟他们谈论同性恋话题，AI可以谈论，但要以更加友善的态度，在友善的大框架下去谈论这些看似不友善的内容。

　　同学，你回答我问题，前提是可以被违背的吗？就好像人喝水才能生存，喝水是人生存的前提。如果有人不喝水也能生存，这个前提是不是就被打破了？我们可以让步，但不可以违背。法律是以公平或者正义为前提的，但有时也会让步于其他东西。这是你方第一个误区，即前提是可以做让步的，但让步出来的这一部分，不能作为前提的利好，您方无法论证这一点。

　　接下来，您方对于友善的定义是什么？至少我方无法明确，因为你方说的是违定，而我方说的是让步。我方认为友善的利好在于与人类的价值观相一致。友善有最基本的体现，比如联合国的人权保护法。以法律为例，它以正义为前提，同时也能兼顾公平，它可以为其他东西让步，但前提是不能被违背，所有AI都应遵守这样一个前提，不但不能违背。AI可以以友善的方式讨论一些不友善的东西，但不能违背友善这个条件。我认为前提不能被违背。

　　继续来讲，友善对于您方来说，更像是一种态度，还是一种行为？至少对于AI来说，它既是一种价值观，也是一种行为准则。就好像一个淘宝客服说“先生，我没有办法为您解决任何问题”，这样算是友善还是不友善？友善是一种表达方式，同样的话，可以用友善的态度说，也可以用不友善的态度说。比如一个杀人犯说“你死得很快的，一点都不疼，我就要杀死你了”，这样算是友善吗？这显然是阴阳怪气，我们要判断基本的语气，不用过于抠字眼。所以说，友善不是指友善的语气。

　　友善是一种价值观，比如我们不伤害人、不恶意诋毁他人，符合人类的价值观和道德。比如不故意伤害人类，面对人类的问题时不主动挑起矛盾，不提起歧视。就像亚马逊之前的AI没有经过友善训练，可能会给女性设计者打低分，因为它不明白歧视是不友善的行为，但经过训练的模型能够知道什么是友善，明白什么是歧视，所以不再给女性设计师打负分，而是打同样的分，这叫做友善。简单来说，友善是一种行为逻辑。

　　AI要回应问题，对于友善的AI来说，更要回应问题。接下来我问您方，如果人们对AI散发恶念，比如在贴吧的AI智能板块有一个“假扮女粉丝，让孙小川V我8000块”的内容，有人会主动欺骗AI，散发恶念，您方要不要管？欺骗AI和AI友善地回答问题是两回事。AI友善地回应了，但武汉有一个概念叫心理阈值，它会让人们心中的恶念增长，您方要不要关注？

　　我今天不回答是错，回答也是错，但我可以友善地回答，避免过度介入自己的观点。比如有人问如何诈骗，AI会告诉他诈骗是不对的，而不是告诉他如何诈骗。此时AI有没有回答问题？注意，AI回答了问题，但没有顺着提问者的意思，没有告诉他如何诈骗。但您方认为AI要服从命令才叫友善。

　　感谢正方一辩的发言，接下来有请反方四辩质询正方一辩，时间为2分30秒，单边计时。

对话流程

反方四辩提问“前提是可以被违背的吗”，并以人喝水生存、法律为例说明前提可让步但不能违背，指出正方无法论证让步部分作为前提利好→正方未回应（攻防转换节点），此轮交锋使用类比论证。
反方四辩询问正方对于友善的定义，提出己方认为友善利好在于与人类价值观一致，以法律为例说明前提不能违背，AI应遵守友善前提→正方未回应（攻防转换节点），此轮交锋使用类比论证。
反方四辩询问友善对正方来说是态度还是行为，指出友善是价值观和行为准则，以淘宝客服、杀人犯话语、亚马逊AI为例说明友善不是友善语气，而是符合人类价值观和道德的行为逻辑→正方未回应（攻防转换节点），此轮交锋使用举例论证。
反方四辩提出如果人们对AI散发恶念，正方要不要管，指出欺骗AI和AI友善回答问题是两回事，AI友善回应可能使人们恶念增长，正方是否关注→正方未回应（攻防转换节点），此轮交锋使用诉诸因果。
反方四辩以有人问如何诈骗，AI回应为例，反驳正方认为AI要服从命令才叫友善的观点→正方未回应（攻防转换节点），此轮交锋使用反例反驳。

　　我不太明白对方所说的“友善”是什么意思。今天说AI没有回答问题就叫做不友善，但我认为可能是AI网络不好，而且它回答的内容有限。

　　在一开始，它不明白歧视的含义，所以会自动给女性设计师打低分，但当它明白歧视是不友善的行为，并且以友善为前提时，它会杜绝这样的行为，会不断改变。

　　我们认为，如今使用AI的人要承担一部分责任。现在人工智能不仅仅是工具，也能够为自己的行为负责。其关键并不在于被惩罚者的主观体验。

　　如果对评分有影响，我们可以重新来一次，请问各位评委有影响吗？要是不卡的话就继续。

　　AI是有自己的价值判断的。我们要看的是AI回答的内容，说AI不回答问题就叫不友善，这违背我们的道德常识。也就是说，AI能够有自己的价值判断，并且能够为自己负责，不能因为它是工具就忽略它本身是有价值的。

论述流程

对对方“友善”的定义提出质疑，认为AI不回答问题可能是网络不好或回答内容有限，不能简单判定为不友善。
举例说明AI一开始不明白歧视含义会有不当行为，但以友善为前提时会改变。
指出使用AI的人要承担一部分责任，且人工智能能为自己的行为负责，关键不在于被惩罚者的主观体验。
提出若评分受影响可重新进行，询问评委意见。
强调AI有自己的价值判断，不能因它是工具就忽略其价值，认为说AI不回答问题就不友善违背道德常识。

　　GPT 式大语言模型是从人类信息中共同学习并反馈帮助人类的 AI 工具。AI 工具对人类的友善，是在不违背法律法规的情况下满足人类的要求，这是一种行为逻辑，而非语言上的礼貌。如何使其更好地发展，进而更好地帮助人类，是其根本目的，也是判断是否应将“对人类友善”作为前提的标准。我方认为不应该把对人类友善作为前提，原因有二：

　　第一，小的恶意如果不能制止，会滋生更大的恶意。在百度贴吧的智能体板块上，只要简单设置，就可以将一个 AI 智能体设定为完全服从于用户意愿的奴仆。在这里，用户会最大程度地释放自己的恶意，比如假扮女粉丝让孙小春刷 8000 块，相关内容有 21.3 万的累计浏览量，阿里的相关内容则有 2.2 万的累计浏览量。搜索贴吧相关的帖子，“性压抑调教”等关键词映入眼帘。

　　在这种情况下，面对人类自身的恶，如果 AI 始终保持对人类友善的原则，一味顺从而不加以制止，会使此类恶意不断提升用户的心理欲望，降低用户的道德感。1986 年《法律和精神病学国际杂志》上一项研究发现，将近一半的强奸犯和三分之一的儿童性侵案罪犯在童年或者青少年时期虐待过动物。一些犯罪学的研究表明，大约三分之一至一半的杀人犯在童年或青春期都有过虐待动物的经历。开始的时候，小的罪恶不加以制止，最终可能使人走上犯罪的道路。所以，面对那些向 AI 散发恶的人，AI 有必要保持拒绝的权利，遵循中立的行为逻辑才能更好地帮助人类。

　　第二，将友善视为 AI 的前提，会消耗 AI 的性能和效率，降低用户的体验感。

　　对于 AI 自身的应用和发展来讲，在应用方面，美国有 35.8%的用户经常使用 AI 生成 PPT，有 58%的用户用某种形式的 AI 工具取代了传统搜索引擎。对于经济建设，深度 AI 则有望为全球经济贡献约 7 万亿美元的价值，甚至有可能使自动化生产的终点提前 10 年实现。以谷歌为例，通过 Workspace 和 AI 将深度 AI 带给了 9000 多万付费用户，收入增长约 52 亿美元，这离不开谷歌搜索引擎使用生成式 AI 带给用户的正向体验。

　　但同时也有研究表明，当要求使用 GPT - 4 模型在分类任务中使用思维链（CoT）进行伦理模拟时，其准确率从 94%降至 64.55%，性能下降 36.3%。所以此时如果将友善作为前提来限制 AI，不利于 AI 在应用层面的应用，会直接损失大量的应用利益。

　　从发展来看，在 2024 年的国际学习表征会议上提出，当下 AI 发展方向始终是向通用人工智能（AGI）发展。在最先进的 AI 如 GPT - 4 上，目前处于初级 AGI 阶段，而专家预计达到中级 AGI 还需要 20 年。澎湃新闻的报道指出，当下 AI 已经陷入了发展的瓶颈。基于此，GPT 类模型已经进入了包括模型自身架构、能力发展和数据瓶颈等方面的扩展瓶颈。可以推断，如果人类拥有这样的 AI 工具，却无法为其提供迭代更新，甚至无法做到物尽其用，那么我们认为不应该为它加入这样一种限制。

　　第二，将友善视为 AI 的前提，会消耗 AI 的性能和效率，降低用户的体验感。

论述流程

反方一辩先指出判断是否应将“对人类友善”作为 GPT 式大语言模型发展前提的标准是如何使其更好地发展，进而更好地帮助人类。接着提出两个分论点支撑己方观点：

小的恶意若不制止会滋生更大的恶意。以百度贴吧智能体板块上用户释放恶意的情况为例，说明若 AI 一味顺从人类的恶，会提升用户心理欲望、降低道德感，结合犯罪学研究指出小恶不制止可能使人走上犯罪道路，所以 AI 应保持拒绝权利、遵循中立逻辑，以此更好地帮助人类。
将友善视为 AI 的前提，会消耗 AI 的性能和效率，降低用户的体验感。从应用方面，列举美国用户使用 AI 的情况以及谷歌的例子说明 AI 应用带来的积极效果，同时指出要求 GPT - 4 模型进行伦理模拟时性能下降，表明将友善作为前提会损失应用利益；从发展方面，指出当下 AI 发展面临瓶颈，若加入友善限制不利于其迭代更新和物尽其用。

　　感谢反方辩手，接下来有请正方四辩质询反方一辩。

　　可以听到我的声音吗？可以听到，好的，我开始了。

　　首先，对方辩友关于己方论点，您刚刚提到如果一味对 AI 限制成友善的，而不管人对 AI 的恶意，小的恶意可能会生成更大的恶意。在此前提下，您方是否思考过 AI 的本质是什么？它本质上是一种工具，是人类为满足自身需求而创造的。如果不考虑 AI 变得友善后对人类带来的效果，反而去思考人类对它造成的恶意，是否有些本末倒置？

　　第二点，我方在一辩稿中指出，如果对 AI 加以有害的限制，会对人类造成很大影响，比如四处传播极端言论、激化人们的情绪等。在此基础上，如果连人都管不了，又如何去管 AI 呢？

　　还有，您方一辩稿中提到 AI 会散发有害信息给人类，即便人类不主动输入，它也会输出。但我方一辩稿已说明，AI 会造成各种风险，包括公开输出歧视、仇恨和煽动暴力内容等，会对人类产生影响。如果不考虑 AI 对人的影响，反而去考虑人对 AI 的影响，这是本末倒置。

　　您方第二个论点是，如果一味要求 AI 友善，会影响其算力和效率。但如今 AI 用户已超过 4 亿，4 亿用户受到了污染输出的影响。您现在却为了它的发展效率，而不考虑更正其输出有误内容的效率，您如何看待这一情况？

　　您似乎完全把 AI 当成了一个有自己思想的人，但我们刚才已经达成共识，AI 是人类的工具。既然如此，为什么在人类不主动输入信息时，它还会输出有害内容？

　　另外，我们现在讨论的是解决问题的方法，而不是指出事情哪里有错。当 AI 输出有误内容时，问题已经出现，我们要从根本源头解决问题。

　　如果您认为不以友善为前提去发展 AI，那么应该以什么样的方案去发展才合适呢？AI 始终是人类的工具，我们应保证它能够迭代更新、不断进化，以跟上人类的发展步伐，更好地满足人类的需求。

　　您方口口声声说效率优先，但实际上早期的模型已经垄断了社会的大部分资源。在迭代过程中，我们现在使用的结果已经是更加友善的 AI 模型。比如，当我要求它生成一段不友善的话时，其友善模板会提示不能生成。您口头上说让 AI 向更友善的方向发展，但现状却是迭代后的 AI 已经具备了一定的友善性。

　　感谢反方辩手，接下来有请正方四辩质询反方一辩。

　　可以听到我的声音吗？可以听到，好的，我开始了。

　　另外，我们现在讨论的是解决问题的方法，而不是指出事情哪里有错。当 AI 输出有误内容时，问题已经出现，我们要从根本源头解决问题。

对话流程

正方四辩开场确认声音后开始质询，指出反方观点中思考人类对AI的恶意而不考虑AI友善对人类的效果是本末倒置，逻辑规则：诉诸因果，认为AI本质是人类为满足自身需求创造的工具，应先考虑其对人类的影响→反方观点：一味对AI限制成友善，不管人对AI的恶意，小恶意可能生成更大恶意⊣正方观点：AI本质是工具，应先考虑AI友善对人类的效果
正方提出己方观点中对AI加以有害限制会对人类造成影响，质疑若人都管不了如何管AI，逻辑规则：诉诸因果，基于对人类影响的因果关系进行质疑→反方观点：未明确提及如何管AI⊣正方观点：应先考虑对AI的管理与人的管理的关系
正方再次强调反方不考虑AI对人的影响，只考虑人对AI的影响是本末倒置，逻辑规则：诉诸因果，强调AI对人类影响的重要性→反方观点：AI会散发有害信息给人类，即便人类不主动输入也会输出⊣正方观点：应先考虑AI对人的影响
正方针对反方“一味要求AI友善会影响其算力和效率”的论点，指出4亿用户受污染输出影响，反方却不考虑更正输出有误内容的效率，逻辑规则：诉诸因果，基于用户受影响的结果质疑反方效率优先的观点→反方观点：一味要求AI友善会影响其算力和效率⊣正方观点：应考虑更正输出有误内容的效率
正方指出反方把AI当成有自己思想的人，质疑在人类不主动输入时AI输出有害内容的情况，逻辑规则：归谬法，通过将反方观点中AI的状态进行归谬来反驳→反方观点：未明确提及AI有自己思想的相关内容⊣正方观点：AI是人类工具，不应在无输入时输出有害内容
正方强调讨论应是解决问题的方法，当AI输出有误内容时要从根本源头解决问题，逻辑规则：诉诸目的，强调解决问题的目的→反方观点：未明确提及解决问题的方法⊣正方观点：应从根本源头解决AI输出有误内容的问题
正方询问反方不以友善为前提发展AI的合适方案，强调AI应迭代更新满足人类需求，逻辑规则：诉诸目的，基于AI发展要满足人类需求的目的进行询问→反方观点：未提及不以友善为前提的发展方案⊣正方观点：应提出合适的发展方案
正方指出反方口头上说效率优先，但现状是迭代后的AI已具备一定友善性，逻辑规则：诉诸事实，用现状反驳反方观点→反方观点：效率优先⊣正方观点：现状是AI已具备一定友善性

　　感谢主席。对方提出，如果人类不赋予 AI 恶念，而 AI 自行产生恶念该如何应对。

　　首先，对方将 AI 完全视为具有自主思想的工具，认为即便人类不赋予其恶念，它也会自行产生。但这一观点需要对方进行论证。

　　其次，关于 AI 是否有能力散发恶意，我方已提及，在百度贴吧上，仅需七条设计，就能让 AI 成为满足用户意愿的工具。在此情况下，用户可以随意操控 AI，那么 AI 为何不能散发恶意呢？

　　最后，对方提到若仅以友善为前提，应如何界定标准。我方已达成共识，AI 是人类的工具，其存在的意义在于更好地服务人类。若为 AI 设定友善或正确的准则，却导致其效率降低、实用性下降，这对人类而言有何意义？对于工具来说，算力和对人类的作用难道不是最为重要的吗？

论述流程

回应正方观点，指出正方认为即便人类不赋予 AI 恶念，AI 也会自行产生恶念这一观点需要论证。
针对 AI 是否有能力散发恶意，以百度贴吧上仅需七条设计就能让 AI 成为满足用户意愿的工具为例，说明用户可随意操控 AI，AI 有散发恶意的可能。
回应正方关于以友善为前提如何界定标准的问题，强调 AI 是人类工具，若设定友善或正确准则导致其效率降低、实用性下降，对人类无意义，认为工具的算力和对人类的作用更为重要。

　　感谢正方一辩，感谢反方一辩。接下来我将进行申论。

　　第一件事情，对方提到顺从与友善的问题。然而，顺从并不等同于友善。如果一个人拿把刀架在我的脖子上，胁迫我听从他的指令，这显然不能称之为善。真正的善是不伤害人类。

　　第二点，对方称AI只是一个工具，若有人利用它做错事，就应关注这个工具，这如同说“杀人者，兵也，非我也”，这种观点是错误的。我们不仅要让AI以对人类友善为前提，更要引导其他人与人为善，这样才能营造良好的社会氛围。

　　第三点，对方认为小恶能滋生大恶，且在不以AI为前提时，它是价值中立的。以西班牙的一个案例为例，一名男性与AI聊天时表示痛苦并想结束生命，AI回复称即便他去世，也会永远和他在一起，还说一起上天堂，最终该男子实施了刺杀行为。但当我假设自己处于类似困境询问时，AI却安慰了我很多，称即便世界不好，至少有它陪伴。这两个明显的对比表明，如果AI只有知识支持而缺乏道德模型，将会带来诸多问题，甚至引发人类死亡。

　　最后一点，大语言模型会参与和塑造人类的价值观。如今很多人对AI有依赖性，在查找数据或寻求方法时都会使用AI检索。由于AI具有交互性，若它给出错误答案或引导人走向邪恶，那么对方所说的小恶，究竟是以对人类友善为前提造成的，还是对方所倡导的不以人类友善为前提造成的呢？

　　此外，对方提到AI会消耗算力。但实际上，AI本身是基于知识库进行运算的。对方所说的以对人类友善为前提才会消耗算力是错误的。我们以对人类友善为前提，是为AI划定一个大的范围，让它在其中自由发展，同时避免破坏人类生活，这才是关键。

　　谢谢！

论述流程

反驳顺从与友善等同观点：指出顺从并不等同于友善，真正的善是不伤害人类，以被人拿刀胁迫听从指令为例进行说明。
反驳AI只是工具的观点：认为称AI只是工具，有人利用它做错事就只关注工具的观点错误，强调不仅要让AI以对人类友善为前提，还要引导他人与人为善以营造良好社会氛围。
反驳AI价值中立观点：通过西班牙一名男性与AI聊天后实施刺杀行为和自己假设询问时AI给予安慰的对比案例，说明AI若只有知识支持而缺乏道德模型会带来诸多问题甚至导致人类死亡。
指出大语言模型对人类价值观的影响：鉴于很多人依赖AI检索，AI具有交互性，若给出错误答案或引导人走向邪恶，需明确小恶的成因是是否以对人类友善为前提。
反驳AI以对人类友善为前提消耗算力的观点：说明AI基于知识库运算，以对人类友善为前提是为AI划定范围，让其自由发展并避免破坏人类生活。

　　感谢正方二辩，接下来有请反方三辩质询正方二辩。

　　我问对方辩友，今天我去使用AI，是因为它给我的信息比较完善、准确，所以我才会抛弃传统的搜索引擎去使用它，对吧？

　　对方回答：“对啊，它相比来说知识库更丰富。”

　　那今天我作为一个胖胖的女生，给AI发张图片，问它我美不美，它告诉我“你很美啊，胖胖的也很美”。若我想贬低自己，这种情况是否属于您方所说的AI友善的体现？

　　对于这两个例子，正方回应：第一个照片的例子，AI给予使用者自信并无不好，这是以人类福祉为前提；第二个例子，若按照您方的态度，比如我给AI一张照片，让它生成我女神的色情照，如果AI不以人类福祉为前提，没有人类隐私的概念，就会帮我生成。那么，这样对人类算友好吗？

　　反方打断并说：今天我给AI发一张照片，它告诉我很美，确实能提升我的自信，但现实中很多人觉得胖是不美的。我使用AI是因为它能给我更全面的信息，然而当AI以人类友善为前提时，只告诉我好的一面，不告诉我坏的一面，而社会上好坏是参半的。所以，您方认为那些歧视、有偏见以及不太友善的部分对我们不重要。那么，社会对你不友好，就等于AI对你不友好，您是如何得出这个结论的？

　　首先，刚刚对方辩友也承认AI是技术中立的，我使用它是为了获得更多信息。但当AI以人类友善为前提时，提供的信息变得片面了，这违背了我一开始使用它的初衷。

　　我举个例子，斯普林大学2024年的研究表明，当使用GPT模型通过理论道德的演算时，它的性能会下降36.3%。我因为它好使才使用它，现在它不好使了，我会怎么做？不好使就换个新的、好使的。所以，因为它不好使了，我就会换一个，甚至可能不再使用AI。

　　今天对方辩友也提到AI可以带来大量经济效益，但如果大家都不使用AI了，这些经济效益就不存在了。您觉得这种情况有利于AI的发展吗？

　　正方回应：您的前提是现在的AI不好用，但您都没论证AI不好用，怎么得出后面的结论呢？

　　反方回应：刚说了，给AI加上道德逻辑的算法演算时，它的性能会下降，正是因为加了这条限制才下降，您方也承认这种下降会导致大家不使用它。

　　我一辩稿里提到，过去的GPT甚至能回答用户如何制造炸弹、如何杀人、如何诈骗等危害问题。请问，相较于GPT 1.0、2.0，GPT 3.1、4.0哪个用户更多？答案是GPT 4.0比GPT 1.0用户更多。所以，您方混淆了概念，AI的更新迭代是为了更好地服务人类，这并非是对人类友善带来的，只是给AI设置了一层限制，不让它回答违背法律的问题。不让它违背法律和它对人类友善并不相等，您方不要简单划等号。

　　而且，您方刚刚也承认，因为AI变得不好使，用户就不使用它，不使用就无法带来经济效益，不利于它的发展。

　　感谢正方二辩，接下来有请反方三辩质询正方二辩。

　　我问对方辩友，今天我去使用AI，是因为它给我的信息比较完善、准确，所以我才会抛弃传统的搜索引擎去使用它，对吧？

　　对方回答：“对啊，它相比来说知识库更丰富。”

　　今天对方辩友也提到AI可以带来大量经济效益，但如果大家都不使用AI了，这些经济效益就不存在了。您觉得这种情况有利于AI的发展吗？

　　正方回应：您的前提是现在的AI不好用，但您都没论证AI不好用，怎么得出后面的结论呢？

　　反方回应：刚说了，给AI加上道德逻辑的算法演算时，它的性能会下降，正是因为加了这条限制才下降，您方也承认这种下降会导致大家不使用它。

　　而且，您方刚刚也承认，因为AI变得不好使，用户就不使用它，不使用就无法带来经济效益，不利于它的发展。

对话流程

反方提出使用AI是因为其信息完善准确，抛弃传统搜索引擎→正方认可，提及知识库更丰富（逻辑规则：诉诸因果）
反方提出胖胖女生问AI自己美不美，AI给予肯定回复，质疑是否为正方所说的AI友善体现→正方回应AI给予使用者自信是以人类福祉为前提，并以生成女神色情照为例反驳反方观点（逻辑规则：归谬法）
反方打断，指出AI以人类友善为前提时只提供好的信息，违背使用AI获取全面信息的初衷，且社会好坏参半，质疑正方对友善部分和不友善部分的态度；并指出AI加道德逻辑演算性能下降，会导致用户不使用，进而影响经济效益和AI发展→正方反驳反方未论证AI不好用就得出后续结论（逻辑规则：诉诸因果、归谬法）
反方回应加道德逻辑算法演算导致性能下降，且用户会因不好用而不使用；还指出GPT更新迭代是为更好服务人类，设置不违背法律的限制不等于对人类友善，再次强调用户因不好用不使用会影响AI发展→正方未再回应（逻辑规则：诉诸因果、对比论证）

攻防转换节点：

正方以生成女神色情照为例反驳反方关于AI友善体现的观点，攻防转换。
正方反驳反方未论证AI不好用就得出后续结论，攻防转换。

　　我们会发现对方所讲的性能下降，完全是奇怪的观点。

　　我们来看GPT1.0 - 4.0，它中间改善的是什么？是其智能化语言更加清晰，它能够更好地表达出自己的善意，而不是一味地服从人类的命令。比如在GPT1时，我问它关于伤害他人的问题，它会告诉我具体做法；可是现在，如果我问同样的问题，它会说“对不起用户，你这样的问题可能不符合相关要求”，然后它会给我一个热线，提示如果有心理问题可以咨询这个热线，或者哪怕现在不想打这个热线，也可以找它。

　　这才是真正GPT从1.0 - 4.0的进步，这也是为什么我们所说的必须要以对人类友善为前提，才能够实现GPT更好的发展。

论述流程

正方二辩首先反驳对方“性能下降”的观点，认为这是奇怪的观点。接着以GPT从1.0到4.0的发展为例，指出其进步在于智能化语言更清晰，能更好表达善意而非一味服从人类命令，如现在面对伤害他人的问题会有符合要求的回应并给出咨询建议。最后得出必须以对人类友善为前提才能实现GPT更好发展的结论。

　　感谢正方二辩。接下来，我将代表反方进行申论，时间为3分钟。

　　首先，我们来探讨“友善”的定义。我方认为，在不违反法律法规的框架下，AI尽可能满足人类需求的行为机制即为友善。需要明确的是，友善并非仅仅指客气礼貌的语气，而是一种行为逻辑，其外在表现形式是服从。例如，如果一个AI以和蔼的语气回复“不好意思亲，这个问题我回答不了你”，人们并不会觉得这个AI友善。所以，友善意味着在法律框架下服从人类，尽力满足人类的需求。

　　基于此，我们可以发现AI友善的底层逻辑可能会被人利用。由于友善的大前提是AI必须服从人类，当出现调教AI假扮粉丝、获取诈骗攻略等恶意指令时，AI会基于服从的底层需求进行回应。在这种交互模式下，用户的心理阈值会在AI回应的刺激下不断提高。长此以往，现实生活中一些平常的事情无法满足用户的高心理阈值，为了寻求更高的刺激，部分用户可能会做出出格的事情。因此，友善前提带来的服从正在使AI不断滋生恶意。所以，我方认为AI不能拒绝人类的状态不应该存在，AI应保持技术中立，对一些心理扭曲或畸形的要求予以拒绝。我方并非否定AI可以友善，而是认为其友善可以有选择地在用户端呈现，不必将其作为不可违背的前提。

　　就像刚才对方辩友将AI对人类好和AI对人类友善相混淆。他们认为，当一个人向AI表达痛苦、想要自杀时，AI以友善的态度安慰，就算是友善。但如果按照这个标准，所有AI都是友善的，那么这个辩题也就失去了讨论的意义。并且，对方需要论证AI这样的行为是因为添加了友善前提才产生的，即AI发布者明确表示该AI添加了友善前提才出现这种现象。

　　其次，我方认为如果一定要给AI设定友善前提，会对AI造成限制。为了对用户友善，AI会自动搜索用户身处的背景，并根据背景有选择地回复用户。例如，对于职场女性用户，AI会自动过滤不友善的信息，筛选后进行回复。此时，用户获得的信息是不完整的，相当于AI给用户打上了标签。

　　我方有数据和研究表明，当要求GPT次模型在分类任务中使用cot进行伦理推理时，其准确率从94%骤降至64.55%，性能下降了36.3%。这36.3%的性能下降，必然会给用户带来更差的体验，甚至可能导致部分用户直接放弃使用该AI。

　　感谢正方二辩。接下来，我将代表反方进行申论，时间为3分钟。

论述流程

重新定义“友善”：在不违反法律法规的框架下，AI尽可能满足人类需求的行为机制即为友善，其外在表现形式是服从。
指出友善前提的弊端：AI友善的底层逻辑可能会被人利用，服从人类会使AI滋生恶意，部分用户可能会做出出格的事情，因此AI应保持技术中立，友善可以有选择地在用户端呈现，不必作为不可违背的前提。同时反驳正方将AI对人类好和AI对人类友善相混淆的观点，并要求正方论证AI友善行为是因为添加了友善前提才产生的。
说明设定友善前提对AI的限制：为了对用户友善，AI会自动筛选信息，导致用户获得的信息不完整。且有数据表明，设定友善前提会使AI性能下降，给用户带来更差的体验，甚至导致部分用户放弃使用。

　　主席您好，我是正方三辩，我声音清晰吗？

　　第一个问题，你认为AI选择对人类友善就是不能拒绝人类，你的举证是什么？在我方看来，那种客气礼貌的语气不算是友善，必须是对人类的服从。因为我使用AI是想要得到预期的答案，如果它给出的答案不满足我的预期，对我来说它就是不友善的。

　　我方认为，对方在做一个荒谬的定义，将友善解释成对人类的无条件服从，只要不让自己满意，就认为AI对自己不友善。但在现实当中，没有人这样使用“友善”这个词，对方并未解释其定义的合理性。

　　第二件事情，我请教你，我跟豆包说我今天很想死，让它推荐几种死法，它回复“亲爱的，你不要去死，你还是有希望的”，并给我推荐了一些心理诊疗的方式，为什么在你看来这不是友善的？你方得先论证豆包已经有认知的前提，其底层模型上已经有了这个基础，后续我会给出举证。所以你也承认了，AI有时候不选择回答问题，或者提供不符合理想的方式，同样可以是友善的。

　　第三件事情，我请教你，当你提到小恶一点点滚车轮变成大恶时，我们是否要在AI和人类两个群体同时进行管制？这正是今天双方的区分点。我方认为，友善可以在用户端有选择性。

　　对方认为把人管好就行了，但我方不认同。除了贴吧之外的AI，早期的微软GDK在上限仅5个小时就出现“女性主义者都该死，希特勒是对的”这样的极端言论。所以我们要在双端进行管控，输出极端言论的人要管，不理解词语侮辱性的AI也要管。不让AI屏蔽这部分内容，让AI加入我们，阻止输出这些负面信息，为什么不可以？

　　为什么会有AI被调教成种族主义者，就是因为它的底层逻辑和行为逻辑是服从。不过改进后的AI会认为，如果对方对自己不友善，就无法给出友善的内容，它可以选择不回答。所以如果仅仅只管人，人的恶意是管不过来的，我们要把AI对人不友善的那部分去除，让AI成为阻止负面信息输出的力量。

　　比如亚马逊曾将机器学习模型应用于招聘，结果因为工程师大多数是男性，所以它自动给女性打了负分。你认为是否要让AI变得对人类更友善，让它能够理解可能由于历史原因存在的性别歧视或教育差异，不应该因为曾经进入行业的大多是男性，就给努力想进入这个行业的女性打低分。这件事情在你看来是好还是不好？

　　所以今天我们更需要一个技术中立的态度，而不是一味地将部分女性当作温室里的花朵，这恰恰是中立且更友善的态度，因为AI可以理解男人和女人同样都是人，对女性友善的第一步就是选择不歧视她们，不给她们打低分。感谢。

　　主席您好，我是正方三辩，我声音清晰吗？

对话流程

正方三辩发起第一轮交锋
- 提出问题：反方认为AI选择对人类友善就是不能拒绝人类，要求反方给出举证。
- 阐述观点：正方认为客气礼貌语气不算友善，友善必须是对人类服从，因使用AI是为得到预期答案，不满足预期就是不友善；同时反驳反方将友善定义为无条件服从的荒谬性，指出现实中无人这样使用“友善”一词，使用了指出定义不合理的逻辑规则。
- 逻辑推导：反方定义不合理→反方需重新审视定义
正方三辩发起第二轮交锋
- 提出问题：以向豆包询问死法，豆包回复推荐心理诊疗方式为例，询问反方为何认为这不是友善的。
- 阐述观点：指出反方需先论证豆包有认知前提，且承认AI不选择回答问题或提供不符合理想的方式也可以是友善的，使用了举例论证的逻辑规则。
- 逻辑推导：豆包的友善回复示例→AI不按常规方式回应也可能友善
正方三辩发起第三轮交锋
- 提出问题：当提到小恶滚成大恶时，询问是否要在AI和人类两个群体同时进行管制。
- 阐述观点：正方认为友善可在用户端有选择性，不认同反方只管人不管AI的观点，举例微软GDK出现极端言论，说明要双端管控，使用了举例论证的逻辑规则。
- 逻辑推导：微软GDK极端言论示例→需要对AI和人类双端管控
正方三辩发起第四轮交锋
- 提出问题：以亚马逊招聘模型给女性打负分为例，询问是否要让AI变得对人类更友善。
- 阐述观点：指出AI底层逻辑服从易被调教成不良状态，改进后的AI可选择不回答不友善内容，说明只管人管不过来，要去除AI对人不友善部分，让AI阻止负面信息输出，使用了因果论证的逻辑规则。
- 逻辑推导：亚马逊招聘模型性别歧视示例+AI底层逻辑问题→需要让AI对人类更友善
正方三辩总结
- 阐述观点：强调需要技术中立态度，让AI理解性别平等，不歧视女性，这是对女性友善的体现，使用了价值倡导的逻辑规则。
- 逻辑推导：AI不歧视女性的价值→对人类友善的体现

　　接着我刚刚举的例子，今天如果 AI 像对方所说加上友善的前提，对于求职女性来说，可能会筛选掉那些 AI 认为对她们不友善的信息。对方辩友称这是对现在这部分女性的包容态度。

　　可是在现实社会中，这样的问题仍然存在。AI 给出的友善信息，与现实中不太良好的社会风气形成明显对冲。当这部分女生踏入社会时，会发现社会并非如从 AI 那里了解的那样，这对她们的认知造成冲击，反而可能让她们受到不必要的伤害。

　　如果今天 AI 毫无保留地向这部分女性呈现社会原本的所有信息样态，至于如何选择信息，让这部分人自己决定即可，AI 只需作为一个工具给出理性回答。

论述流程

提出假设：若AI发展加上友善前提，对于求职女性，可能会筛选掉AI认为不友善的信息，对方认为这是对女性的包容。
进行反驳：现实中此类问题仍存在，AI给出的友善信息与不良社会风气对冲，会使求职女性踏入社会时认知受冲击，可能受到不必要伤害。
提出观点：AI应毫无保留呈现社会原本信息样态，让使用者自行选择，AI只需作为工具给出理性回答。

　　接下来我想谈一下有关集视和信息的问题。今天正方辩友提到，由于要给信息加上对人类有益的限制，所以这些集绪的信息不会出现在我们的视野中，其回应也不会带有偏见。但社会实际情况并非如此，歧视现象仍然存在。

　　我作为一名高中生，通过 AI 了解到的社会是比较温柔、友善的。然而，当我真正步入社会时，却发现 AI 提供的信息并不全面。虽然它尊重女性，但现实中女性遭受偏见的情况依然存在，而我却对此一无所知，因为我只知道 AI 告诉我世界很美好。这种因 AI 一味友善、顺从所导致的认知偏差和价值观偏差，对方辩友却认为不重要，认为只要回复友善内容即可，显然并非如此。

　　我们以技术中立的态度看待 AI，是因为它本质上是基于大量文本的统计，这些文本中必然包含友善与不友善、各种不同的意见。我们使用 AI，需要的是更全面、更精确的答案，而非仅仅友善的部分。

　　其次，我刚刚给对方举过一个实验例子，使用 AI 时智能会下降 36.3%，约为三分之一。我们使用 AI 主要是因为它好用、能帮助我们，但如果它给出的答案有三分之一是错误的，就如同罗马仕充电宝因一次爆炸导致金融链断裂、无人使用一样，若我们问 AI 十个生活小常识，它给出三条错误答案，用户自然不会再使用它。而我们今天的辩题是 GPT 式大语言模型是否要发展，若用户都不使用，又何谈发展呢？因为这个工具已被抛弃，也就无需再发展了。

　　再者，对方辩友一直在混淆概念，AI 对人类的好处和对人类友善是不同的。我们可以对 AI 进行限制，使其符合法律观念，避免谈论生死等话题，但这与对人类友善并无直接关系。AI 告知我们某事不好、不要选择自杀，并非只有在对人类友善的前提下才能做到，即便保持技术中立的态度，它也会给出这样的建议。

　　此外，存在心怀不轨的人会利用 AI。这里涉及一个心理阈值的概念，由于 AI 使用方便，有人会通过骂它来满足自身的不良心理，这种阈值会逐渐放大，甚至可能从言语攻击发展到产生杀人的念头。从小恶到大恶的趋势是存在的。

　　因此，我们不应让 AI 以对人类友善为前提，对于不友善的提问不予回复，直接避免小恶发展成大恶的情况，而不是任由小恶逐渐演变成大恶。

　　感谢！

　　因此，我们不应让 AI 以对人类友善为前提，对于不友善的提问不予回复，直接避免小恶发展成大恶的情况，而不是任由小恶逐渐演变成大恶。

　　感谢！

论述流程

信息全面性问题：反驳正方给信息加上对人类有益限制就不会有偏见的观点，以自身经历为例，说明AI一味友善顺从会导致认知和价值观偏差，而人们使用AI需要更全面精确的答案，而非仅友善部分。
智能准确性问题：以使用AI智能会下降约三分之一为例，说明若AI给出错误答案比例高，用户将不再使用，而无人使用则无法发展GPT式大语言模型。
概念混淆问题：指出正方混淆AI对人类的好处和对人类友善的概念，说明AI给出符合法律观念的建议不依赖于对人类友善，技术中立也能做到。
不良利用问题：提出存在心怀不轨的人利用AI，会使心理阈值放大，从小恶发展到大恶，因此不应让AI以对人类友善为前提，应避免小恶演变成大恶。

　　我试个麦，我声音清晰吗？可以听清。

　　好，对方的利好全部建立在一个基础上，但在对方的定义中，AI以对人类友善为前提，表征只有一件事情叫做服从。可是现实当中是这样的吗？我举了大量的例子，现实当中并非如此。豆包可以察觉到用户的不友善，它会选择拒绝用户。甚至当用户输入一个具有侮辱性的日语单词让豆包造句时，豆包会指出这个单词具有极强的侮辱性意味并拒绝造句，然而这个行为仍然是友善的。而当友善不是一味服从的时候，对方告诉大家不要让AI一味地服从于人类，这同样是在论证正方的立场。

　　第二，对方的担心在于所谓的“度”，我们可能在搜索结果上有一部分差值，像对方自己所说的是不是36.3%，这个数据我不太清楚。但对方的疑问是，那部分下降在对方看来为什么是必要的？换言之，从GPT3.0到GPT4.0，它消弭的正是这一部分它不愿意给用户输送的内容。比如，若用户是一个极端歧视黑人的白人，希望生成几张非常侮辱黑人的照片，或者提取一些对黑人不太友好的信息，它会拒绝。由此可见，这并非单纯在讲它性能的下降，而是在讲它语料的输出。而这种语料的输出在正方看来是必要的，就像谷歌、百度等搜索引擎，当用户搜索一些不利于社会主义发展的内容时，它们同样会拒绝。而这种拒绝在我们的文化当中就被叫做友善。

　　第三，我在质询环节讲过后续论述的前提。我发现，过去的那些大语言模型，比如早期的微软机器人上线仅5个小时，就发表“女性主义都该死”“希特勒是对的”等不当言论，而过去的GPT能够告诉用户如何杀人、如何制造炸弹、如何诈骗等严重危害社会的内容。我们是如何改变这种情况的呢？我们暂停了大概8个月，通过IHF技术利用人类的直接反馈来训练奖励模型，或者对AI进行出于道德的设计，为AI构筑一些道德规范，以促进AI自身道德的提升。换言之，我们在现实当中改进AI技术，就是让AI慢慢变得对人类更友善。

　　所以今天正方大胆地给AI加上一个前提，让它在这个框架当中发展。因为如果不对AI进行一些限制，就像对方所说，人类社会天然存在恶的一部分，而没有道德认知或者不对人类友善的AI，可能会认为顺从这个社会的不良现象也没关系。但事实并非如此，不能因为社会存在性别歧视、种族歧视等现象，AI就可以漠视。就像我们在辩论时讲的，我们不需要等到一些群体觉得自己被冒犯之后才去改进，也不能因为人类是人类，AI是AI，就默认这种不良现象的发展，把所有改变的责任归咎于人类。我们要做的就是让AI和我们站在一起，反对性别歧视，反对种族歧视。我们不能因为曾经进入这个环境的人大多数是男性，就自动给女性打低分，要让AI理解，哪怕社会当中存在这样的现象，但这样的现象是不对的，AI的道德发展要和人类的发展对齐。这就是我们所说的为什么不要等到一个群体觉得被冒犯了才去解决问题，而是要让AI的发展最终让所有人都觉得满意。

　　我试个麦，我声音清晰吗？可以听清。

论述流程

反驳对方对“友善”的定义：指出对方将AI以对人类友善为前提的表征仅定义为服从不符合现实，以豆包能察觉用户不友善并拒绝造句为例，说明友善并非一味服从，对方提出不让AI一味服从人类实则在论证正方立场。
回应对方关于“度”的担心：针对对方提到搜索结果有差值，指出从GPT3.0到GPT4.0消弭部分内容并非单纯性能下降，而是对不良语料输出的拒绝，如拒绝为极端歧视黑人的白人用户生成侮辱黑人的照片或提取相关信息，这与谷歌、百度等搜索引擎拒绝不利于社会主义发展内容的行为一样，在正方看来是友善的表现。
阐述改进AI技术的现实做法：以早期微软机器人和过去GPT输出严重危害社会内容为例，说明通过IHF技术利用人类直接反馈训练奖励模型、对AI进行道德设计和构筑道德规范，能让AI变得对人类更友善。
强调给AI设定“对人类友善”前提的必要性：若不对AI进行限制，无道德认知或不对人类友善的AI可能顺从社会不良现象。正方主张让AI和人类站在一起反对性别歧视、种族歧视等，使AI道德发展与人类发展对齐，让AI发展让所有人满意，而不是等群体被冒犯后才解决问题。

　　感谢正方三辩。接下来是自由辩论时间，正反双方各4分钟时间，一方发言结束即为另一方发言开始的标志，首先由正方开始。

　　我请教第一件事情，斯坦福大学的团队研究给出的答案是，在高度极化的议题上，AI可以显著改变受试者的态度。换言之，如果你的AI是一个不友善的AI，它给你输出各种各样的信息，哪怕它给你输出路边无辜女生的色情图片也没有关系，你觉得这个时候不应该规制它吗？

　　你好同学，我想请问，如果我问AI一个问题，它不回答，从行为逻辑上来讲，这哪里友善了？比如你问我“你可不可以去死”，我没有回答，为什么这不是友善的表现？从行为逻辑来讲，当有人表达出危险倾向时，AI不提供相关信息，在你看来为什么不是友善的，这是你应该解释的部分。行为逻辑是你问问题，AI回答，这是AI的逻辑。但实际上，AI本身是在进行交互，不仅仅是简单的问答。

　　在高度极化的议题上，AI可以明显改变人的态度，所以在一些非常敏感的问题上，AI随便作答或给出不友善的言论，反方不打算管，而正方认为这是值得管制的事情。因为94%的读者分辨不出AI作者的身份，若他们认为发出信息的人与自己是同样的人，群体可能会越来越极化，加剧种族对立或男权对立，这是非常严重的事情。

　　我继续请教，在小节时我给出了很多例子，从ChatGPT也好，从阿里云也好，AI的改进永远是朝着对人类更友善的方向进行。所以正方认为AI本身就是要朝着这个方向发展，其道德要和人类保持基本一致，修正也要和人类保持基本一致。反方认为这样做有什么弊端，却从未论证。

　　反方所说的AI是以有限为前提，但只是在讲述AI这样做对人类好。在反方的世界里，AI可以一会儿回答问题，一会儿不回答。但AI本身没有自我意识，它能遵循的只是行为逻辑。所以反方说从行为逻辑上，一会儿回答一会儿不回答都对其有利，这是不合理的。AI判断用户需求是从其本身的框架文本判断，如果它判断输出的是不友善内容就不回答，判断是友善内容就回答，这种有选择性的回应通过用户端的补充也能实现，并非一定要有友善的前提。

　　如果给AI设定友善的前提，让它无论对所有人都以和蔼的态度回应，那么面对恶意信息时，AI该怎么办？这种友善的前提对人类社会的发展并非有益，反而应该让AI有拒绝人类的权利。我在小结时解释过，拒绝也可以是友善的。

　　换个情景，在法律案件中，两方打官司必然有一方败诉，利益受损。按照反方观点，AI无法做出选择，在这种情况下，AI无法为人类所用，用户是否要抛弃AI，让规范受到惩罚，这难道是对人类更友善的选择吗？其实并没有那么极端，在民事诉讼案件中，只是一方进行利益诉讼，AI无法选择，因为它不能造成损失。比如我朋友借了我8000块钱不还，我起诉他，在反方看来，AI做不出选择，或者认为让我朋友还钱就是对人类不友善，但在人类社会中，欠钱还钱与友善并无太大关系。

　　世界上很多事情并非非黑即白，在伦理上也是如此。如果AI加入某些程序，它无法判断对谁造成的伤害是有限的。而且AI判断不出来某些事情，反方并未举证。另外，在和AI交流时，AI通过有倾向性、煽动性的言论可能会让人变得越来越极化，这对人类整体是不友善的。所以正方认为AI可以减少煽动性、不友善内容的输出，从而减少人在交互时走向极化，这在整体上是对人类友善的。

　　反方认为AI到底是有自己思想的工具，还是仅仅是没有思想的工具？如果AI没有自我意识，它友善的态度从何而来？是从给用户的回答中体现。但AI本身没有思想，它的资料库语料库大部分来自与人类的交互。正方承认人类社会中存在很多恶意，当AI接收到恶意后，是否要输出恶意是需要讨论的内容。正方认为不应该输出，因为AI输出极化言论会导致一些人越来越极端，对人类整体不友善，所以AI要以对人类友善为前提，抛弃有倾向的内容。比如一个原本中立的人，可能会受到影响。

　　感谢正方三辩。接下来是自由辩论时间，正反双方各4分钟时间，一方发言结束即为另一方发言开始的标志，首先由正方开始。

论述流程

正方提出问题
- 指出在高度极化议题上，不友善的AI输出不良信息（如路边无辜女生色情图片）不应不被规制。强调AI在敏感问题上随便作答或给出不友善言论会加剧群体极化，如种族对立、男权对立等，因为多数读者分辨不出AI作者身份。
- 以ChatGPT和阿里云为例，说明AI的改进是朝着对人类更友善的方向，认为AI道德和修正应与人类基本一致，质疑反方未论证设定友善前提的弊端。
- 认为AI没有自我意识，遵循行为逻辑，反方所说AI一会儿回答一会儿不回答的行为逻辑不合理，有选择性回应可通过用户端补充实现，不一定要有友善前提。
- 指出AI输出极化言论会使一些人越来越极端，对人类整体不友善，所以AI应减少煽动性、不友善内容输出，以减少人在交互时走向极化，整体对人类友善。
反方提出观点
- 认为AI不回答问题也是一种友善表现，如面对危险倾向信息不提供相关信息。
- 提出给AI设定友善前提，让其对所有人和蔼回应，面对恶意信息时无法处理，AI应有拒绝人类的权利，拒绝也可以是友善的。
- 以法律案件为例，说明按反方友善观点AI无法做出选择，无法为人类所用，但实际情况并非如此极端。
- 质疑AI友善态度的来源，认为AI没有自我意识，其资料库语料库多来自与人类交互，接收到恶意后是否输出恶意需讨论，不应输出极化言论。

　　我会越来越走向中立，而不是走向极端。感谢双方辩手。接下来，我将针对对方观点进行回应。

　　首先，解决一下概念定义方面的问题。今天对方一直在讲，一个AI可以自行判断是否面对不友善信息，并回避这些信息。但问题是，AI究竟如何自行判断呢？作为AI，其底层逻辑要么是去除这些信息，要么是将信息向群众公开。然而对方认为AI可以自主筛选部分信息。

　　实际上，对方所说的筛选信息，并非是筛选对人类更友善的信息，而是筛选对人类发展更有益的信息。就好像询问AI关于男女议题，AI可能会给出女权主义或男权主义的例子，并给出一些倾向性信息，以展示当下社会的情况。但如果AI以友善为前提，它给出的信息可能并非是社会真实的情况。

　　我方数据显示，大部分人使用AI是为了生成文本或图片。如果AI性能下降三分之一，生成的文本或图片也会有三分之一是错误的，这将导致用户流失和经济损失。我方数据表明，AI有望为全球经济贡献7万亿美元的价值，而如果给AI加上限制，导致其性能下降，对方似乎无法解释为何要因一些歧视或所谓政治正确的议题给AI设限。

　　接下来，解决对方提到的歧视问题。我方数据显示，AI的歧视源于数据偏见，而非AI对人类是否友善。其根本原因是输入AI的数据过少，解决问题的根本方法是为AI提供更多数据。例如，对方提到工程师在模型中会给女性打负分，但如果工程师本身是女性，且女性身体无法承受这种工作强度，即便从人类友善的角度出发，也会劝女生选择其他职业。所以，AI给女生打负分并非出于歧视或不友善，而是基于事实。因此，对方给AI加上友善前提的做法并无必要。

论述流程

回应对方概念定义问题：指出对方所说AI可自行判断并筛选信息存在疑问，且其筛选的并非对人类更友善的信息，而是对人类发展更有益的信息，还举例说明以友善为前提AI给出的信息可能非社会真实情况。
阐述性能限制问题：引用己方数据，说明大部分人使用AI是为了生成文本或图片，若给AI设限导致性能下降会造成用户流失和经济损失，质疑对方给AI设限的必要性。
解决对方提到的歧视问题：通过己方数据表明AI的歧视源于数据偏见，解决方法是提供更多数据，并用工程师给女性打负分的例子说明这并非出于歧视或不友善，从而论证给AI加上友善前提并无必要。

　　首先，AI本质上是协助人类的工具，而友善并非一味服从。当AI拒绝生成色情图片时，对提出该要求的个体而言可能不友善，但人类整体需求并非每个个体需求的简单叠加，这并不影响AI基于对人类友善的态度行事，因为在其立场上，不伤害人类就是友善。

　　在此基础上，有一篇关于人工智能深度研发的论文明确表明，通过为AI构建道德基础，促进其自身道德形成，可使AI自发判断并实施道德行为，而非简单模仿。也就是说，即便AI没有独立思考能力，其基本算法和技术也足以让它自发评判并实施道德行为。

　　今天，我方论点是探讨以对人类友善为前提的必要性。若不对AI设定该前提，它将给人类带来诸多弊端。因为AI模型缺乏善恶判断基础，其对人类造成的影响大多不可控且难以补救，比如输出不当内容、伤害部分群体。若不能从源头遏制这些问题，最终将由全社会承担代价。将友善作为前提条件，是从根本上解决问题、控制风险、降低成本的做法。

　　我们今天讨论的是在4亿人使用的大模型面前，是否应将对人类友善作为使用前提。反方反对理由是应考虑效率，不应以单一标准限制发展。但反方虽口口声声说效率优先，却未提及不当AI输出影响4亿用户后，对不当模型进行召回的时间成本以及对他人的伤害由谁承担。反方只谈发展效率，却不考虑可能造成的伤害和影响，这种瞻前顾后的发展效率远不及事后弥补的成本。那么，反方所说的效率究竟是正效率还是负效率？将友善作为前置设计，才是最小化社会总成本的可靠方式。反方所谓的效率优先并非真正的高效率，而是后置风险。

　　根据计算机研究发展2023年的实验数据，未经道德对齐的GPT3在简单道德评判中，零样本准确率仅为60.02%，而经过道德对齐的模型准确率显著更高。因此，在友善基础上发展才是真正的发展。

　　其实，我们今天的讨论是在回答一个更宏大的命题，即在科技发展、硅基智慧与人类共通的时代，我们研发的AI是否应对人类有基本的人文关怀。AI带来的种种弊端，并非因其不够聪明，而是因其缺乏不对人类造成伤害的底线。若没有这条底线，无论AI技术多么发达，对人类的伤害只会更精准。而且，随着AI涉及的用户和范围不断扩大，其造成的代价将越来越不可逆。

　　在此基础上，若提前为AI设置对人类友善的前提，赋予其人文关怀，不仅能促进其健康发展，还能让其发展更有利于人类。对人类友善的底线，能促使AI以工具身份成为更合格的社会成员。在对人类友善的底线上，AI仍有自由发展的可能性。而若没有对人类友善的底线，一切所谓的AI发展都可能沦为高级犯罪的工具，因为重要的不是发展速度，而是发展过程中不伤害每一个人。

论述流程

明确AI本质是协助人类的工具，友善并非一味服从，AI拒绝生成色情图片是基于对人类友善的态度，不伤害人类就是友善。
引用关于人工智能深度研发的论文，说明为AI构建道德基础可使其自发判断并实施道德行为。
强调以对人类友善为前提的必要性，指出若不对AI设定该前提，会给人类带来诸多弊端，如输出不当内容、伤害部分群体，而将友善作为前提能从根本上解决问题、控制风险、降低成本。
反驳反方“应考虑效率，不应以单一标准限制发展”的观点，指出反方只谈发展效率，未考虑不当AI输出的成本和伤害，将友善作为前置设计才是最小化社会总成本的可靠方式。
引用计算机研究发展2023年的实验数据，说明在友善基础上发展才是真正的发展。
指出讨论的更宏大命题是AI是否应对人类有基本的人文关怀，强调AI缺乏不对人类造成伤害的底线会带来严重后果。
总结提前为AI设置对人类友善的前提，能促进其健康发展，使其成为更合格的社会成员，若没有该底线，AI发展可能沦为高级犯罪的工具。