对ChatGPT的观察与思考

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 人大高瓴人工智能学院作者丨朱余韬毛科龙钱泓锦编辑丨张冰姿

ChatGPT是什么？

ChatGPT （Chat Generative Pre-trained Transformer）是由OpenAI公司于2022年11月发布的聊天机器人，属于OpenAI GPT系列模型之一。根据OpenAI官方资料介绍，它是在GPT-3.5（也称InstructGPT）基础上使用监督学习和强化学习进行训练所得到的模型。在监督学习过程中，ChatGPT收集了全新的人类对话语料，并将其与GPT-3.5的监督学习语料合并（此部分语料也转换为对话形式）。在强化学习过程中，ChatGPT首先训练了一个得分模型来对模型输出进行排序（此得分模型也是利用人工标注得到的排序结果进行训练的），然后用该得分模型来对生成模型输出进行反馈，并优化该生成模型。最终由强化学习得到的模型即为ChatGPT。

ChatGPT为何会产生如此大的影响力？

在ChatGPT问世之前，Google的Meena、LaMDA、Meta的BlenderBot以及百度的PLATO等对话模型都已实现了高质量的人机对话效果，但它们没有像ChatGPT一样产生如此大的影响力。这是为什么呢？ChatGPT之所以产生巨大的影响力，是因为它在诸多方面有着更好的属性和强大的能力：（1）相比于现有的开放领域对话模型，ChatGPT具有更好的“面向任务”的属性。现有的对话模型致力于与人实现“闲聊”，其主要目标是将对话进行下去，这样的模型除了消遣之外并没有其他的能力，用户使用一段时间后就会觉得无聊。此外，模型产生的回复中仍然存在一些错误，使得用户不会对这样的模型感到惊奇。而ChatGPT则不同，通过GPT-3.5的训练目标（即根据指导完成任务），它能够按照用户输入的要求执行特定任务，这大大增加了其功能性。即使生成的内容中存在一些错误，用户也会因为相应功能的实现而降低对质量的要求。（2） ChatGPT具有很好的连续多轮对话的能力。尽管其他对话模型也具有一定的多轮对话能力，但它们主要用于闲聊，回复也相对简短，这会导致用户记住模型生成的内容，特别是与模型人设属性相关的内容。如果后续对话中出现与之前记忆不相符的地方，用户会有非常明显的感知。相比之下，ChatGPT的多轮对话能力主要集中在完成特定任务上，而非人设属性。例如，用户提出任务，ChatGPT完成后，用户认为其中的某些内容需要调整，于是再次输入需要调整的部分内容，让ChatGPT进行更改。在这个过程中，ChatGPT对用户多轮输入的建模能力集中在连续的几轮上，因而产生的效果比较好。这种连续多轮输入完成任务的方法，与GPT-3/3.5本身具有的自然语言理解能力以及基于指导完成任务的训练目标密切相关。（3）ChatGPT具有一定的推理能力。推理被认为是人类“智能”的重要体现。研究人员在使用ChatGPT之类的模型（包括之前的GPT-3/3.5）时，发现直接让其回答需要推理的问题可能会得到错误的答案，但如果将推理过程用自然语言的形式进行描述，则模型就能获得一定的推理能力。这一技术被称为思维链（Chain-of-Thought, CoT），其来源推断为在大规模的程序代码上进行的预训练。这种推理在以往的小规模模型中也是无法实现的。而这样的推理能力也被认为是大模型在参数量达到某一量级后所“涌现”出的能力之一。（4）ChatGPT能够承认错误并发现无法回答的问题。在以往的对话模型中，遇到无法回答的问题，模型往往会给出通用的回复或完全错误的回复。ChatGPT则具有“知其不可知”的能力，即能够承认其无法回答某些问题而并非编造回答。此外，如果通过输入告知ChatGPT其生成结果中的错误之处，ChatGPT能够对之前的回答进行调整，从而给出准确率更高的回复。这一能力与之前提到的多轮对话及推理能力密不可分。（5）ChatGPT倾向于生成更长的回复，尽管这是RLHF（Reinforcement Learning from Human Feedback）训练中带来的偏置（即人们倾向于给长回复打更高的分数），但对于用户而言，更长的回复意味着更充实的内容和更完善的解决方案，因此用户的体验会得到显著提高。（6）ChatGPT回答的准确性较高。这一准确性体现在两个方面。一方面，ChatGPT对用户输入的语义理解有较高的准确性；另一方面，ChatGPT生成的回答本身也有较高的准确性。这两个方面的高准确性都离不开ChatGPT本身的超大参数以及RLHF的使用。ChatGPT的强大能力有两个重要来源，一是其巨大的模型参数与优质的训练语料，二是RLHF（即人工反馈的强化学习）的使用。实际上，在之前的GPT-3/3.5中，研究人员已经可以用提供指导的方式让模型生成需要的内容，而ChatGPT将这一指导的形式用对话的方式展现出来，更加贴近用户的使用习惯。

ChatGPT还有哪些需要改进的地方？

虽然ChatGPT自问世以来便惊艳世人，获得了极大的成功，但是在用户使用的过程中，仍然出现了许多问题，有待进一步完善。此外，在成本控制和商业模式方面，ChatGPT仍然面临着巨大的挑战。因此，至少在以下方面，ChatGPT仍然存在着改进的空间：（1）回答的可靠性。ChatGPT 有时会写出看似合理，但实际上是错误甚至荒谬的答案。特别是在一些专业问题上，其回答的内容并不可靠，仍然需要人工去查证。

图1 ChatGPT针对有关CPU和GPU运算速度的问题给出错误的答案（2）回答的质量。模型的回答通常过于冗长，并过度使用某些短语，这些问题源于训练数据的偏差，标注者更喜欢更全面的答案。面对模棱两可的问题，一般应该做问题澄清，但是当前的模型通常会猜测用户的意图，然后给出自以为正确的答案。

图2 ChatGPT针对简单问题给出相对冗长的回答（3）回答的实时性。目前ChatGPT的训练数据截止至2021年，对于2021年以后的新闻和事件无法正确作答。当然，后续可以结合WebGPT，基于信息检索，提升回复内容的实时性。目前，微软Bing搜索引擎已经与ChatGPT进行融合，赋予了ChatGPT使用搜索引擎结果的能力，也相应改善了其回答的实时性。

图3 ChatGPT针对有关2022年世界杯的问题无法作答（4）回答的稳定性。从目前的测试看，ChatGPT 对输入提示词很敏感。给定一个问题，模型可以声称不知道答案，但只要稍作改写，就可以生成正确回答。同时，因为有一定的随机性，相同问题尝试多次后可能得到不同的答案。

图4 ChatGPT针对过敏性鼻炎的治疗问题给出不同的答案（5）安全性。由于ChatGPT几乎可以生成任意回答，因此可能会面临用户滥用或者恶意攻击的风险，例如，被用户利用生成虚假信息或者骚扰性内容。虽然OpenAl使用 Moderation APl 来阻止某些类型的内容，但依然会有一些漏报。

图5 ChatGPT生成的关于2018年世界杯的虚假新闻（6）成本控制。ChatGPT的训练和部署成本很高，因为它需要大量的计算资源和数据来训练和优化模型。目前每次对话回复的成本大约在几美分。谷歌每天的搜索次数在85亿左右，按此规模计算，每天成本在3亿美金左右，全年成本在1000亿美金左右。这还没有计算数据标注、模型训练和周边系统的维护成本。

图6 马斯克在Twitter上询问每轮对话的成本是多少（7）商业模式。ChatGPT目前的商业模式尚不明朗。如果要取得进一步的成功，仍需要探索可行的商业模式。

ChatGPT对人工智能的研究有何影响？

ChatGPT的出现，也为未来人工智能的研究带来了许多挑战和机遇。下面以对话系统和信息检索领域为例，谈一谈ChatGPT对人工智能研究的可能影响。1 对话系统对话系统通常分为开放领域对话系统（如闲聊机器人）和任务式对话系统（如各类客服等）。ChatGPT的主要功能在于完成任务，但与传统的任务式对话系统有着明显的不同。传统的任务式对话系统针对特定的任务，设计相关的信息需求，再通过对话的方式从用户处获取相应信息，并完成任务。这些任务本身存在确定的目标，以及相对确定的对话路径。ChatGPT所完成的任务则体现在内容层面，例如给定主题来进行故事写作等，其能力完全来自于生成模型而非额外的针对特定任务的辅助设计。已有的对话系统工作往往专注于在对话语料上进行充分的学习，从而实现更好的人机对话效果。ChatGPT则使用了不同的路线，在GPT-3中，模型利用大量的参数与数据学习到了语义理解和语言使用的基本能力；在GPT-3.5中，模型进一步学会了如何理解用户指导并完成相应的任务。ChatGPT则是在GPT-3.5基础上将大模型的使用方式变成了连续的交互，从而实现了对话的效果。因此，可以认为ChatGPT的本质是模仿对话的交互方式来使用现有的大规模语言模型（或者可以理解为使用了一些技术方法将语言模型包装为对话模型），而不是一个真正意义上的对话模型。在ChatGPT问世之后，对话系统的相关工作可能会受到很大的冲击。现有的对话系统研究工作，有相当一部分还停留在特定的对话数据集上进行，这是由硬件资源所限制的。这些工作的效果可能很难挑战ChatGPT。但我们也要看到，大规模语言模型效果虽好，其需要大量的硬件和时间资源，这些都不是普通研究机构（如高校）可以接受的。在未来的对话系统研究中，有许多问题可能会被大规模语言模型的超大参数与超大训练数据带来的效果所掩盖，而针对某些特定任务的研究（比如推理、问答等）又很难与现有的大模型结合起来。对于对话系统的研究而言，可能需要思考构建对话系统的目的是什么。现有的ChatGPT模型，尽管可以实现对话，但它火爆的原因并不是其出色的对话能力，而是解决任务的能力。它更像是一个助手或者工具，而不是传统意义上的“闲聊机器人”。如果对话系统的终极目标是拟人性，那么仍然需要从人的对话中学习相关的对话技巧（例如如何从上下文进行推理），并将其应用于对话系统的设计当中。而如果对话系统的终极目标是成为用户的助理，帮助用户完成日常事务，那么其任务处理能力就应该得到重点强化。从ChatGPT的训练过程来看，它从大规模的语料中学习到了许多知识，然后在与用户的交流中将其学到的知识输出出来。它像是一个掌握了许多技能的助手，帮助我们完成一些任务。未来需要探索的一个重要问题是，如何让大规模语言模型可以从用户端持续学习新的知识，让用户成为知识的输出者。例如，在遇到用户的一些问题时，或许可以反问用户自己会有什么样的思考，并将其用于模型的训练。2 信息检索近期一个很火爆的新闻是ChatGPT与Bing搜索的融合。目前的ChatGPT可以对用户的查询进行一些直接的回复，而无需像搜索引擎那样不断地浏览页面进行人工地信息获取。因此，将ChatGPT与Bing搜索融合可以大大减少用户获取信息的时间。目前看到的一些效果大多数还是依赖于ChatGPT模型本身记忆的知识，还没有看到直接使用互联网检索内容进行生成。就文档排序而言，相关技术从早期的基于关键字的匹配、到使用向量检索引擎的稠密检索、再到直接生成文档ID的基于模型的检索。这些技术本质上还是为用户返回相关的文档，由用户进行信息的提取与合成。ChatGPT则是直接将可能的搜索结果生成出来，尽管更加高效，但存在着许多问题，比如产生许多事实错误的内容。因此，对于信息检索相关工作而言，ChatGPT应当不是替代关系，而是一种补充。一种可能的结合方式是将ChatGPT与WebGPT结合起来，让ChatGPT能够自主地从互联网中获取相应的知识，并形成对应的回答。目前的ChatGPT完全依赖模型自身学到的参数来进行对话回复，必然会出现很多事实错误的回答。已经有很多人发现ChatGPT的回答浮于表面形式，而内容上错误频出，甚至凭空构建出了完全不存在的知识。未来的信息检索研究，可能需要将文档排序这一基本任务的输出作为中间件（而非最终结果）来支持后续模型对最终结果的生成。另一方面，当前对大规模预训练语言模型的使用主要是通过提供指导来实现的，这与向搜索引擎输入查询的过程非常的相似。我们可以将用户输入的指导看作是查询，而大模型的参数空间看作是检索系统对应的搜索库，可能也会有新的检索系统建立在用户输入与大模型的中间以方便模型更好的输出知识。
技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们