技术科普丨ChatGPT系列解读之一：零基础也能弄明白

孤钓客MZ2 · 发表于 2023-4-5 21:41:05

1 引言

从2022年11月OpenAI正式公开其ChatGPT模型以来，以其极其强大的文本处理和语言回答能力在全世界范围内掀起了狂热之风，仅仅4天的时间就达到百万级的用户数量，2个月的时间突破1亿用户数量，远远超过了人类历史上所有应用的用户增长速度。

技术科普丨ChatGPT系列解读之一：零基础也能弄明白398 / 作者:孤钓客MZ2 / 帖子ID:116447

技术科普丨ChatGPT系列解读之一：零基础也能弄明白398 / 作者:孤钓客MZ2 / 帖子ID:116447

我们需要充分认识和理解其技术原理和应用场景，同时也需要关注其可能带来的问题和挑战，采取相应的措施，促进其安全和合理的应用。这样才能更好地推动ChatGPT技术的发展和应用，为人们提供更加智能、高效的自然语言交互方式。本系列计划全面科普 ChatGPT 的原理，并提供一个视角让大家意识到它为何如此重要，让那些没有机会了解这件事的人也能应对即将到来的变革。
本系列文章将尝试尽量抛开技术细节，不采用论文和一般科普中的专业名词，在概念与逻辑层面讲解 ChatGPT 的工作原理、训练过程、模型能力、未来的影响以及人类如何应对。具体框架如下：

技术科普丨ChatGPT系列解读之一：零基础也能弄明白49 / 作者:孤钓客MZ2 / 帖子ID:116447

技术科普丨ChatGPT系列解读之一：零基础也能弄明白49 / 作者:孤钓客MZ2 / 帖子ID:116447

ChatGPT的基本原理是什么？它是如何回答问题的？
ChatGPT是怎么被训练的，其为什么会颠覆搜索引擎领域？
ChatGPT有哪些能力和功能，为什么它不只是聊天机器人？
ChatGPT将给人类社会带来什么样的冲击，我们该如何维持未来的竞争力？
2 ChatGPT基本原理分析

首先是这项技术的基本原理。让我们先来看一段官方描述（主要来自百度百科）：

ChatGPT的全称是Generative Pre-trained Transformer，是一种基于Transformer模型的自然语言生成模型。它采用了预训练（Pre-trained）技术，在大量的语言数据上进行训练，从而使得模型具有更好的泛化能力和生成能力。
ChatGPT受到关注的重要原因是引入新技术RLHF (Reinforcement Learning with Human Feedback，即基于人类反馈的强化学习)。RLHF 解决了生成模型的一个核心问题，即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。ChatGPT是AIGC（AI- Generated Content，人工智能生成内容）技术进展的成果。该模型能够促进利用人工智能进行内容创作、提升内容生产效率与丰富度。

是不是感觉字都认识，但是啥也没看懂？没关系，下面我们正式开始零基础解读。
2.1 ChatGPT的真正原理（零基础版）

ChatGPT的真正原理其实非常简单，四个字就能概括：单字接龙。具体来说就是：给它任意长的上文，它会用自己的模型去生成下一个字。

技术科普丨ChatGPT系列解读之一：零基础也能弄明白299 / 作者:孤钓客MZ2 / 帖子ID:116447

技术科普丨ChatGPT系列解读之一：零基础也能弄明白299 / 作者:孤钓客MZ2 / 帖子ID:116447

单字接龙生成流程

例如，当给它“我”这个上文时，它可能会生成“是”。
ChatGPT本身能做的就只有生成下一个字，你所看到的回答全都是用同一个模型，根据不同的上文生成出来的。
2.2 ChatGPT如何给出完整的回答？

可能有读者会说，我在ChatGPT上面的提问，它明明可以回答的非常完整，并不是一个字一个字的往外冒，那它是怎么回答那些长内容的呢？
答案是：ChatGPT会把它自己生成的下一个字和之前的上文组合成新的上文，再让它以此生成新的下一个字。以此类推不断重复，就可以生成任意长的下文了。该过程也叫“自回归生成（Auto-regressive generation）”。
例如，当给它“我”这个上文时，它可能会生成“学”。
把新生成的“我学”组合成新的上文再输入模型，它可能会生成“会”。
把新生成的“我学会”组合成新的上文再输入模型，它可能会生成“了”。
...
不断重复，就能生成“我学会了ChatGPT，我好厉害！”。

技术科普丨ChatGPT系列解读之一：零基础也能弄明白387 / 作者:孤钓客MZ2 / 帖子ID:116447

技术科普丨ChatGPT系列解读之一：零基础也能弄明白387 / 作者:孤钓客MZ2 / 帖子ID:116447

自回归生成原理

3. ChatGPT如何生成我们想要的结果？

简单来讲，需要的主要是两个字：训练。
影响ChatGPT生成结果的因素主要有两个：除了作为输入的上文外，另一个就是它的算法模型本身。模型就相当于ChatGPT的大脑，其对生成什么样的下文至关重要。如果把同样的上文送给不同的模型，则可能会生成不同的结果。
比如问两个人以“我”开头造句，一个人可能回答“我是一名科学家”，另外一个人则可能回答“我在广场上吃着炸鸡”。因此，为了让ChatGPT生成我们想要的结果，而非胡乱生成，就要提前训练ChatGPT的大脑，也就是训练它的模型。
具体训练流程如下：
3.1 大量训练与学习

第一步需要大量学习。在这一点来说，和人类学习新领域的知识有类似之处。对人类来讲，入门的学习首先就是需要对照该领域内的权威著作或者教材进行学习；对ChatGPT来讲，也需要让它遵照所给的学习材料（回答模板）来做单字接龙。通过不断调整模型，使得给模型足够学习材料的上文后，模型就能生成对应的下一个字。

技术科普丨ChatGPT系列解读之一：零基础也能弄明白119 / 作者:孤钓客MZ2 / 帖子ID:116447

技术科普丨ChatGPT系列解读之一：零基础也能弄明白119 / 作者:孤钓客MZ2 / 帖子ID:116447

例如，我们想把ChatGPT训练成自动驾驶领域的专家，就可以把《汽车驾驶自动化分级》作为学习材料来进行训练，就不断调整它的模型，使得：
给它“自动”，它能生成“驾驶”；
给它“动态驾驶”，它能生成“任务”；
给它“应急”，它能生成“辅助”；
…
一直到，给它自动驾驶功能或者分级的相关上文，它能生成正确的回答，而非原本的胡乱生成。
3.2 概率抽样生成

那如果同时训练了“最小风险状态”和“最小风险策略”，再遇到“最小风险”这样的上文时，会怎么生成下一个字？
答案是：按照概率来抽样。即有可能会生成“状态”，也有可能生成“风险”。

技术科普丨ChatGPT系列解读之一：零基础也能弄明白789 / 作者:孤钓客MZ2 / 帖子ID:116447

技术科普丨ChatGPT系列解读之一：零基础也能弄明白789 / 作者:孤钓客MZ2 / 帖子ID:116447

实际上 ChatGPT 给出的结果长这样，也就是所有字的概率分布，生成的下一个字就是按照概率分布抽样得到的结果。由于抽样结果具有随机性，所以 ChatGPT 的回答并不是每次都一样。
不过，这样训练后，无非就是能补全和续写，那ChatGPT又是怎么回答问题的呢？
其实仅靠单字接龙就能回答问题。因为提问和回答也都是文字，可以将二者组合成一个问答范例（学习材料）让ChatGPT做单字接龙。
例如，当我们想让ChatGPT学习“什么是 0级驾驶自动化”时，就可以把这个提问和正确回答组合成一个问答范例（学习材料），让它按照“什么是 0级驾驶自动化——0级驾驶自动化(应急辅助，emergency assistance)是指系统不能持续执行动态驾驶任务中的车辆横向或纵向运动控制，但具备持续执行动态驾驶任务中的部分目标和事件探测与响应的能力。”来做单字接龙。
这样一来，当用户输入“什么是 0级驾驶自动化”时，它就能生成“0级驾驶自动化(应急辅助，emergency assistance)是指系统不能持续执行动态驾驶任务中的车辆横向或纵向运动控制，但具备持续执行动态驾驶任务中的部分目标和事件探测与响应的能力。”了。

		自动登录	找回密码
密码			注册会员