Optimizing Language Models for Dialogue,简称ChatGPT,优化的对话语言模型,它以对话的方式相互作用。对话格式使ChatGPT能够回答后续问题,承认它的存在。ChatGPT是InstructGPT的同级模型,它被训练成在提示时遵循指令并提供详细的响应。
ChatGPT在GPT-3模型上做了拓展,使我们看到了NLP的未来,它最大的应用价值可能就在于未来取代搜索引擎。另外ChatGPT未来将成为一个基础设施,所有跟数字技术相关的产业都需要接入,最后会变成一个底层的超级API。基于这一认知,现阶段大多数互联网和科技公司真正要争夺的应该是ChatGPT的应用场景。
ChatGPT在预训练模型的基础上加入了有监督学习、强化学习等理论,但ChatGPT在2023年2月13日节点之前并没有公布论文以及源码,实现原理部分描述很少,且看且信且理解。 官方描述:
我们使用人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)的方式来训练这个模型,使用与InstructGPT相同的方法,但在数据收集设置上略有不同。
我们使用监督 微调(Fine Tuning)训练了一个初始模型:Al训练员提供对话,他们在对话中玩两边的游戏--用户和AI助手。我们让训练员获得模型书面建议,以帮助他们撰写他们的回答。(有多少智能就有多少人工--人工标注)
为了建立强化学习的奖励模型,我们需要收集比较数据,这些数据包括两个或多个按质量排序的模型响应。为了收集这些数据,我们进行了人工智能训练员与chatbot的对话。我们随机选择了一个模型写的消息,抽样了几个替代完成,并让AI培训员对他们进行排名。利用这些奖励模型,我们可以使用最优策略优化对模型进行微调,我们对这个过程执行了几次迭代。 官方流程示意图: