上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2 ChatGPT的工作流程
ChatGPT的工作流程可以总结为以下三步。
第一步,有监督的调优(Supervised Fine-Tuning,SFT)。预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的提示列表中生成的有监督的策略。
在这一步中,ChatGPT使用预训练的语言模型在少量已标注的数据上进行调优。具体来说,它基于一个给定的提示(对话或问题)生成响应,并在训练数据上进行有监督的学习,以提高在给定提示下生成正确响应的概率。
第二步,模拟人类偏好(Mimicking Human Preferences)。标注者对大量的SFT模型输出进行投票,由此创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被称为训练回报模型(Reward Model,RM)。
在这一步中,ChatGPT的SFT模型生成大量的响应,这些响应可能包含一些不自然或不合适的内容。为了改进模型的表现,标注者对这些响应进行投票,以决定哪些响应符合人类的偏好。
第三步,近端策略优化(Proximal Policy Optimization,PPO)。训练回报模型用于进一步调优和改进SFT模型,输出的结果是策略模式。
在这一步中,ChatGPT使用训练回报模型来进一步调优和改进SFT模型,以更好地满足人类的期望。具体来说,ChatGPT使用PPO算法(一种强化学习算法)在训练回报模型上训练,以获得更好的策略模式。
在当前最佳策略模型上收集更多的比较数据,用于训练新的训练回报模型,并训练新的策略。以上三步可以持续重复进行,以不断提高ChatGPT的性能。在每个步骤中,模型会学习从输入到输出的映射,以便在给定一个提示后生成最合适的响应。