微软2023年Build大会演讲:如何训练和应用GPT
这是本次微软2023年Build大会来自OpenAI的AI 研究员和创始成员Andrej Karpathy的一个主题为State of GPT的演讲。
演讲主要有两部分内容:
1. OpenAI是如何训练GPT的
2. 我们如何有效应用GPT
都是非常有价值的分享。
首先对于如何训练GPT,通常来说是四个阶段预训练(Pretraining),有监督的微调(Supervised Finetuning),奖励建模(Reward Modeling)和强化学习(Reinforcement Learning),这几个阶段通常是依次进行,每个阶段都有不同的数据集。
预训练(Pretraining):
这个阶段的目标是让模型学习一种语言模型,用于预测文本序列中的下一个单词。训练数据通常是互联网上的大量文本。模型从这些文本中学习词汇、语法、事实以及某种程度的推理能力。这个阶段结束后,模型可以生成一些有意义且语法正确的文本,但可能无法理解具体任务的需求。
有监督的微调(Supervised Finetuning):
在预训练后,模型会进入微调阶段。在这个阶段,人类评估员将参与并给出指导,他们会给模型提供对话样本,样本中包含了输入和期望的输出。这使得模型能更好地适应特定任务或应用,例如回答问题或编写文章。
奖励建模(Reward Modeling):
评估员将对模型生成的不同输出进行排名,以表示它们的质量。这个排名将被用作奖励函数,指导模型优化其生成的输出。
强化学习(Reinforcement Learning):
强化学习阶段是一个迭代的过程,模型会试图优化其行为以获得最大的奖励。在这个阶段,模型会产生新的输出,评估员会对这些输出进行排名,然后模型根据这个反馈调整其行为。
然后是如何有效应用GPT
在演讲中Andrej举了一个非常好的例子:人类和大语言模型(LLM)都是如何写作的?从这个例子中你能明显感觉到人类和GPT之间的差异。
假设你要写一篇文章去比较加利福尼亚州和阿拉斯加州的人口,你的写作的过程中可能是像这样的:
- 我需要写一篇文章去比较加利福尼亚州和阿拉斯加州的人口
- 我需要去获取两个州的人口数据
- 我不知道这两个周的人口数据
- 去维基百科找到加利福尼亚州的人口是39.2M
- 去维基百科找到阿拉斯加州的人口是0.74M
- 现在我需要计算一下两个州人口数相差多少倍,但是可能需要计算机帮忙
- 用计算器算出来39.2除以0.74约等于53
- 快速的检查一下53倍这个数字是不是符合常识,嗯,这是一个相当大的比值,但加利福尼亚州毕竟是人口最多的州,所以这个结果或许是合理的,可以继续
- 好了,我现在有了我需要的所有信息
- 写下:“加利福尼亚州的人口比53倍的……”
- 觉得好像不太好,删除重写成:“加利福尼亚州的人口是阿拉斯加州的53倍。”
- 嗯,觉得还不错
也就是说,当人类写作时,哪怕是这样一个简单的句子,可能内心实际上进行了大量的运算的。
但当我们用GPT进行写作这样的句子看起来会是什么样呢?
从GPT的角度看,这只是一系列的标记(Tokens)。当GPT在接收到一个输入,比如你给出的主题。它会生成一段与输入相关的文本,GPT的目标是预测下一个词,所以它会连续生成一串词,形成一段连贯的文本。
从本质上看,Transformer只是标记模拟器,它不知道自己知道什么不知道什么,它不知道自己擅长什么或不擅长什么,它只是尽力生成下一个标记,它也不会进行反思,也不会不进行任何合理性检查。它不会纠正自己的错误,它只是产生抽样的标记序列,它没有像人类那样的内心独白流。
但是,GPT有一些优势,如它们拥有大量的基于事实的知识,并且拥有相对大的并且完美的工作记忆。GPT通过自我注意力机制,能立即获取到上下文窗口中的信息,从而进行无损记忆。然而,GPT在推理和判断方面的能力相对较弱,如果提出的问题需要更复杂的推理,单凭一个标记的信息,GPT往往无法给出正确的答案。
一些技巧可以提升GPT的表现,比如Cot(Chain of Though)设定步骤来引导GPT展示其工作过程,或者通过多次抽样然后选择最佳结果等,或者可以让GPT检查自己的输出,比如询问它是否完成了任务,最好是在Prompt中明确的要求它检查自己的输出。
后面还介绍了目前比较流行的GPT应用,比如Agent、Plugin、CoT、Embedding等
最后他用GPT-4写了一个结尾:
“女士们,先生们,2023年Microsoft Build的创新者和先驱者们,欢迎来到这个独一无二的卓越人才的集结地。你们是未来的架构师,是塑造数字领域的视野家,在那里人类繁荣发展。拥抱科技的无限可能,让你的想法飞得和你的想象力一样高。让我们一起创造一个更连通,更出色,更包容的世界,为未来的世代留下。准备好释放你的创造力,探索未知,把梦想变成现实。你的旅程今天开始。”
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。