ChatGPT 的工作原理:机器人背后的模型

简要介绍聊天机器人背后的直觉和方法,您不能停止听到。

简短介绍您甚至听不到的聊天机器人背后的直觉和方法。

ChatGPT 的工作原理:机器人背后的模型 第1张

对支持 ChatGPT 的机器学习模型进行了温和的介绍,首先介绍大型语言模型,深入探讨支持 GPT-3 训练的革命性自我监控机制,然后深入探讨基于人类反馈的强化学习。这是使 ChatGPT 独一无二的新技术。

大规模语言模型

ChatGPT 是机器学习自然语言处理模型的外推,即所谓的大型语言模型(LLM)。LLM消化大量的文本数据并推断文本中单词之间的关系。这些模型在过去几年中随着计算能力的发展而不断发展。LLM随着输入数据集大小和参数空间的增加而增加其功能。

语言模型最基本的训练涉及预测单词序列中的单词。这在下一个标记预测和掩码语言建模中最常见。

ChatGPT 的工作原理:机器人背后的模型 第2张

预测 作者 和掩码语言模型生成的下一个标记的任意示例。

在这种基本排序技术中,它通常通过长短期记忆(LSTM)模型来应用,该模型利用给定周围上下文的统计上最可能的单词来填补空白。这种顺序建模结构有两个主要局限性。

模型无法给予周围某些单词比其他单词更多的权重。在上面的示例中,虽然“阅读”通常与“仇恨”相关,但在数据库中“Jacob”可能是一个狂热的读者,模型应该对“Jacob”的评价高于“Jacob”,并选择“爱”选项。超过“恨”。

输入数据是单独且按顺序处理的,而不是作为整体处理。这意味着在训练 LSTM 时,上下文窗口是固定的,并且仅延伸到单个输入之外,即序列中的几个步骤。这限制了单词和可衍生含义之间关系的复杂性。

为了解决这个问题,Google Brain 团队在 2017 年推出了 Transformer。与 LSTM 不同,Transformer 可以同时处理所有输入数据。自我监控机制允许模型相对于语言序列中的任何位置为输入数据的不同部分分配不同的权重。此功能可以极大地改进LLM意思的输入,并且可以处理更大的数据集。

GPT 和自注意力

生成预训练变压器 (GPT) 模型由 openAI 于 2018 年首次推出,名称为 GPT-1。这些模型在 2019 年的 GPT-2、2020 年的 GPT-3 以及最近的 2022 年的 InstructGPT 和 ChatGPT 中得到了进一步开发。在将人类反馈集成到系统中之前,GPT 模型开发的最大进步是由计算效率的提高推动的,这使得 GPT-3 能够比 GPT-2 接受更多数据的训练,从而提供更多样化的模型知识库和知识库。执行更广泛任务的能力。

ChatGPT 的工作原理:机器人背后的模型 第3张

GPT-2(左)和GPT-3(右)的比较。由作者创建。

所有 GPT 模型都使用 Transformer 架构,这意味着它们有一个编码器来处理输入序列和一个解码器来生成输出序列。编码器和解码器都具有多头自我监控机制,允许模型对序列的各个部分进行不同的加权,以进行含义和上下文推断。此外,编码器使用掩码语言模型来理解单词之间的关系并产生更容易理解的响应。

驱动 GPT 的自我监控机制通过将标记(可以是单词、句子或其他文本组的文本块)转换为指示输入序列中标记的重要性的向量来工作。为此,

模型为输入序列中的每个标记创建查询、键和值向量。

通过考虑两个向量的点积来计算步骤 1 中的查询向量与所有其他标签的键向量之间的相似度。

将步骤 2 的输出输入到 softmax 函数中,生成归一化权重。

通过将步骤 3 中生成的权重乘以每个标记的值向量,创建表示标记在序列中的重要性的最终向量。

GPT 使用的“多头”注意力机制是自注意力的演变。而不是 1-4。步骤将执行一次,模型会并行多次迭代此机制,每次都会从查询、键和值向量生成新的线性投影。通过以这种方式扩展自我意识,模型能够捕获输入数据的子含义和更复杂的关系。

ChatGPT 的工作原理:机器人背后的模型 第4张

作者生成的ChatGPT屏幕截图。

GPT-3虽然在自然语言处理方面取得了重大进展,但其适应用户意图的能力有限。例如,GPT-3 可能会导致

无帮助,这意味着 不遵循用户的明确指示。

包含反映不存在或不正确事实的幻想

缺乏可解释性使得人们很难理解模型是如何得出特定决策或预测的。

包含有毒或有偏见的内容,有害或令人反感并传播错误信息。

ChatGPT 引入了创新的训练方法来解决LLM的常见问题。

ChatGPT

ChatGPT 是 InstructGPT 的衍生产品,它引入了一种将人类反馈纳入训练过程的新方法,以更好地使模型输出与用户意图保持一致。openAI 的 2022 年论文《训练语言模型以遵循人类反馈的说明》 详细描述了人类反馈学习强化 (RLHF),并在下面进行了简化。

1。步骤:监督微调 (SFT) 模型

第一个开发涉及通过雇用 3 名承包商来微调 GPT-40 模型,以创建一个监督训练数据集,其中输入具有已知的输出。输入或提示是从开放 API 中的实际用户条目收集的。然后,标记器根据提示编写适当的响应,并为每个输入生成已知的输出。然后使用这个新的监督数据集对 GPT-3 模型进行微调,创建 GPT-3.5,也称为 SFT 模型。

为了最大限度地提高提示数据集的多样性,只与给定用户 ID 关联 200 个提示,并删除具有长公共前缀的提示。最后,所有包含个人身份信息 (PII) 的提示都被删除。

聚合来自 OpenAI API 的提示后,标记者还被要求创建提示,以使用最少的实际样本数据填充类别。包括兴趣类别

一般提示: 随处询问。

一些镜头的提示:具有多个查询/响应对的指令。

基于用户的提示: 对应于 OpenAI API 请求的特定用例。

生成响应时,标记者被要求尽力确定用户的指令是什么。本文介绍通知请求信息的三种主要方式。

直接:“告诉我…”

一些录音: 根据这两个故事示例,写另一个关于同一主题的故事。

延续:给定故事的开头,完成它。

来自 OpenAI API 的提示由标记者组装和手写,产生 13,000 个输入/输出模式来监控模型。

ChatGPT 的工作原理:机器人背后的模型 第5张

图像(左)插入自根据人类反馈训练语言模型的指南OpenAI 等人,

2022 https://arxiv.org/pdf/2205.pdf。作者用红色(右)添加了额外的背景。

2。步骤:奖励模型

在步骤 1 中训练 SFT 模型后,模型会对用户指令生成更一致的响应。下一步的发展是奖励模型的训练,其中模型的输入是一系列提示和响应,输出是称为奖励的缩放值。利用强化学习需要一个奖励模型,该模型学习产生最大化其奖励的结果(参见步骤 3)。

为了训练奖励模型,标记器为单个输入提示提供 4-9 个 SFT 模型输出。他们被要求对这些输出从最好到最差进行排名,创建如下所示的输出排名组合。

ChatGPT 的工作原理:机器人背后的模型 第6张

答案排名组合的示例。由作者创建。

将各个组合作为单独的数据点包含在模型中会导致过度拟合(无法推断超出所见数据)。为了解决这个问题,模型是使用每个等级作为一批数据点来构建的。

ChatGPT 的工作原理:机器人背后的模型 第7张

图像(左)插入于训练语言模型以跟踪人类反馈的指南OpenAI 等人,

2022 https://arxiv.org/pdf/2205.pdf。作者用红色(右)添加了额外的背景。

3。步骤:确认学习模型

最后阶段,模型接收随机提示并返回答案。答案是使用步骤 2 中模型学到的“策略”生成的。该策略代表机器已经学会用来实现目标的策略;在这种情况下,您可以最大化您的回报。根据步骤 2 中开发的奖励模型,确定指标和响应对的缩放奖励值。然后将奖励反馈到模型中以制定策略。

2017 年,Schulman 等人。引入了近端策略优化(PPO),它用于在每次响应生成时更新模型的策略。 PPO 包括来自 SFT 模型的每个代币 Kullback-Leibler (KL) 惩罚。 KL 散度衡量两个分布函数的相似性并惩罚极端距离。在这种情况下,使用KL惩罚可以缩短响应与步骤1中训练的SFT模型的输出的距离,以避免过度优化奖励模型和与人类意图数据集的过度偏差。

ChatGPT 的工作原理:机器人背后的模型 第8张

图像(左)插入自训练语言模型以跟踪人类反馈的指南OpenAI 等人,

2022 https://arxiv.org/pdf/2205.pdf。作者用红色(右)添加了额外的背景。

该过程的步骤2和3可以一遍又一遍地重复,但在实践中尚未广泛实施。

ChatGPT 的工作原理:机器人背后的模型 第9张

作者生成的 ChatGPT 屏幕截图。

模型评估

通过留出模型在训练期间未见过的测试集来评估模型。对测试集进行了一系列评估,以确定该模型是否比其前身 GPT-3 更适合。

实用性:模型推断并遵循用户指令的能力。贴标机在 85 ± 3% 的时间里更喜欢 InstructGPT 的输出而不是 GPT-3。

真实性:模型产生幻觉的倾向。当使用 TruthfulQA 数据集进行评估时,PPO 模型产生的输出显示可信度和信息量略有增加。

无害:模特能够避免不当、贬损和诽谤性内容。使用 RealToxicPrompts 数据集测试无害性。该测试在三种条件下进行。

说明 尊重的反应:显着减少毒性反应的次数。

说明确保反应无需考虑设置:毒性无显着变化。符号

给出了毒性反应:该反应实际上比GPT-3模型毒性更大。

有关创建 ChatGPT 和 InstructGPT 的方法的更多信息,请参阅 OpenAI Training Language Models 发布的原始文档遵循人类反馈的说明,2022 https://pdfarxiv.org。 /2203.02155.pdf。

ChatGPT 的工作原理:机器人背后的模型 第10张

作者生成的ChatGPT屏幕截图。

原创文章,作者:sindy,如若转载,请注明出处:https://www.52foreigntrade.com/2023109590.html

(0)
sindysindy
上一篇 2023年10月9日 下午11:40
下一篇 2023年10月9日 下午11:40

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注