大模型原理


一句话描述大模型的原理:不断优化的做词语接龙!

AIGC

AIGC(AI Generated Content)即AI生成的内容。

Generative AI(生成式AI),生成式AI所生成的内容就是AIGC

AI是属于计算机科学的一个学科,早在1956年AI就被确立为了一个学科领域。

机器学习(Machine Learning)是AI的一个子集,它的核心在与不需要人类做显示编程,而是让计算机通过算法自行学习和改进。去识别模式
做出预测和决策。

机器学习可以分为三大类:

  • 监督学习:利用带标签的训练数据,算法学习输入与输出之间的映射关系,以便在新输入特征下准确预测输出值,包括分类(将数据划分为不同类别)和回归(预测数值)。

  • 无监督学习:算法处理没有标签的数据,旨在自主发现数据中的模式或规律,主要方法包括聚类(将数据分组)。

  • 强化学习:模型在特定环境中采取行动并获得反馈,从中学习以便在类似情况下采取最佳行动,以最大化奖励或最小化损失。

深度学习并不属于上述三大类中的任何一类,深度学习是机器学习的一种方法,主要通过层次化的神经网络结构模仿人脑的信息处理方式,从而有效提取和表示数据特征。它并不局限于传统的监督、无监督或强化学习,而是能够在多种任务中实现自我学习和特征表示。

神经网络可以应用于监督学习、无监督学习和强化学习,因此深度学习并不局限于这些分类之中。

生成式AI是深度学习的一种应用,通过神经网络识别现有内容的模式和结构,从而生成新的内容。

大型语言模型(LLM,Large Language Model)也是深度学习的一个应用,专注于自然语言处理任务。

原理

大型语言模型(LLM,Large Language Model)是一种深度学习模型,专用于处理自然语言任务,如文本生成、分类、摘要和改写等。它通过接收大量文本内容进行无监督学习,以提取和理解语言中的模式。例如,GPT-3就是一个典型的LLM。

2017年,谷歌团队发布的论文《Attention is All You Need》提出了Transformer架构,这一创新改变了自然语言处理的发展方向。在此之前,主流语言模型使用循环神经网络(RNN),其按顺序处理输入数据,当前步骤的输出依赖于先前的隐藏状态和当前输入。这种设计限制了并行计算的能力,降低了训练效率,并且RNN在处理长文本时表现不佳。由于RNN的结构特性,距离较远的词之间的关联性在传递过程中逐渐减弱,使其难以捕获长距离的语义关系。

为了解决长期依赖性问题,长短期记忆网络(LSTM)作为RNN的改进版本出现,但其仍未能彻底克服RNN的并行计算限制,并在处理极长序列时仍存在困难。

Transformer采用自注意力机制,使得模型在处理某个词时,能够同时关注输入序列中的所有词,并为每个词分配不同的注意力权重。通过在训练过程中学习这些权重,Transformer能够有效识别当前词与其他词之间的相关性,从而聚焦于输入序列中的关键部分。

此外,Transformer在对词进行嵌入并转换成向量之前,还会为每个词添加位置编码,以表示其在句子中的位置信息。这样,神经网络不仅能够理解每个词的意义,还能够捕捉词在句子中的顺序关系。

借助位置编码,Transformer能够接受无序的输入,模型可以同时处理输入序列中的所有位置,从而大幅提升了计算效率。这一设计使得Transformer在自然语言处理任务中表现出色,成为了当前的主流模型架构。

大模型是通过预测出现概率最高的下一个词来实现文本生成的。

Transformer架构可以看成由编码器和解码器组成。

  • 输入的文本首先会被拆分成各个token(文本的基本单位),然后每个token会被用一个整数数字(token ID)表示。然后将其传入嵌入层,嵌入层的作用是让每个token都用向量表示。
  • 然后对token向量进行位置编码,位置编码就是将表示各个词在文本里顺序的向量和词向量相加。

训练大模型的过程

  1. 无监督预训练
    通过大量的文本进行无监督学习预训练,得到一个能进行文本生成的基座模型。
  2. 监督微调
    通过一些人类撰写的高质量对话数据对基座模型进行微调,得到一个微调后的模型。此时的模型除了续写文本之外也会具备更好的对话能力。
    即监督学习,是在无监督学习的基础上进行监督微调。
    为什么不直接进行监督预训练:因为进行监督预训练的成本太高,所需要消耗的人力成本太大。
  3. 训练奖励模型+强化学习训练
    用问题和多个对应回答的数据,让人类标注员对回答进行质量排序。然后基于这些数据训练出一个能对回答进行评分预测的奖励模型。
    接下来让第二步得到的模型对文件生成回答,用奖励模型给回答进行评分。利用评分作为反馈进行强化学习。
    奖励模型训练即通过一个奖励参数让模型分辨每次反馈的不同,从而进行更高质量的反馈。

提示工程

提示工程(Prompt Engineering)就是研究如何提高和AI的沟通质量及效率的,核心关注提示的开发和优化。

零样本提示

直接丢东西给AI,没有进行任何示范。

小样本提示

在让AI回答前,通过给AI几个实例,通过一些样本对AI进行引导。

大模型就会利用上下文学习能力,学习这些样本的内容。

然后据此回答用户的提问。

思维链

运用思维链的方法:在给AI的小样本提示里不仅包含正确的结果,也展示中间的推理步骤。AI在生成回答时也会模仿着去生成一些中间步骤,把过程进行分解。

借助思维链,AI可以在每一步里把注意力集中在当前思考步骤上,减少上下文的过多干扰,因此对于复杂的任务,可以更大概率的得到正确的结果。

分步骤思考

即使我们不通过小样本提示,只是在问题后面添加一句请你分步骤思考,也可以更大概率的得到正确的结果。

武装AI

为了应当大模型的一些短板,可以借助一些外部工具或数据把IA武装起来。

实现这一思路的框架:

  • RAG(检索增强生成)
  • PAL(程序辅助语言模型)
  • ReAct(推理行动结合)

对于大模型的思考

大型语言模型(LLM)可以在某种程度上辅助发明和创造,比如通过生成新想法、提出创新的解决方案或者优化现有的设计。然而,它们本质上是基于已有数据和模式进行推理和生成的,真正的发明通常需要人类的创造性思维、情感和经验。大模型可以作为工具,帮助人类在发明过程中更高效地探索和实验。

在所有已知选项中选择最优选项,但是不能发现完全未发现的选项。即无法发明和创造。