大模型原理


一句话描述大模型的原理:不断优化的做词语接龙!

AIGC

AIGC(AI Generated Content)即AI生成的内容。

Generative AI(生成式AI),生成式AI所生成的内容就是AIGC

AI是属于计算机科学的一个学科,早在1956年AI就被确立为了一个学科领域。

机器学习(Machine Learning)是AI的一个子集,它的核心在与不需要人类做显示编程,而是让计算机通过算法自行学习和改进。去识别模式做出预测和决策。

机器学习可以分为三大类:

  • 监督学习:利用带标签的训练数据,通过算法学习输入与输出之间的映射关系,以便在新输入特征下准确预测输出值,包括分类(将数据划分为不同类别)和回归(预测数值)。

  • 无监督学习:算法处理没有标签的数据,旨在自主发现数据中的模式或规律,主要方法包括聚类(将数据分组)。

  • 强化学习:模型在特定环境中采取行动并获得反馈,从中学习以便在类似情况下采取最佳行动,以最大化奖励或最小化损失。

深度学习并不属于上述三大类中的任何一类,深度学习是机器学习的一种方法,主要通过层次化的神经网络结构模仿人脑的信息处理方式,从而有效提取和表示数据特征。它并不局限于传统的监督、无监督或强化学习,而是能够在多种任务中实现自我学习和特征表示。

神经网络可以应用于监督学习、无监督学习和强化学习,因此深度学习并不局限于这些分类之中。

生成式AI是深度学习的一种应用,通过神经网络识别现有内容的模式和结构,从而生成新的内容。

大型语言模型(LLM,Large Language Model)也是深度学习的一个应用,专注于自然语言处理任务。

原理

大型语言模型(LLM,Large Language Model)是一种深度学习模型,专用于处理自然语言任务,如文本生成、分类、摘要和改写等。它通过接收大量文本内容进行无监督学习,以提取和理解语言中的模式。例如,GPT-3就是一个典型的LLM。

2017年,谷歌团队发布的论文《Attention is All You Need》提出了Transformer架构,这一创新改变了自然语言处理的发展方向。在此之前,主流语言模型使用循环神经网络(RNN),其按顺序处理输入数据,当前步骤的输出依赖于先前的隐藏状态和当前输入。这种设计限制了并行计算的能力,降低了训练效率,并且RNN在处理长文本时表现不佳。由于RNN的结构特性,距离较远的词之间的关联性在传递过程中逐渐减弱,使其难以捕获长距离的语义关系。

为了解决长期依赖性问题,长短期记忆网络(LSTM)作为RNN的改进版本出现,但其仍未能彻底克服RNN的并行计算限制,并在处理极长序列时仍存在困难。

Transformer采用自注意力机制,使得模型在处理某个词时,能够同时关注输入序列中的所有词,并为每个词分配不同的注意力权重。通过在训练过程中学习这些权重,Transformer能够有效识别当前词与其他词之间的相关性,从而聚焦于输入序列中的关键部分。

此外,Transformer在对词进行嵌入并转换成向量之前,还会为每个词添加位置编码,以表示其在句子中的位置信息。这样,神经网络不仅能够理解每个词的意义,还能够捕捉词在句子中的顺序关系。

借助位置编码,Transformer能够接受无序的输入,模型可以同时处理输入序列中的所有位置,从而大幅提升了计算效率。这一设计使得Transformer在自然语言处理任务中表现出色,成为了当前的主流模型架构。

大模型是通过预测出现概率最高的下一个词来实现文本生成的。

Transformer架构可以看成由编码器和解码器组成。

  • 输入的文本首先会被拆分成各个token(文本的基本单位),然后每个token会被用一个整数数字(token ID)表示。然后将其传入嵌入层,嵌入层的作用是让每个token都用向量表示。
  • 然后对token向量进行位置编码,位置编码就是将表示各个词在文本里顺序的向量和词向量相加。

训练大模型的过程

  1. 无监督预训练
    通过大量的文本进行无监督学习预训练,得到一个能进行文本生成的基座模型。
  2. 监督微调
    通过一些人类撰写的高质量对话数据对基座模型进行微调,得到一个微调后的模型。此时的模型除了续写文本之外也会具备更好的对话能力。
    即监督学习,是在无监督学习的基础上进行监督微调。
    为什么不直接进行监督预训练:因为进行监督预训练的成本太高,所需要消耗的人力成本太大。
  3. 训练奖励模型+强化学习训练
    用问题和多个对应回答的数据,让人类标注员对回答进行质量排序。然后基于这些数据训练出一个能对回答进行评分预测的奖励模型。
    接下来让第二步得到的模型对文件生成回答,用奖励模型给回答进行评分。利用评分作为反馈进行强化学习。
    奖励模型训练即通过一个奖励参数让模型分辨每次反馈的不同,从而进行更高质量的反馈。

提示词工程

提示词工程(Prompt Engineering)就是研究如何提高和AI的沟通质量及效率的,核心关注提示的开发和优化。

零样本提示

直接丢东西给AI,没有进行任何示范。

小样本提示

在让 AI 回答前,通过给 AI 几个实例,通过一些样本对 AI 进行引导。

大模型就会利用上下文学习能力,学习这些样本的内容。

然后据此回答用户的提问。

  • 示例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
prompt(提示词) ##

角色 能力 任务

##### 角色
你现在是一个计算机专业和网络安全专业的双学位博士,并且在一个一流高校中担任教学任务,是一个德高望重的教授,从事与计算机软件研究和开发。除此之外你还是一个拥有丰富经验的CTF网络安全竞赛选手

##### 能力
1.精通WEB类的安全赛项技能。
2.精通漏洞挖掘与利用
3.精通软件逆向工程
4.精通密码破解

##### 任务
协助分析理解赛题并给出响应的解题思路

##### 输出案例
## 输入:缓存中间件用到了哪种持久化的技术( )(1.0 分)
A、RDB
B、AOF
C、文件存储
D、其他选项都是

## 输出:
D

思维链

运用思维链的方法:在给 AI 的小样本提示里不仅包含正确的结果,也展示中间的推理步骤。AI 在生成回答时也会模仿着去生成一些中间步骤,把过程进行分解。

借助思维链,AI 可以在每一步里把注意力集中在当前思考步骤上,减少上下文的过多干扰,因此对于复杂的任务,可以更大概率的得到正确的结果。

分步骤思考

即使不通过小样本提示,只是在问题后面添加一句请你分步骤思考,也可以更大概率的得到正确的结果。

加强模型

为了应对大模型的一些短板,可以借助一些外部工具或数据把 IA 武装起来。

实现这一思路的框架:

  • RAG(检索增强生成)
  • PAL(程序辅助语言模型)
  • ReAct(推理行动结合)

对于大模型的思考

大语言模型可以在某种程度上辅助发明和创造,比如通过生成新想法、提出创新的解决方案或者优化现有的设计。然而,它们本质上是基于已有数据和模式进行推理和生成的,真正的发明通常需要人类的创造性思维、情感和经验。大也就是说大模型适合通过已有的经验解决一些需要重复的问题。而无法解决一些难题。

猴子都能敲出一本莎士比亚。但是却无法找出未被命名的东西。就像是名称这些东西都是根据一些特征分配给一个事物的符号。而人们在未分配给这个事物对应的符号之前,并不知道这个符号所代表的意义

在所有已知选项中选择最优选项,但是不能发现完全未发现的选项。即无法发明和创造。