大模型原理
一句话描述大模型的原理:不断优化的做词语接龙!
AIGC
AIGC(AI Generated Content)即AI生成的内容。
Generative AI(生成式AI),生成式AI所生成的内容就是AIGC
AI是属于计算机科学的一个学科,早在1956年AI就被确立为了一个学科领域。
机器学习(Machine Learning)是AI的一个子集,它的核心在与不需要人类做显示编程,而是让计算机通过算法自行学习和改进。去识别模式
做出预测和决策。
机器学习可以分为三大类:
监督学习:利用带标签的训练数据,算法学习输入与输出之间的映射关系,以便在新输入特征下准确预测输出值,包括分类(将数据划分为不同类别)和回归(预测数值)。
无监督学习:算法处理没有标签的数据,旨在自主发现数据中的模式或规律,主要方法包括聚类(将数据分组)。
强化学习:模型在特定环境中采取行动并获得反馈,从中学习以便在类似情况下采取最佳行动,以最大化奖励或最小化损失。
深度学习并不属于上述三大类中的任何一类,深度学习是机器学习的一种方法,主要通过层次化的神经网络结构模仿人脑的信息处理方式,从而有效提取和表示数据特征。它并不局限于传统的监督、无监督或强化学习,而是能够在多种任务中实现自我学习和特征表示。
神经网络可以应用于监督学习、无监督学习和强化学习,因此深度学习并不局限于这些分类之中。
生成式AI是深度学习的一种应用,通过神经网络识别现有内容的模式和结构,从而生成新的内容。
大型语言模型(LLM,Large Language Model)也是深度学习的一个应用,专注于自然语言处理任务。
原理
大型语言模型(LLM,Large Language Model)是一种深度学习模型,专用于处理自然语言任务,如文本生成、分类、摘要和改写等。它通过接收大量文本内容进行无监督学习,以提取和理解语言中的模式。例如,GPT-3就是一个典型的LLM。
2017年,谷歌团队发布的论文《Attention is All You Need》提出了Transformer
架构,这一创新改变了自然语言处理的发展方向。在此之前,主流语言模型使用循环神经网络(RNN),其按顺序处理输入数据,当前步骤的输出依赖于先前的隐藏状态和当前输入。这种设计限制了并行计算的能力,降低了训练效率,并且RNN在处理长文本时表现不佳。由于RNN的结构特性,距离较远的词之间的关联性在传递过程中逐渐减弱,使其难以捕获长距离的语义关系。
为了解决长期依赖性问题,长短期记忆网络(LSTM)作为RNN的改进版本出现,但其仍未能彻底克服RNN的并行计算限制,并在处理极长序列时仍存在困难。
Transformer采用自注意力机制,使得模型在处理某个词时,能够同时关注输入序列中的所有词,并为每个词分配不同的注意力权重。通过在训练过程中学习这些权重,Transformer能够有效识别当前词与其他词之间的相关性,从而聚焦于输入序列中的关键部分。
此外,Transformer在对词进行嵌入并转换成向量之前,还会为每个词添加位置编码,以表示其在句子中的位置信息。这样,神经网络不仅能够理解每个词的意义,还能够捕捉词在句子中的顺序关系。
借助位置编码,Transformer能够接受无序的输入,模型可以同时处理输入序列中的所有位置,从而大幅提升了计算效率。这一设计使得Transformer在自然语言处理任务中表现出色,成为了当前的主流模型架构。
大模型是通过预测出现概率最高的下一个词来实现文本生成的。
Transformer架构可以看成由编码器和解码器组成。
- 输入的文本首先会被拆分成各个token(文本的基本单位),然后每个token会被用一个整数数字(token ID)表示。然后将其传入嵌入层,嵌入层的作用是让每个token都用向量表示。
- 然后对token向量进行位置编码,位置编码就是将表示各个词在文本里顺序的向量和词向量相加。
训练大模型的过程
- 无监督预训练
通过大量的文本进行无监督学习预训练,得到一个能进行文本生成的基座模型。 - 监督微调
通过一些人类撰写的高质量对话数据对基座模型进行微调,得到一个微调后的模型。此时的模型除了续写文本之外也会具备更好的对话能力。
即监督学习,是在无监督学习的基础上进行监督微调。
为什么不直接进行监督预训练:因为进行监督预训练的成本太高,所需要消耗的人力成本太大。 - 训练奖励模型+强化学习训练
用问题和多个对应回答的数据,让人类标注员对回答进行质量排序。然后基于这些数据训练出一个能对回答进行评分预测的奖励模型。
接下来让第二步得到的模型对文件生成回答,用奖励模型给回答进行评分。利用评分作为反馈进行强化学习。
奖励模型训练即通过一个奖励参数让模型分辨每次反馈的不同,从而进行更高质量的反馈。
提示工程
提示工程(Prompt Engineering)就是研究如何提高和AI的沟通质量及效率的,核心关注提示的开发和优化。
零样本提示
直接丢东西给AI,没有进行任何示范。
小样本提示
在让AI回答前,通过给AI几个实例,通过一些样本对AI进行引导。
大模型就会利用上下文学习能力,学习这些样本的内容。
然后据此回答用户的提问。
思维链
运用思维链的方法:在给AI的小样本提示里不仅包含正确的结果,也展示中间的推理步骤。AI在生成回答时也会模仿着去生成一些中间步骤,把过程进行分解。
借助思维链,AI可以在每一步里把注意力集中在当前思考步骤上,减少上下文的过多干扰,因此对于复杂的任务,可以更大概率的得到正确的结果。
分步骤思考
即使我们不通过小样本提示,只是在问题后面添加一句请你分步骤思考,也可以更大概率的得到正确的结果。
武装AI
为了应当大模型的一些短板,可以借助一些外部工具或数据把IA武装起来。
实现这一思路的框架:
- RAG(检索增强生成)
- PAL(程序辅助语言模型)
- ReAct(推理行动结合)
对于大模型的思考
大型语言模型(LLM)可以在某种程度上辅助发明和创造,比如通过生成新想法、提出创新的解决方案或者优化现有的设计。然而,它们本质上是基于已有数据和模式进行推理和生成的,真正的发明通常需要人类的创造性思维、情感和经验。大模型可以作为工具,帮助人类在发明过程中更高效地探索和实验。
在所有已知选项中选择最优选项,但是不能发现完全未发现的选项。即无法发明和创造。