扫盲 | 大模型常用名词解析
一、基础概念
Token(标记)
定义:文本处理中的最小单位,可以是单词(如 "love")、子词(如 "playing" 拆为 "play" 和 "ing")或字符(如中文常以单字为单位)。输入文本会被拆解为 Token 序列,供模型理解和生成,Token 数量直接影响输入长度限制(如 GPT 的 4096 Token 上限)。
示例:句子 "I love AI" 可拆为 ["I", "love", "AI"];中文 "我爱AI" 可拆为 ["我", "爱", "AI"]。
32B 中的 "B"
定义:"B" 表示 Billion(十亿),300B 即 3000 亿,通常指模型参数量。参数量并非唯一衡量性能的指标,训练数据质量和架构设计同样关键。
示例:GPT-3 参数量为 175B(1750 亿),Grok 可能更大(如假设为 300B)。
二、模型结构
Parameter(参数)
定义:模型中可学习的权重值,通过训练调整以优化预测能力。参数量越大,表达能力可能越强,但计算成本和内存需求也随之增加。
示例:一个 10B 参数的模型可能需要数十 GB 的显存来运行。
Layer(层)
定义:神经网络的基本模块,如全连接层、卷积层或注意力层,堆叠形成模型架构。不同层处理不同任务,如低层提取特征,高层整合信息,Transformer 模型通常包含多达几十层(如 BERT 有 12-24 层)。
作用:通过层间协作完成复杂计算。
Transformer
定义:基于自注意力机制(Self-Attention)的神经网络架构,擅长处理序列数据,广泛用于 GPT(生成)、BERT(理解)等模型,能捕捉句子中的长距离依赖关系。
示例:"The cat sat on the mat" 中,Transformer 可关联 "cat" 和 "sat"。
Self-Attention(自注意力机制)
定义:计算输入序列中每个位置与其他位置的相关性,动态分配关注权重。相比 RNN 并行性更强,效率更高。
示例:在 "The cat I saw yesterday was cute" 中,识别 "cat" 和 "cute" 的关联。
三、训练技术
Pretraining(预训练)
定义:在海量通用数据集(如网页文本、书籍)上训练模型,学习语言的基本模式和知识,为后续微调特定任务(如翻译、问答)奠定基础。
示例:BERT 在wiki百科和图书数据上预训练。
Fine-tuning(微调)
定义:基于预训练模型,用特定任务的小规模数据进一步优化性能,通常比从零训练更快且数据需求更低。
示例:将通用 GPT 微调为客服对话生成器。
Loss Function(损失函数)
作用:量化模型预测值与真实值之间的差距,用于指导参数优化,常见类型包括交叉熵损失(分类任务)和均方误差(回归任务)。
示例:对话模型用损失函数评估生成文本与目标文本的差异。
Epoch(轮次)
定义:模型完整遍历训练数据集一次的过程,过多 Epoch 可能导致过拟合。
示例:若数据集有 100 万样本,训练 5 Epoch 即模型处理 500 万次样本。
Batch Size(批量大小)
定义:每次参数更新时处理的样本数量,大 Batch Size(如 128)提高训练效率但需更多显存,小 Batch Size(如 4)更新频繁但速度较慢。
示例:Batch Size 为 32 表示每次更新基于 32 个样本的梯度。
Learning Rate(学习率)
作用:控制参数步长的超参数,影响训练收敛速度和稳定性,过高(如 0.1)可能跳过最优解,过低(如 0.0001)收敛太慢,常用学习率调度(如逐步衰减)优化训练。
示例:学习率调整后模型收敛更快。
四、优化与问题
Overfitting(过拟合)
四、优化与问题
Overfitting(过拟合)
定义:模型在训练数据上表现优异,但在未见过的数据(如测试集)上性能较差,通常因模型复杂度过高(如参数过多)或训练数据不足导致。
示例:训练准确率 99%,测试准确率仅 70%。
Regularization(正则化)
作用:通过限制模型复杂度防止过拟合,常见方法包括 L2 正则化(惩罚权重平方和)和 Dropout(随机丢弃神经元)。
示例:添加 L2 正则后,测试准确率从 70% 升至 85%。
五、数据表示
Embedding(嵌入)
定义:将离散符号(如单词、字符)映射为连续向量,用于表示语义信息,语义相似的符号在向量空间中距离较近,便于模型理解,常见方法包括 Word2Vec 和 Transformer 的词嵌入层。
示例:"king" 和 "queen" 的嵌入向量接近,而与 "apple" 较远。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)