扫盲 | 大模型常用名词解析 - FreeBuf网络安全行业门户

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

其他

扫盲 | 大模型常用名词解析

2025-03-12 09:02:17

所属地甘肃省

扫盲 | 大模型常用名词解析

一、基础概念

Token（标记）
- 定义：文本处理中的最小单位，可以是单词（如 "love"）、子词（如 "playing" 拆为 "play" 和 "ing"）或字符（如中文常以单字为单位）。输入文本会被拆解为 Token 序列，供模型理解和生成，Token 数量直接影响输入长度限制（如 GPT 的 4096 Token 上限）。
- 示例：句子 "I love AI" 可拆为 ["I", "love", "AI"]；中文 "我爱AI" 可拆为 ["我", "爱", "AI"]。
32B 中的 "B"
- 定义："B" 表示 Billion（十亿），300B 即 3000 亿，通常指模型参数量。参数量并非唯一衡量性能的指标，训练数据质量和架构设计同样关键。
- 示例：GPT-3 参数量为 175B（1750 亿），Grok 可能更大（如假设为 300B）。

二、模型结构

Parameter（参数）
- 定义：模型中可学习的权重值，通过训练调整以优化预测能力。参数量越大，表达能力可能越强，但计算成本和内存需求也随之增加。
- 示例：一个 10B 参数的模型可能需要数十 GB 的显存来运行。
Layer（层）
- 定义：神经网络的基本模块，如全连接层、卷积层或注意力层，堆叠形成模型架构。不同层处理不同任务，如低层提取特征，高层整合信息，Transformer 模型通常包含多达几十层（如 BERT 有 12-24 层）。
- 作用：通过层间协作完成复杂计算。
Transformer
- 定义：基于自注意力机制（Self-Attention）的神经网络架构，擅长处理序列数据，广泛用于 GPT（生成）、BERT（理解）等模型，能捕捉句子中的长距离依赖关系。
- 示例："The cat sat on the mat" 中，Transformer 可关联 "cat" 和 "sat"。
Self-Attention（自注意力机制）
- 定义：计算输入序列中每个位置与其他位置的相关性，动态分配关注权重。相比 RNN 并行性更强，效率更高。
- 示例：在 "The cat I saw yesterday was cute" 中，识别 "cat" 和 "cute" 的关联。

三、训练技术

Pretraining（预训练）
- 定义：在海量通用数据集（如网页文本、书籍）上训练模型，学习语言的基本模式和知识，为后续微调特定任务（如翻译、问答）奠定基础。
- 示例：BERT 在wiki百科和图书数据上预训练。
Fine-tuning（微调）
- 定义：基于预训练模型，用特定任务的小规模数据进一步优化性能，通常比从零训练更快且数据需求更低。
- 示例：将通用 GPT 微调为客服对话生成器。
Loss Function（损失函数）
- 作用：量化模型预测值与真实值之间的差距，用于指导参数优化，常见类型包括交叉熵损失（分类任务）和均方误差（回归任务）。
- 示例：对话模型用损失函数评估生成文本与目标文本的差异。
Epoch（轮次）
- 定义：模型完整遍历训练数据集一次的过程，过多 Epoch 可能导致过拟合。
- 示例：若数据集有 100 万样本，训练 5 Epoch 即模型处理 500 万次样本。
Batch Size（批量大小）
- 定义：每次参数更新时处理的样本数量，大 Batch Size（如 128）提高训练效率但需更多显存，小 Batch Size（如 4）更新频繁但速度较慢。
- 示例：Batch Size 为 32 表示每次更新基于 32 个样本的梯度。
Learning Rate（学习率）
- 作用：控制参数步长的超参数，影响训练收敛速度和稳定性，过高（如 0.1）可能跳过最优解，过低（如 0.0001）收敛太慢，常用学习率调度（如逐步衰减）优化训练。
- 示例：学习率调整后模型收敛更快。

四、优化与问题

Overfitting（过拟合）

四、优化与问题

Overfitting（过拟合）
- 定义：模型在训练数据上表现优异，但在未见过的数据（如测试集）上性能较差，通常因模型复杂度过高（如参数过多）或训练数据不足导致。
- 示例：训练准确率 99%，测试准确率仅 70%。
Regularization（正则化）
- 作用：通过限制模型复杂度防止过拟合，常见方法包括 L2 正则化（惩罚权重平方和）和 Dropout（随机丢弃神经元）。
- 示例：添加 L2 正则后，测试准确率从 70% 升至 85%。

五、数据表示

Embedding（嵌入）
- 定义：将离散符号（如单词、字符）映射为连续向量，用于表示语义信息，语义相似的符号在向量空间中距离较近，便于模型理解，常见方法包括 Word2Vec 和 Transformer 的词嵌入层。
- 示例："king" 和 "queen" 的嵌入向量接近，而与 "apple" 较远。

# AI人工智能

已在FreeBuf发表 0 篇文章

本文为独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多