freeBuf
主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

点我创作

试试在FreeBuf发布您的第一篇文章 让安全圈留下您的足迹
我知道了

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

扫盲 | 大模型常用名词解析
2025-03-12 09:02:17
所属地 甘肃省

扫盲 | 大模型常用名词解析

一、基础概念

  1. Token(标记)

    • 定义:文本处理中的最小单位,可以是单词(如 "love")、子词(如 "playing" 拆为 "play" 和 "ing")或字符(如中文常以单字为单位)。输入文本会被拆解为 Token 序列,供模型理解和生成,Token 数量直接影响输入长度限制(如 GPT 的 4096 Token 上限)。

    • 示例:句子 "I love AI" 可拆为 ["I", "love", "AI"];中文 "我爱AI" 可拆为 ["我", "爱", "AI"]。

  2. 32B 中的 "B"

    • 定义:"B" 表示 Billion(十亿),300B 即 3000 亿,通常指模型参数量。参数量并非唯一衡量性能的指标,训练数据质量和架构设计同样关键。

    • 示例:GPT-3 参数量为 175B(1750 亿),Grok 可能更大(如假设为 300B)。


二、模型结构

  1. Parameter(参数)

    • 定义:模型中可学习的权重值,通过训练调整以优化预测能力。参数量越大,表达能力可能越强,但计算成本和内存需求也随之增加。

    • 示例:一个 10B 参数的模型可能需要数十 GB 的显存来运行。

  2. Layer(层)

    • 定义:神经网络的基本模块,如全连接层、卷积层或注意力层,堆叠形成模型架构。不同层处理不同任务,如低层提取特征,高层整合信息,Transformer 模型通常包含多达几十层(如 BERT 有 12-24 层)。

    • 作用:通过层间协作完成复杂计算。

  3. Transformer

    • 定义:基于自注意力机制(Self-Attention)的神经网络架构,擅长处理序列数据,广泛用于 GPT(生成)、BERT(理解)等模型,能捕捉句子中的长距离依赖关系。

    • 示例:"The cat sat on the mat" 中,Transformer 可关联 "cat" 和 "sat"。

  4. Self-Attention(自注意力机制)

    • 定义:计算输入序列中每个位置与其他位置的相关性,动态分配关注权重。相比 RNN 并行性更强,效率更高。

    • 示例:在 "The cat I saw yesterday was cute" 中,识别 "cat" 和 "cute" 的关联。


三、训练技术

  1. Pretraining(预训练)

    • 定义:在海量通用数据集(如网页文本、书籍)上训练模型,学习语言的基本模式和知识,为后续微调特定任务(如翻译、问答)奠定基础。

    • 示例:BERT 在wiki百科和图书数据上预训练。

  2. Fine-tuning(微调)

    • 定义:基于预训练模型,用特定任务的小规模数据进一步优化性能,通常比从零训练更快且数据需求更低。

    • 示例:将通用 GPT 微调为客服对话生成器。

  3. Loss Function(损失函数)

    • 作用:量化模型预测值与真实值之间的差距,用于指导参数优化,常见类型包括交叉熵损失(分类任务)和均方误差(回归任务)。

    • 示例:对话模型用损失函数评估生成文本与目标文本的差异。

  4. Epoch(轮次)

    • 定义:模型完整遍历训练数据集一次的过程,过多 Epoch 可能导致过拟合。

    • 示例:若数据集有 100 万样本,训练 5 Epoch 即模型处理 500 万次样本。

  5. Batch Size(批量大小)

    • 定义:每次参数更新时处理的样本数量,大 Batch Size(如 128)提高训练效率但需更多显存,小 Batch Size(如 4)更新频繁但速度较慢。

    • 示例:Batch Size 为 32 表示每次更新基于 32 个样本的梯度。

  6. Learning Rate(学习率)

    • 作用:控制参数步长的超参数,影响训练收敛速度和稳定性,过高(如 0.1)可能跳过最优解,过低(如 0.0001)收敛太慢,常用学习率调度(如逐步衰减)优化训练。

    • 示例:学习率调整后模型收敛更快。


四、优化与问题

  1. Overfitting(过拟合)


四、优化与问题

  1. Overfitting(过拟合)

    • 定义:模型在训练数据上表现优异,但在未见过的数据(如测试集)上性能较差,通常因模型复杂度过高(如参数过多)或训练数据不足导致。

    • 示例:训练准确率 99%,测试准确率仅 70%。

  2. Regularization(正则化)

    • 作用:通过限制模型复杂度防止过拟合,常见方法包括 L2 正则化(惩罚权重平方和)和 Dropout(随机丢弃神经元)。

    • 示例:添加 L2 正则后,测试准确率从 70% 升至 85%。


五、数据表示

  1. Embedding(嵌入)

    • 定义:将离散符号(如单词、字符)映射为连续向量,用于表示语义信息,语义相似的符号在向量空间中距离较近,便于模型理解,常见方法包括 Word2Vec 和 Transformer 的词嵌入层。

    • 示例:"king" 和 "queen" 的嵌入向量接近,而与 "apple" 较远。

# AI人工智能
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者