课程进度 38% · 第6/14章第6/14章 · 标签 1/3
— 1 —
Transformer架构概述
基本结构
Transformer是一种基于自注意力机制的神经网络架构:
- 编码器-解码器架构:编码器(处理输入序列)、解码器(生成输出序列)、并行计算(提高训练效率)
- 自注意力机制:计算序列内部关系、捕捉长距离依赖、并行处理能力
- 位置编码:添加位置信息、正弦位置编码、可学习的位置编码
— 2 —
关键组件详解
Transformer的核心组件及其功能:
- 多头自注意力:并行计算多个注意力头、不同子空间的信息提取、增强模型的表达能力
- 前馈神经网络:两层全连接网络、ReLU激活函数、特征转换和增强
- 残差连接和层归一化:缓解梯度消失问题、稳定训练过程、加速模型收敛
变体与改进
Transformer架构的主要变体和改进:
- BERT:双向编码器表示、掩码语言模型预训练、下游任务微调
- GPT:单向自回归模型、大规模预训练、生成式任务
- T5:文本到文本转换、统一任务框架、多任务学习