课程进度 31% · 第5/14章第5/14章 · 标签 1/3
— 1 —
注意力机制(Attention Mechanism)概述
核心思想与优势
注意力机制是一种让模型能够动态关注输入数据中重要部分的机制。其核心思想是通过选择性关注、权重分配、上下文感知和并行计算,有效提升模型对长序列数据的处理能力。
- 选择性关注:模型可以动态地关注输入的不同部分
- 权重分配:为不同的输入部分分配不同的重要性权重
- 上下文感知:考虑输入序列的上下文信息
- 并行计算:可以并行处理输入序列
— 2 —
注意力机制的类型
- 自注意力(Self-Attention):计算序列内部元素之间的关系,用于捕获长距离依赖
- 交叉注意力(Cross-Attention):计算两个不同序列之间的关系,常用于编码器-解码器架构
- 多头注意力(Multi-Head Attention):并行计算多个注意力头,捕获不同子空间的信息
- 缩放点积注意力(Scaled Dot-Product Attention):使用缩放因子优化梯度,计算效率高
应用场景
- 机器翻译
- 文本摘要
- 问答系统
- 图像描述生成
- 语音识别
- 推荐系统