导航菜单

计算机视觉/进阶与前沿
课程进度 94% · 第13/13章13/13章 · 标签 1/4
1

前沿技术

Vision Transformer (ViT)

  • 将图像分割为固定大小的patch
  • 使用位置编码保持空间信息
  • 自注意力机制处理全局关系
  • 在大规模数据集上表现优异

Swin Transformer

  • 层次化设计
  • 滑动窗口注意力机制
  • 多尺度特征提取
  • 计算效率更高

对比学习

  • SimCLR:端到端对比学习
  • MoCo:动量对比学习
  • BYOL:自监督表示学习
  • 无需标注数据
2

掩码图像建模

  • MAE:掩码自编码器
  • BEiT:双向编码器
  • 自监督预训练
  • 迁移学习效果好