PartJava - 编程学习与开发工具导航平台

导航菜单

分类导航

计算机视觉/进阶与前沿13 / 13

课程进度 94% · 第13/13章第13/13章 · 标签 1/4

— 1 —

前沿技术

Vision Transformer (ViT)

将图像分割为固定大小的patch
使用位置编码保持空间信息
自注意力机制处理全局关系
在大规模数据集上表现优异

Swin Transformer

层次化设计
滑动窗口注意力机制
多尺度特征提取
计算效率更高

对比学习

SimCLR：端到端对比学习
MoCo：动量对比学习
BYOL：自监督表示学习
无需标注数据

— 2 —

掩码图像建模

MAE：掩码自编码器
BEiT：双向编码器
自监督预训练
迁移学习效果好

计算机视觉面试题