ViT(Vision Transformer)

把图片分割成16x16大小的”单词”块 :可学习的position embedding特征,加到patch embedding

参考

MAE(Masked AutoEncoders)

#自监督#自预测 图片挖块做完形填空,BERT的CV版本 挖掉大量块(如75%),再还原全图

参考

Swin Transformer

Hierarchical Vision Transformer with Shifted windowns 用了移动窗口的、层级式的 Vision Transformer Swin在小窗口内算自注意力,Vit在整图上算自注意力

Swin计算单元:先在窗口内算多头自注意力W-MSA,再在移动后窗口内算多头自注意力SW-MSA(下图的 Patch Merging:把长宽减半、通道加倍 计算SW-MSA:循环移位,再用掩码保证移位后不同区域的MSA计算不混合,参见 掩码操作给不要的值加上-100,再经过softmax就变成0了

参考