ViT(Vision Transformer)
把图片分割成16x16大小的”单词”块
position embedding特征,加到patch embedding
MAE(Masked AutoEncoders)
#自监督#自预测
图片挖块做完形填空,BERT的CV版本
挖掉大量块(如75%),再还原全图
Swin Transformer
Hierarchical Vision Transformer with Shifted windowns
用了移动窗口的、层级式的 Vision Transformer
Swin在小窗口内算自注意力,Vit在整图上算自注意力
Swin计算单元:先在窗口内算多头自注意力W-MSA,再在移动后窗口内算多头自注意力SW-MSA(下图的
Patch Merging:把长宽减半、通道加倍
计算SW-MSA:循环移位,再用掩码保证移位后不同区域的MSA计算不混合,参见
掩码操作给不要的值加上-100,再经过softmax就变成0了