Dual attention是由 Fu et al.(2018, 中國科學院)在 Dual Attention Network for Scene Segmentation提出,利用空間注意力和通道注意力解決語意分割上的分類及尺度問題。
對Squeeze and excitation不熟悉,可參考
網路概念
Dual attention由空間注意力模塊跟通道注意力模塊組成。
空間注意力模塊用空間資訊的關聯矩陣作為注意力權重,計算自注意力(self-attention)調整的特徵圖,再以殘差結構輸出。
通道注意力模塊用通道資訊的關聯矩陣作為注意力權重,以同樣方式計算後輸出,與前者的差別在於沒有過多卷積層的運算。
語意分割的方法也大致出現了三種,第一種是特徵金字塔,例如FCN、UNet,取用不同尺度的特徵圖後傳遞結合,第二種是金字塔池化,例如PSPNet,將特徵圖化為不同尺度後結合,第三種是注意力機制,例如Dual attention,利用特徵圖的關聯性調整訊息的重要性。
網路結構
注意力模塊放在網路後方作為預測頭。用法與其他語意分割網路相同,轉換融合最後一層特徵圖的資訊。
資料集
PASCAL VOC 2012,著名的影像資料集,包含物件偵測和語意分割等任務。
評估
VOC 2007資料集的Jaccard index為0.86。
訓練模型大小達到108.3MiB、推論模型大小達到99.3MiB。
VOC驗證集,預測結果幾乎與標籤相同。
任意圖片的辨識效果大致完整,手部也有效切割。
筆記
參數量比PSPNet這類pooling類型少了很多,辨識效果也不錯。