網路概念

Dual attention由空間注意力模塊跟通道注意力模塊組成。

空間注意力模塊用空間資訊的關聯矩陣作為注意力權重,計算自注意力(self-attention)調整的特徵圖,再以殘差結構輸出。

通道注意力模塊用通道資訊的關聯矩陣作為注意力權重,以同樣方式計算後輸出,與前者的差別在於沒有過多卷積層的運算。

dual attention structure in paper, gray rectangles are convolution layers

語意分割的方法也大致出現了三種,第一種是特徵金字塔,例如FCNUNet,取用不同尺度的特徵圖後傳遞結合,第二種是金字塔池化,例如PSPNet,將特徵圖化為不同尺度後結合,第三種是注意力機制,例如Dual attention,利用特徵圖的關聯性調整訊息的重要性。

semantic segmentation methods

網路結構

注意力模塊放在網路後方作為預測頭。用法與其他語意分割網路相同,轉換融合最後一層特徵圖的資訊。

network architecture in paper, gray rectangles are convolution layers

資料集

PASCAL VOC 2012,著名的影像資料集,包含物件偵測和語意分割等任務。

評估

VOC 2007資料集的Jaccard index為0.86。

訓練模型大小達到108.3MiB、推論模型大小達到99.3MiB。

jaccard index

VOC驗證集,預測結果幾乎與標籤相同。

VOC validation

任意圖片的辨識效果大致完整,手部也有效切割。

woman from https://www.pexels.com/photo/woman-holding-disposable-cup-712513/

筆記

參數量比PSPNet這類pooling類型少了很多,辨識效果也不錯。

實作

參考

--

--

mz bai
mz bai

Written by mz bai

Math is math, math is universal Code is code, code is horrifying unique.

No responses yet