Pytorch實作系列 — VDCNN

mz bai
Sep 3, 2024

--

VDCNN 是由 Conneau et al.(2016, 臉書AI實驗室 FAIR)在 Very Deep Convolutional Networks for Text Classification 提出,作為當時CNN往NLP發展的學術里程碑,展現更深的CNN網路也能達成不俗的文本分類能力。

網路概念

當時NLP領域基本上被RNN家族及詞向量語言模型佔據,而CharCNN在這之中嶄露頭角,同時ResNet在深度上的強化取得領域上的突破,因此有了加深版本的VDCNN。

網路結構

結構上與charCNN相同,同樣以character level的細粒度,收集ngram的整合特徵,除了多個小小的embedding layer,也許是為了能更快豐富特徵空間吧。

※ 論文中的temporal conv是指Conv1d,不是TCN的causal convolution。

VDCNN architecture
VDCNN block

資料集

AG News,AG是作者的名字,收集超過2000個新聞來源的多分類資料集,在torchtext共收錄四類,全球、運動、商業、科學。

評估

測試準確度達到85%,模型大小為64MB,儘管embedding參數減少,CNN的參數仍然很多。

實作

參考

--

--

mz bai
mz bai

Written by mz bai

Math is math, math is universal Code is code, code is horrifying unique.

No responses yet