mushding 的小小天地

歡迎來到 mushding 的雜七雜八生活筆記

很多人會覺得 (包括我 XD) ViT 的方法實在太神奇了,直接把圖片表示在 16x16 的字串?!然後竟然還可以 work?這篇論文覺得直接把二維轉換成一維流失了太多空間上的資訊了,包括圖片像素與像素之間的關系,提出了 TNT Transformer in Transformer 架構,希望可以以內外兩層 Transformer 來加強圖片轉序列的可解釋性及可行性。

https://arxiv.org/pdf/2103.00112

keywords: TNT、Transformer in Transformer、word embedding

閱讀全文 »

這是一篇來自 UC Berkeley 的論文,論文提出了基於 Transformer 的一個類似強化的模組 Visual Transformer (visual token),可以加在任何現有的 Backbone 或是 FPN 上,可以比原架構效果好一些些,重要的是大大減少了參數運算量。

https://arxiv.org/pdf/2006.03677

keywords: Visual Transformer、Tokenizer

閱讀全文 »

讀完 Google 發表的 ViT 論文後,不禁讓人覺得:哇塞這樣也行!,直接把圖片用一個字串來表示放進 Transformer 中。然而在原論文中也明確提到了:「that transformers do not generalize well when trained on insufficient amounts of data.」,意思即是在資料集不大的情況下 Transformer 的效果是比 CNN 還是來得差的,因此 Google 大神使用了 JFT-300 這個資料集做 pre-training ,但…Google 沒跟你說的是,這個資料不公開阿。因此 Facebook 提出 DeiT 模型,使用 distillation 的方法只需要使用 ImageNet 就可以有不錯的效果。

https://arxiv.org/pdf/2012.12877.pdf

keywords: DeiT, distillation

閱讀全文 »

趁著烟花颱風來還沒來前又去了一趟野溪溫泉XD,一來因為是颱風前所以天氣特別好,二來也沒有什麼人。這一次去的是嘎拉賀野溪溫泉,位在台 7 線過了巴陵大橋後的光華道路內的嘎拉賀部落上。嘎拉賀部落在光華道路約 14 公里處,其實算是有點距離,要上山前記得要抓好時間喔。

keywords: 嘎拉賀野溪溫泉

閱讀全文 »

在 2020 同樣熱門的研究主題還有 pre-training、fine tune 這一個領域,一個 Google 大神又再次以 BiT 這篇論文,結出了一個簡單全面的結論,來看看 pre-training 可以做到什麼程度,效果如何

keywords: Big Transfer、pre-training

閱讀全文 »

2020 由於 BERT 在 NLP 的成功,Active Learning 與 Semi-supervised Learning 研究是相當熱門的一年,Google 提出的 Noisy Student 藉由 Teacher Student model 彼此之間的相互訓練,以及在 Student 加中雜訊來得到更好的結果。

https://arxiv.org/pdf/1503.02531 https://arxiv.org/abs/1911.04252

keywords: Knowledge Distillation、Noisy Student

閱讀全文 »

如果說之前的 DETR 是 Transformer 系列的開山始祖的話,那 ViT 就一定是發揚光大的人了。2020 Google 提出了 Vision Tranformer,提一個完全不用 CNN 只使用 Transformer 的網路架構,整體來說網路架構並不複雜,但對後來的影響力可不小,從 ViT 之後的論文名字都會變成 …T 什麼什麼 Transformer 的意思,而我系列的文章也改名為:「Vision Transformer 演化史」。

https://arxiv.org/pdf/2010.11929.pdf

keywords:

閱讀全文 »

Deformable DETR 的提出是為了解決 DETR 的兩個缺點:

  • 訓練時間超長
    • 因為 CNN 是 Attention Map 的一種特例,也就是說 Attention Map 的組合性多,效果效好,但是複雜度高
  • 計算複雜度高
    • 同上 Attention Map 是 \(N_q \cdot N_k\) 維的,而 CNN 是 \(HW\)

論文中使用了 Deformable conv 的觀念來達成減少運算量及加入多重解析度。

https://arxiv.org/pdf/2010.04159.pdf

keywords: Deformable DETR

閱讀全文 »

2020 是個 Transformer 在 CV 界大放異彩的一年,在大學時期不知為何的學了一堆 NLP 領域的東西、但是因著興趣研究所選擇念 CV 的我,一聽到這個消息我有點小開心阿,竟然有一天可以把我學到的這兩個東西結合在一起,真是太神奇啦啦。於是打算在未來研究所試試看往這個方向研究…。這篇是 Transformer 系列文的第一篇,會來先了解最基本也是一切的開始:self attention 以及 Transformer,這兩個開山始祖。

keywords: self attention, Transformer

閱讀全文 »