mushding 的小小天地

Vision Transformer 演化史: Visual Transformers: Transformer in Transformer - 使用雙層 Transformer 來重新思考 Patch Embedding

發表於 2021-07-27 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 3.1k 所需閱讀時間 ≈ 8 分鐘

很多人會覺得 (包括我 XD) ViT 的方法實在太神奇了，直接把圖片表示在 16x16 的字串？！然後竟然還可以 work？這篇論文覺得直接把二維轉換成一維流失了太多空間上的資訊了，包括圖片像素與像素之間的關系，提出了 TNT Transformer in Transformer 架構，希望可以以內外兩層 Transformer 來加強圖片轉序列的可解釋性及可行性。

https://arxiv.org/pdf/2103.00112

keywords: TNT、Transformer in Transformer、word embedding

閱讀全文 »

Vision Transformer 演化史: Visual Transformers: Token-based Image Representation and Processing for Computer Vision - 使用 visual token 來強化傳統 CNN 的結果

發表於 2021-07-26 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 3.3k 所需閱讀時間 ≈ 8 分鐘

這是一篇來自 UC Berkeley 的論文，論文提出了基於 Transformer 的一個類似強化的模組 Visual Transformer (visual token)，可以加在任何現有的 Backbone 或是 FPN 上，可以比原架構效果好一些些，重要的是大大減少了參數運算量。

https://arxiv.org/pdf/2006.03677

keywords: Visual Transformer、Tokenizer

閱讀全文 »

Vision Transformer 演化史: Training data-efficient image transformers & distillation through attention - DeiT 使用知識蒸餾來改進 ViT 要使用大訓練集的缺點

發表於 2021-07-24 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 3.6k 所需閱讀時間 ≈ 9 分鐘

讀完 Google 發表的 ViT 論文後，不禁讓人覺得：哇塞這樣也行！，直接把圖片用一個字串來表示放進 Transformer 中。然而在原論文中也明確提到了：「that transformers do not generalize well when trained on insufficient amounts of data.」，意思即是在資料集不大的情況下 Transformer 的效果是比 CNN 還是來得差的，因此 Google 大神使用了 JFT-300 這個資料集做 pre-training ，但…Google 沒跟你說的是，這個資料不公開阿。因此 Facebook 提出 DeiT 模型，使用 distillation 的方法只需要使用 ImageNet 就可以有不錯的效果。

https://arxiv.org/pdf/2012.12877.pdf

keywords: DeiT, distillation

閱讀全文 »

嘎拉賀野溪溫泉一日遊

發表於 2021-07-23 更新於 2025-01-19 分類於遊記 Disqus：文章字數： 1.4k 所需閱讀時間 ≈ 3 分鐘

趁著烟花颱風來還沒來前又去了一趟野溪溫泉XD，一來因為是颱風前所以天氣特別好，二來也沒有什麼人。這一次去的是嘎拉賀野溪溫泉，位在台 7 線過了巴陵大橋後的光華道路內的嘎拉賀部落上。嘎拉賀部落在光華道路約 14 公里處，其實算是有點距離，要上山前記得要抓好時間喔。

keywords: 嘎拉賀野溪溫泉

閱讀全文 »

Big Transfer (BiT) - Transfer Learning 的總結

發表於 2021-07-15 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 1.3k 所需閱讀時間 ≈ 3 分鐘

在 2020 同樣熱門的研究主題還有 pre-training、fine tune 這一個領域，一個 Google 大神又再次以 BiT 這篇論文，結出了一個簡單全面的結論，來看看 pre-training 可以做到什麼程度，效果如何

keywords: Big Transfer、pre-training

閱讀全文 »

Knowledge Distillation 知識蒸餾 & Noisy Student

發表於 2021-07-15 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 2.3k 所需閱讀時間 ≈ 6 分鐘

2020 由於 BERT 在 NLP 的成功，Active Learning 與 Semi-supervised Learning 研究是相當熱門的一年，Google 提出的 Noisy Student 藉由 Teacher Student model 彼此之間的相互訓練，以及在 Student 加中雜訊來得到更好的結果。

https://arxiv.org/pdf/1503.02531 https://arxiv.org/abs/1911.04252

keywords: Knowledge Distillation、Noisy Student

閱讀全文 »

Vision Transformer 演化史: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale - 正式開始 Transformer 元年

發表於 2021-07-09 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 3.3k 所需閱讀時間 ≈ 8 分鐘

如果說之前的 DETR 是 Transformer 系列的開山始祖的話，那 ViT 就一定是發揚光大的人了。2020 Google 提出了 Vision Tranformer，提一個完全不用 CNN 只使用 Transformer 的網路架構，整體來說網路架構並不複雜，但對後來的影響力可不小，從 ViT 之後的論文名字都會變成 …T 什麼什麼 Transformer 的意思，而我系列的文章也改名為：「Vision Transformer 演化史」。

https://arxiv.org/pdf/2010.11929.pdf

keywords:

閱讀全文 »

NLP 與 CV 的結合：Deformable DETR: Deformable Transformer For End-To-End Object Detection - 正面對決 DETR 的缺點！

發表於 2021-07-09 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 3.7k 所需閱讀時間 ≈ 9 分鐘

Deformable DETR 的提出是為了解決 DETR 的兩個缺點：

訓練時間超長
- 因為 CNN 是 Attention Map 的一種特例，也就是說 Attention Map 的組合性多，效果效好，但是複雜度高
計算複雜度高
- 同上 Attention Map 是 \(N_q \cdot N_k\) 維的，而 CNN 是 \(HW\)

論文中使用了 Deformable conv 的觀念來達成減少運算量及加入多重解析度。

https://arxiv.org/pdf/2010.04159.pdf

keywords: Deformable DETR

閱讀全文 »

NLP 與 CV 的結合：End-to-End Object Detection with Transformers DETR

發表於 2021-07-08 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 5.4k 所需閱讀時間 ≈ 13 分鐘

本篇文章要來看看 Facebook 是怎麼把 Transformer 運用在 Object Detection 上，也因為這篇論文的成功，CV 界吹起了一陣 Transformer 熱…

https://arxiv.org/pdf/2005.12872.pdf

keywords: DETR

閱讀全文 »

NLP 與 CV 的結合：self attention 以及 Transformer

發表於 2021-07-07 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 4.6k 所需閱讀時間 ≈ 11 分鐘

2020 是個 Transformer 在 CV 界大放異彩的一年，在大學時期不知為何的學了一堆 NLP 領域的東西、但是因著興趣研究所選擇念 CV 的我，一聽到這個消息我有點小開心阿，竟然有一天可以把我學到的這兩個東西結合在一起，真是太神奇啦啦。於是打算在未來研究所試試看往這個方向研究…。這篇是 Transformer 系列文的第一篇，會來先了解最基本也是一切的開始：self attention 以及 Transformer，這兩個開山始祖。

keywords: self attention, Transformer

閱讀全文 »