mushding 的小小天地

Vision Transformer 演化史: CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

發表於 2021-12-03 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 4.1k 所需閱讀時間 ≈ 10 分鐘

論文網址：https://arxiv.org/pdf/2107.00652.pdf

Swin 原班人馬在 2021 7 月提出更進一步的網路架構 CSWin Transformer，提出全新的 Cross-Shaped Window self-attention 有著更好的特徵截取能力，以及更少的網路運算量

更提出新的位置資訊架構 LePE (Locally-enhanced Positional Encoding)，相較於原本的絕對位置 (APE) 或是相對位置 (RPE) 有著更好的表現

keywords: CSwin、LePE

閱讀全文 »

SwinIR 讀原始碼心得

發表於 2021-12-02 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 23k 所需閱讀時間 ≈ 56 分鐘

SwinIR 讀原始碼心得

Github 連結：https://github.com/JingyunLiang/SwinIR

keywords:

閱讀全文 »

Vision Transformer 演化史: SwinIR: Image Restoration Using Swin Transformer

發表於 2021-12-02 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 2k 所需閱讀時間 ≈ 5 分鐘

論文網址：https://arxiv.org/pdf/2108.10257.pdf

這是基於 Swin Transformer 應用在 Super Resolution 的研究，網路稱 SwinIR，實驗證明 Backbone 使用 Transformer 也能達到不錯的效果

最後效果甚至成為當時的 SOTA，改進了 0.14∼0.45dB，且參數使用量相較下少了 67% (拜層數不深所賜)

keywords: Swin Transformer、SwinIR

閱讀全文 »

Stochastic depth 隨機深度

發表於 2021-12-01 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 1.8k 所需閱讀時間 ≈ 4 分鐘

論文地址：

https://arxiv.org/pdf/1603.09382v3.pdf

Stochastic depth 這篇論文是在 ECCV 2016 所出的方向，這個時候是介於 ResNet 提出後，及 DenseNet 之前

而提出的作者 Gao Huang 也正是 ResNet 同一個作者

keywords: Stochastic depth、ResNet

閱讀全文 »

Rethink：重新思考 Transformer 倒底學到了什麼東西？倒底與 CNN 差在哪裡？

發表於 2021-11-11 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 7k 所需閱讀時間 ≈ 17 分鐘

前面看了這麼多不同的 Transformer 網路架構，不仿現在稍微停下腳步，回頭看看一些最基本的概念及問題：倒底 Transformer 比 CNN 好在哪裡？。究竟是什麼原因使得現在 Transformer 可以在各大題目上刷新 SOTA，而究竟 Transformer 創新的地方在哪裡？

keywords: Transformer、CNN

閱讀全文 »

Vision Transformer 演化史: CoAtNet: Marrying Convolution and Attention for All Data Sizes - 使用 Depthwise Conv 來結合 CNN 與 Transformer

發表於 2021-10-21 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 5.5k 所需閱讀時間 ≈ 14 分鐘

Google 繼提出 BotNet 後又提出新的 Transformer 網路 CoAtNet，並且在數學的公式上發現，Depthwise Convolution 是一個很好結合 CNN 與 Transformer 的點，將兩者公式結合得到刷新「分類」項目上的 SOTA，值得注意的是這篇論文目前並未開源。

https://arxiv.org/pdf/2106.04803.pdf

keywords: CoAtNet、Depthwise Convolution

閱讀全文 »

Vision Transformer 演化史: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows - 打破各項 SOTA 的新網路

發表於 2021-10-07 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 5k 所需閱讀時間 ≈ 13 分鐘

微軟提出 Shifted Windows，簡稱 Swin Transformer，目的是要解決 Transformer 在處理文本與處理影像差異的問題。然而效果卻出奇的好，甚至達到各項領域的 SOTA，在未來的幾篇論文介紹中也會繼續以 Swin 做為出發點。

https://arxiv.org/pdf/2103.14030.pdf

keywords: Swin Transformer、Shifted Windows

閱讀全文 »

合歡山上看星星 - 合歡山主峰北峰兩天一夜遊 (二)

發表於 2021-10-04 更新於 2025-01-19 分類於遊記 Disqus：文章字數： 2.3k 所需閱讀時間 ≈ 6 分鐘

前情提要：第一天合歡山之旅我們到了卡爾小鎮放了行李，接著到了合歡北峰登山口爬山，雖然爬山之路跌跌撞撞，但山上超美的風景以及熱情的人們並沒有澆熄我們的興致。

下了北峰後我們趁著太陽還在趕快手刀趕回露營地下，成功趁太陽還在時回到目的地。這個時候大約晚上 6 點整，此時大家都已經冷到了，而且肚子也超極餓的啦！

keywords: 合歡山

閱讀全文 »

合歡山上看星星 - 合歡山主峰北峰兩天一夜遊 (一)

發表於 2021-10-03 更新於 2025-01-19 分類於遊記 Disqus：文章字數： 2.8k 所需閱讀時間 ≈ 7 分鐘

大概在九月初的時候與高中同學約去山上看夜景，那時我無意之間提到：「要是在合歡山上風景一定更棒」。沒想到這無意的一句話竟然打動了我同學，也就是主揪「Jack」成為這次旅行的主要契機。

一年前，當時還是在台中讀大學的我去過一次合歡山，時隔一年，現在與「Jack」以及另一名同學「ㄨㄐ」重新上山。對我同學來說這一趟旅行是充滿未知的挑戰，但對我而言，卻是一個趟充滿懷念的旅程。

keywords: 合歡山

閱讀全文 »

為什麼 BLoC 中要使用 Equatable 呢？

發表於 2021-09-23 更新於 2025-01-19 分類於 Dart & Flutter 開發 Disqus：文章字數： 3.1k 所需閱讀時間 ≈ 8 分鐘

這幾天在學 flutter ，看到大家說當程式大起來的時候，state 會不好整理及控制。而 React 中有 Redux ，在 flutter 中大家最受歡迎的方法是 flutter_bloc ，以下簡單筆記我學 BLoC 的一些心路歷程

keywords: BLoC、Equatable

閱讀全文 »