mushding 的小小天地

你所不知道的 Pytorch 大補包(十一)：Pytorch 如何實驗 Backpropagation 之 Pytorch AutoGrad 幫我們做了什麼事？

發表於 2022-12-29 更新於 2025-01-19 分類於 Pytorch 大補包 Disqus：文章字數： 8.4k 所需閱讀時間 ≈ 21 分鐘

本文接續著上一篇 [你所不知道的 Pytorch 大補包(十)：Pytorch 如何實做出 Backpropagation 之什麼是 Backpropagation] 繼續更深入的了解 Pytorch 的底層

keywords: AutoGrad

你所不知道的 Pytorch 大補包(十)：Pytorch 如何實做出 Backpropagation 之什麼是 Backpropagation

發表於 2022-12-29 更新於 2025-01-19 分類於 Pytorch 大補包 Disqus：文章字數： 5.8k 所需閱讀時間 ≈ 15 分鐘

常常我們初學 pytroch 的時候都一定會看過下面的程式碼：

for epoch in range(1, epochs+1):
  output = model(dataset)
  loss = criterion(output, target)
  
  # wtf
  optimizer = zero_grad()
  loss.backward()
  optimizer.step()

好不容易跨出第一步，並剛接觸程式碼的你，一看到這坨鬼東西一定心裡有三個問號…(至少我是這樣啦哈哈。

keywords: Backpropagation

閱讀全文 »

你所不知道的 Pytorch 大補包(九)：一些 optimizer 整理

發表於 2022-12-29 更新於 2025-01-19 分類於 Pytorch 大補包 Disqus：文章字數： 1.7k 所需閱讀時間 ≈ 4 分鐘

本篇筆記主要參考以下網路文章：https://zhuanlan.zhihu.com/p/22252270

整理了一些常用 optimizer 的數學原理，及其重點特色

keywords: optimizer

閱讀全文 »

你所不知道的 Pytorch 大補包(八)：訓練小技巧 DDP 透過多機多卡來訓練模型

發表於 2022-12-29 更新於 2025-01-19 分類於 Pytorch 大補包 Disqus：文章字數： 6.2k 所需閱讀時間 ≈ 15 分鐘

DDP 的全文是 Distributed Data Parallel，是一種可以透過多機多卡來訓練模型的一種方法，它的本質上就是一個像 Map-Reduce 的東西，把訓練資料、Gradient、Loss 等資訊平均分配給每一個 GPU，達成多工處理的目的

DDP 也可以就看成，提高 batch-size 來提高網路效果

下面我們直接先來看 code 吧：

keywords: DDP

閱讀全文 »

你所不知道的 Pytorch 大補包(七)：訓練小技巧 AMP 混合精度

發表於 2022-12-29 更新於 2025-01-19 分類於 Pytorch 大補包 Disqus：文章字數： 5.5k 所需閱讀時間 ≈ 14 分鐘

用一串話簡單解釋什麼是 AMP：

在 2017 Nvidia 提出了用於「混合精度的訓練方法」，是一種可使用不同精度來運算 cuda tensor 運算，Nvidia 很貼心的用 python 整理成 apex 套件讓大家方便使用 https://github.com/NVIDIA/apex。而在之後 pytorch 1.6 的更新中，在 Nvidia 的幫忙下，開發了 torch.cuda.amp 函式 (AMP 全稱 Automatic Mixed Precision)，使得混合精度訓練可以在 pytorch 中直接引入並使用。

keywords: AMP

閱讀全文 »