深度學習 3D 影像速讀

發表於 2022-07-07 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 2.1k 所需閱讀時間 ≈ 5 分鐘

實驗室未來有可能要做 3D 的影像處理，來寫一篇筆記記錄一下我從 0 開始學什麼是 3D 影像

keywords: point cloud、voxel

怎麼得到 3D 的影像？

一種方式是模仿人類使用「立體視覺法」，利用兩個不同角度的攝影機去對同一個物體拍攝，就可以利用同一個點不同位置的資訊去建構出 3D 的立體影像。

而另一種則是使用 TOF 「飛行時間法」，最有名的例子是 RGB-D 格式，每一個影像上的像素都會額外在新增一維「深度維」，利用計算雷射光來回的時間差就可得知，微軟的 Kincet 是最有名的攝影機

第三種是雷射雷達 LiDAR，與上面的 TOF 原理類似，只不過 LiDAR 能往同心圓四面八方發射，且發射的距離可遠的多，與之對應的儲存格式是 point cloud

怎麼在電腦中表示？

我們有了許多 3D 影像的各種資訊，我們怎麼統一表示這些資訊，或是有什麼格式可以遵循嗎？

以下格式由左至右是：point cloud 點雲、voxel 體素、mesh 三角多邊型網格、multi-view 多視角集合

所謂 point cloud 多半是指從 LiDAR 收集而來的影像資料，它是由一個個互相「獨立」的點所構成，每一個都會包含很多資訊：RGB 顏色、深度、來回時間…，而 point cloud 的優點為：資料不太需要二次處理，即收集即能用，且表示出的 3D 影像較不失真；而 point cloud 的缺點也與好是它的反面：point cloud 大多是「無序」的，也可看成它是一個集合，這個集合中的點相互交換對網路的輸出結果應該要是不會變的，同時因它沒有「座標表示」，現有的 CNN 架構無法直接使用上
voxel 體素一詞是由 pixel 像素變化而來，特指 3D 上的 pixel 影像，也有人稱這種型式叫 2.5D。voxel 也想成由需多二維切片影像，一個疊一個，疊出一個三維的表示，voxel 最常應用在醫學的斷層掃描上。voxel 的優點是有座標系統，可以直接使用現成的 CNN 模型來達成；缺點是：需要影像二次處理，point cloud 影像需要經 Occupancy Grid Map (占據網格網路) 轉換為 Voxel (詳細方法可參考以下文章：占据栅格地图（Occupancy Grid Map）知乎，且因有座標系所有存在失真的問題
mesh 多邊型，常常應用在 3D 圖學上，多用於建模，而常見的處理方式可以利用 GNN Graph 的方式去處理 (這個我比較不清楚，就不多細說了)
multi-view，則是我們放置了許許多多的攝影機去拍攝同一物體，我們期望藉由影像相互之間的關系，去建構出 3D 關系圖