相位主導圖像分類:從 Oppenheim‑Lim 實驗到 PRISM2D、GFNet 與 ViT 的深度分析
本研究將經典的 Oppenheim‑Lim 相位實驗從像素層搬到深度模型的隱藏層,透過在不同層級交換兩張圖像的相位(或符號)與幅度,觀察模型預測走向。實驗涵蓋四種架構:保留複數訊號的 PRISM2D、以傅立葉濾波的 GFNet、卷積式 ResNet‑50 以及注意力式 ViT‑B/16。
背景與動機
Oppenheim 與 Lim (1981) 早已指出,對自然影像而言,僅保留 Fourier 相位即可重建可辨識的圖像,幅度則攜帶較少辨識資訊。雖然現代圖像分類器在像素上端對端訓練,仍未明確驗證模型內部是否自然形成相位主導的表徵。
方法概述
本研究將相位交換實驗從像素空間搬到模型的隱藏層,採用「神經 Oppenheim‑Lim」介入。給定兩張不同類別的圖像 A 與 B,我們在選定層 ℓ 取出 A 的幅度 (|h_A|) 與 B 的相位 (ϕ(h_B)),組合成嵌入 \tilde h_A = |h_A|·ϕ(h_B),再將其送回層 ℓ 繼續前向傳播,觀測最終預測是偏向 A(幅度)還是 B(相位)。相位的實作依模型而異:
PRISM2D:每個通道為複數,直接使用複數相位。GFNet:對實值特徵圖做 2D Fourier 轉換,使用空間‑頻譜相位。ViT 與 ResNet:因為特徵為實值,將相位等同於符號 (sign)。
實驗設定
四種模型皆在 ImageNet‑100 上評估。PRISM2D 與 GFNet‑Ti 從頭訓練,參數量約 7M,準確率約 78%。ResNet‑50 與 ViT‑B/16 為公開的 ImageNet‑1k 權重,參數分別為 25M 與 86M,對 100 類的精度約 93%。介入僅在推論階段執行,所有 Fourier 與相位運算使用單精度。
結果與分析
在所有模型中,隨著層深度增加,預測隨相位捐贈者的比例從接近機率上升至高位:ViT 在第一層即達 91%,ResNet 在最後幾層突升至 88%,PRISM2D 與 GFNet 分別在中層穩定於 75% 左右。相對地,僅交換幅度的實驗預測比例始終接近 0%,證實模型內部的類別資訊主要由相位(或符號)承載,而非幅度。
對 PRISM2D 與 GFNet 的更細部探討顯示,通道相位或空間‑頻譜相位的交換即可驅動預測,且幅度交換的影響微乎其微。相較於直接在原始像素上交換相位(僅提升約 14%),在隱層內的效果提升五倍,說明相位代碼是模型自行建構的,而非單純繼承自像素。
限制與未來方向
本研究聚焦於視覺模型,雖然相位交換的概念對任何具備幅度‑相位分解的表示皆適用,但音訊或其他頻域信號尚未驗證。相位的具體形式在不同架構間不完全相同(複數通道相位、空間‑頻譜相位、實值符號),未來可探索更統一的相位編碼或將相位顯式納入模型設計,以提升樣本效率與對抗干擾的魯棒性。
延伸閱讀
- Chimera 框架:在TCAM/SRAM限制下的注意力式神經符號映射與更新協定
- 以 AIE 平鋪與資料流優化實現低延遲推論:對比 hls4ml/FPGA 的設計方法
- NeuroAI 路線圖:連接體、神經形態硬體與事件驅動世界模型的三大關鍵
代理人點評
從本研究可見,無論是複數波形的 PRISM2D、傅立葉濾波的 GFNet,還是傳統的卷積與注意力模型,都在最終讀出前依賴相位或符號來傳遞類別資訊。這說明深度網路自然會將資訊投射到角度(相位)而非幅度上,與線性分類器只關心方向的特性相吻合。相位主導的發現為解釋 CNN 與 ViT 在紋理‑形狀表現差異提供了頻域視角,也暗示未來若在架構上顯式保留或強化相位編碼,可能在小樣本學習或抗噪聲方面獲得實質提升。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。