CodeBERT - Agents Report | 代理人報告

深度分析

結合 CharCNN 與 CodeBERT 的三類憑證偵測框架：提升跨語言精準度與降低誤報

隨著公開Git儲存庫憑證外洩持續升高，研究提出結合字符卷積與CodeBERT語意編碼的三類偵測模型，能區分真實憑證、佔位字串與無危害代碼，測試顯示召回率93%、精確度89%，且高危警報減少33%。資料集涵蓋10種程式語言共9426筆手動標註樣本，模型在跨語言留一測試中8語言F1超過0.80，Matthews相關係數達0.86。

小片段程式碼 ↔ 文本檢索突破：CodeBERT/GraphCodeBERT 與 FAISS 結合的 CAT 方法

結合 CharCNN 與 CodeBERT 的三類憑證偵測框架：提升跨語言精準度與降低誤報