深度分析
小片段程式碼 ↔ 文本檢索突破:CodeBERT/GraphCodeBERT 與 FAISS 結合的 CAT 方法
語言模型同時處理程式碼與文字的需求提升,研究者提出雙向小粒度搜尋任務,打造包含三十萬對自動生成說明的資料集,並設計 CAT 模型共用編碼器預測答案起止。實驗在同領域測試中 F1 超過八成,顯示此技術可加速科研程式碼與說明的對應,並支援即時向量檢索。
深度分析
語言模型同時處理程式碼與文字的需求提升,研究者提出雙向小粒度搜尋任務,打造包含三十萬對自動生成說明的資料集,並設計 CAT 模型共用編碼器預測答案起止。實驗在同領域測試中 F1 超過八成,顯示此技術可加速科研程式碼與說明的對應,並支援即時向量檢索。
深度分析
隨著公開Git儲存庫憑證外洩持續升高,研究提出結合字符卷積與CodeBERT語意編碼的三類偵測模型,能區分真實憑證、佔位字串與無危害代碼,測試顯示召回率93%、精確度89%,且高危警報減少33%。資料集涵蓋10種程式語言共9426筆手動標註樣本,模型在跨語言留一測試中8語言F1超過0.80,Matthews相關係數達0.86。