LCC-LLM:以程式碼為核心的惡意程式屬性判定與靜態分析框架

大型語言模型在惡意程式分析應用上常缺乏程式碼層證據與多樣指標支援。研究提出LCCD資料集與LCC-LLM框架,將約34K個PE樣本經反編譯和靜態逆向處理,使用反編譯C、組合語言、CFG/FCG、十六進位與PE欄位等程式碼中心表示。

LCC-LLM 靜態惡意程式屬性框架

要點速報

研究提出以程式碼為核心的LCC-LLM框架與LCCD資料集,目標是改善大型語言模型在惡意程式屬性判定時的證據與可解釋性。

方法與資料

作者建置約三萬四千個PE樣本的LCCD資料集,透過大型逆向流程把樣本轉為反編譯C、組合語言、控制流程圖/函式呼叫圖等程式碼中心表示,並擷取十六進位資料、PE欄位、可疑API痕跡與結構特徵。

框架特色

LCC-LLM以LangGraph協調靜態分析,採用七層的檢索增強生成流程,並整合多源資安知識來做證據導向推理。設計包括IoC驗證模組(CoVe)與多維品質閘門,目的在提升事實性與提供分析師友好的決策支援。

模型訓練與結果

研究以課程式序列的指令資料,用QLoRA微調多款大型模型,並在43類惡意程式分析任務上評估。整體語意相似度表現與在結構化報告、IoC抽取、漏洞評估、惡意程式設定抽取與分類等任務上的高分表現,顯示程式碼中心表示與檢索與驗證機制能顯著提升LLM輔助分析的可靠性與實務價值。

實務應用

在以MalwareBazaar樣本做的實務案例中,框架能生成控制流程圖證據、對應ATT&CK映射與偵測建議,並產出適合分析師使用的結構化報告,展現工具化可用性。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more