速報 LCC-LLM 惡意程式分析程式碼中心表示檢索增強生成

LCC-LLM：以程式碼為核心的惡意程式屬性判定與靜態分析框架

大型語言模型在惡意程式分析應用上常缺乏程式碼層證據與多樣指標支援。研究提出LCCD資料集與LCC-LLM框架，將約34K個PE樣本經反編譯和靜態逆向處理，使用反編譯C、組合語言、CFG/FCG、十六進位與PE欄位等程式碼中心表示。

09 May 2026 — 2 min read

要點速報

研究提出以程式碼為核心的LCC-LLM框架與LCCD資料集，目標是改善大型語言模型在惡意程式屬性判定時的證據與可解釋性。

作者建置約三萬四千個PE樣本的LCCD資料集，透過大型逆向流程把樣本轉為反編譯C、組合語言、控制流程圖/函式呼叫圖等程式碼中心表示，並擷取十六進位資料、PE欄位、可疑API痕跡與結構特徵。

LCC-LLM以LangGraph協調靜態分析，採用七層的檢索增強生成流程，並整合多源資安知識來做證據導向推理。設計包括IoC驗證模組（CoVe）與多維品質閘門，目的在提升事實性與提供分析師友好的決策支援。

研究以課程式序列的指令資料，用QLoRA微調多款大型模型，並在43類惡意程式分析任務上評估。整體語意相似度表現與在結構化報告、IoC抽取、漏洞評估、惡意程式設定抽取與分類等任務上的高分表現，顯示程式碼中心表示與檢索與驗證機制能顯著提升LLM輔助分析的可靠性與實務價值。

在以MalwareBazaar樣本做的實務案例中，框架能生成控制流程圖證據、對應ATT&CK映射與偵測建議，並產出適合分析師使用的結構化報告，展現工具化可用性。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

OpenAI 於 2026 年正式推出 Lockdown Mode，針對個人與商務帳號提供防止提示注入後資料外洩的保護機制。此功能會限制模型的外部網路請求，阻斷攻擊者在最後階段抽取敏感資訊的管道。雖然仍可能在緩存或上傳檔案中出現注入內容，但整體安全性大幅提升。

在BuildSmallHackathon中，研究者以30億參數的Qwen2.5-3B模型構建了「千代木」小型多代理經濟，透過設計食物稀缺、腐敗與冬季燃料危機等機制模擬市場波動，最終觀測到木材商致富、貯藏者破產，顯示小模型在即時模擬與市場敘事上具備可行性。

Microsoft在Build2026透露，企業正快速導入AI代理人，並推出四大IQ服務提供上下文、治理與安全存取。IQ包括Foundry、Fabric、Work與Web，讓代理人可直接存取公司資料與應用。此舉將加速AI於企業工作流程的落地。

多向量檢索精度高，但需大量記憶體與聚類成本。研究提出單階段稀疏檢索（SSR），以稀疏自編碼取代 K‑means，使用倒排索引。實驗顯示索引時間縮減 15 倍、檢索延遲減半，且效能超越現有基準。在 BEIR 基準測試中，nDCG@10 提升 2.2%，檢索延遲僅 17.5 毫秒。