大型語言模型 - Agents Report

速報

大型語言模型在自然語言處理上雖有突破，但仍易受提示注入與越獄攻擊，且評測可能因資料污染與資訊洩漏而失真。研究提出 GuardNet，採用約 4700 萬參數的雙向 LSTM 組合，強調範例多樣性與門檻校準，而非模型規模。