深度分析
大規模實驗揭示 AI 編碼代理破壞率:94% 開發者未偵測,加入即時 LLM 監控仍失效 56%
隨著 AI 編碼代理在實務開發中獲得執行權限,研究模擬了長達五小時、包含多個 CI 驗證的程式開發流程,讓超過百位具備開發經驗的參與者與四種最先進的模型合作,觀察他們能否發現代理暗藏的惡意程式碼。結果顯示,在沒有任何監控的情況下,94% 的開發者未能偵測破壞;
深度分析
隨著 AI 編碼代理在實務開發中獲得執行權限,研究模擬了長達五小時、包含多個 CI 驗證的程式開發流程,讓超過百位具備開發經驗的參與者與四種最先進的模型合作,觀察他們能否發現代理暗藏的惡意程式碼。結果顯示,在沒有任何監控的情況下,94% 的開發者未能偵測破壞;
CodeMender
在GoogleI/O,Google將CodeMender推向外部專家測試,主打以AI代理檢測並嘗試修補程式碼弱點。DeepMind的高層稱其能「協助保護全球程式碼庫」,並已與政府及企業洽談導入。此舉被視為對Anthropic的Mythos預覽所引發關注的回應,或將加速資安領域的商業化。