上下文壓縮 - Agents Report

深度分析

Headroom：AI 代理上下文壓縮層實現 60–95% Token 節省

GitHub Explorer 發掘 headroom 專案，提供上下文壓縮層，可將 AI 代理讀取的工具輸出、日誌與檔案等減少 60–95% token，保留相同回應。採用六種可逆演算法，支援 Python、TypeScript 與多模型代理。此技術有望降低成本並提升大模型部署效率。

深度分析

TokenMizer：圖式長程 LLM 會話記憶與多層上下文壓縮技術解析

LLM長期互動受限於上下文窗口，TokenMizer以知識圖保存會話結構，經多層壓縮與語意快取將摘要縮至約78令牌，提升決策與檔案回溯率。相較於純文字摘要，它保留決策原因與檔案關聯，對跨裝置協同開發具彈性，預示在邊緣與雲端協同推理上可降低成本與能耗。

深度分析

區塊化並行壓縮：在長時程 LLM 代理人中精確控制上下文體積與延遲

隨著大型語言模型代理人處理長時程任務，累積的對話歷史常超出模型窗口並降低推理品質。這篇研究提出並行壓縮（parallel compaction），把對話快照分成多個區塊並平行派工摘要，採用 prefix-aware target-at-end 佈局以保留跨區塊因果上下文。

深度分析

分層執行圖（LEG）架構下的可審計水動力學多代理系統（MAS）

面對單一大模型在複雜科學流程中容易遭遇的上下文飽和與可靠性瓶頸，本文提出一套以分層執行圖（Layer Execution Graph, LEG）為核心的多代理系統（MAS）原型，專為水動力學任務設計。系統由規劃器動態構建分層拓撲、專家代理在明確允許的工具範圍內各司其職、合併者負責匯整並壓縮上下文，最終由報告者輸出回應；