速報
Cocada:多模型協作的 LLM 自動化交付平台快速走紅 GitHub Trending
Cocada 是一套以聊天驅動的多大型語言模型(LLM)協作框架,透過不同模型分工完成規劃、編碼、審查等工作,降低 token 消耗並提升交付品質。該專案在 GitHub 上獲得顯著關注,24 小時內星標快速上升,顯示開發者對多模型協同自動化的需求。
速報
Cocada 是一套以聊天驅動的多大型語言模型(LLM)協作框架,透過不同模型分工完成規劃、編碼、審查等工作,降低 token 消耗並提升交付品質。該專案在 GitHub 上獲得顯著關注,24 小時內星標快速上升,顯示開發者對多模型協同自動化的需求。
速報
研究指出傳統變分自編碼器(VAE)使用高斯解碼器與 Lipschitz 限制的神經網路,無法生成重尾分布。作者以馬可夫鏈為基礎的相位類型(Phase‑Type)分布取代高斯解碼器,保持編碼器與訓練流程不變,能精確逼近任意正值分布,包括重尾族。
速報
Archi 是針對科學合作設計的開源框架,結合異質資料的系統化擷取與可配置私密代理人,已於 2026 年 2 月在 CERN CMS 計算運營團隊部署,提供文件、歷史與即時監控的檢索與分析。評估結果顯示,該系統在實際運維任務中能有效回應操作員查詢,且本地開放權重模型表現與商用模型相當,確保敏感資料的私密管理。
速報
研究指出,語言模型的參數會在輸出 logits 時留下獨特的幾何約束,成為模型的簽章。即使 API 僅提供 token 排名(不含機率值),每個模型仍會產生唯一的可行 top‑k 排名集合,且要找出具相同排名集合的模型屬於 NP 難問題,具備多項式時間不可偽造性。
速報
本研究針對連續環境的深度強化學習提出新理論框架,將問題建模為連續時間隨機過程,並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度,利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論,顯示該框架可有效描述過度參數化演員-評論家行為。
速報
研究指出,開源小型模型在長篇創意寫作上常因篇幅不足或品質下降而不敵前沿模型。團隊提出 POLARIS 訓練配方,結合以大型語言模型作為評審的結構化故事品質評分與人類參考注入(將教師強制的人寫故事作為高獎勵錨點)。在 Qwen3.5-9B 上使用約 1.4 千組短篇小說資料,於四顆 A100 GPU 訓練後得到 POLARIS-9B。
速報
自動駕駛需要精確的車道等級地圖,但傳統建圖耗時。MapAgent 透過結合視覺語言判斷與規範驗證的 Judge‑Planner‑Worker 迴路,在感測器資料上自動校正錯誤,僅在低信心區塊介入。實驗與百度地圖整合顯示,該系統在 360 多城市提升自動化率至 95% 以上,顯著改善複雜場景的地圖品質。
速報
生醫工作流程自動化一直受限於工具介面多樣與規劃方式單一的雙重瓶頸。研究團隊推出 BioManus,透過 BioinfoMCP 編譯器將各式生醫軟體標準化為 MCP 伺服器,形成以工具、操作、資料型別與流程階段為節點的異質圖。推論時只抽取任務相關子圖,產生操作層級的工作流骨架,成功將規劃複雜度與工具總量解耦。
速報
資料策展是現代人工智慧開發中最關鍵卻最耗時的環節。研究團隊提出 Curation-Bench,透過固定模型、訓練流程與評估套件,讓編碼代理人可在指令列環境中檢視、實作與修正資料政策,並重複提交至訓練管線。實驗顯示,未經特別調校的代理人在十輪內即可達到既有資料選取基線的表現,但仍傾向微調既有政策而非探索新方法。
速報
大型語言模型改寫研究流程,同時削弱學者的認知負責任感。PEEL 框架結合 Voyant Tools 的遠距閱讀與 Claude 的 LLM 詮釋,揭露 AI 摘要在量化、詞頻與認知聲音上的系統性扭曲。結果顯示,若無非 AI 測量,這些偏差難以被察覺,呼籲在 AI 工具旁必須配備確定性儀器。
速報
概念瓶頸模型(CBM)透過在神經網路中加入概念層,使最終分類結果可解釋且支援專家在測試時修正概念值。然而傳統 CBM 只會覆寫被修正的概念,忽略概念間的因果關係,導致干預效果受限。研究者提出因果神經機率電路(CNPC),結合神經屬性預測器與由因果圖編譯的機率電路,實現精確且可計算的因果推論,保留概念間的依賴。
速報
目前化學大型語言模型大多依賴明確的思考鏈(Chain‑of‑Thought, CoT)來解決複雜推理問題,但將化學邏輯硬塞入文字會產生「模態不匹配」的瓶頸。研究團隊推出 LatentChem,透過連續思考向量與動態感知,將化學推理與語言生成解耦,讓模型在內部以潛在計算取代冗長文字。