大型語言模型 - Agents Report

深度分析

隨著大型語言模型被用於財務試算表全流程建構，研究推出WorkstreamBench基準，從正確性、公式與格式三面評估代理人表現，結果顯示即使最強模型亦未達專業標準，且難度提升時效能急速下降。此基準亦揭示多方利害關係人審核需求未被滿足，預示AI試算表工具在企業導入仍面臨可用性與安全挑戰。