深度分析 「WorkstreamBench」:大型語言模型於金融試算表全流程任務的評測與洞見 隨著大型語言模型被用於財務試算表全流程建構,研究推出WorkstreamBench基準,從正確性、公式與格式三面評估代理人表現,結果顯示即使最強模型亦未達專業標準,且難度提升時效能急速下降。此基準亦揭示多方利害關係人審核需求未被滿足,預示AI試算表工具在企業導入仍面臨可用性與安全挑戰。