X+Slides:以受眾為條件的投影片生成基準測試
自動從原始文件產生簡報是大型語言模型的重要應用。過往測試多聚焦投影片完整度與技術深度,卻忽略受眾需求差異。研究團隊推出 X+Slides 基準,涵蓋 113 個主題與七種簡報情境,利用 8,133 筆去重且與來源文件對應的探測題,為不同受眾賦予效用權重,進而計算四項指標:受眾覆蓋率、領域覆蓋率、效率與正確性。
研究動機
自動從文件產出投影片是大型語言模型(LLM)的一項重要應用。但現有的基準測試大多只評估投影片的完整度與技術深度,忽略了受眾差異。專家需要嚴謹的證明,決策者則偏好可直接採取的結論,這在真實情境中相當關鍵。
X+Slides 基準概述
X+Slides 針對受眾條件化的投影片生成設計基準,資料集覆蓋 113 個主題與七種簡報情境。基準使用 8,133 筆去重且與來源文件對應的探測題(probe),並為相同探測題賦予不同受眾的效用權重,產出四項互補指標:
- 受眾覆蓋率(Audience Coverage):衡量投影片傳遞受眾必備資訊的程度。
- 領域覆蓋率(Domain-wise Coverage):顯示哪些資訊類型被涵蓋。
- 效率(Efficiency):每單位注意力成本所產生的效用。
- 正確性(Correctness):驗證投影片主張是否得到來源支撐。
實驗結果
在 DeepPresenter、SlideTailor 與 NotebookLM 三個系統上進行測試。以受眾效用門檻 τ_A=0.7 為例,DeepPresenter 的最高受眾覆蓋率為 0.714,SlideTailor 為 0.594,NotebookLM 的消融實驗則達到 0.853,且顯示出明顯的來源依據差異。結果顯示,即使視覺品質優秀,系統仍未完整捕捉受眾必備資訊,必須以來源對應的評估來驗證投影片內容。
結論與未來方向
本研究提出的 X+Slides 基準提供了受眾條件化的評估框架,提醒研究者在開發投影片生成模型時,不能僅以視覺效果或主題廣度作為唯一指標,必須加入來源依據的驗證,以提升實務應用的可信度與效用。
延伸閱讀
- DeLM:利用共享驗證上下文提升大型語言模型多代理效能
- CAF-Gen:利用多代理系統提升 CAF 框架論證挖掘的自動化精度
- 結合 OpenPsi 與 MetaMo 的十階段動機管線:對話式 AGI 的雙速決策策略
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。