多語言模型 - Agents Report

深度分析

本研究針對少樣本 In-Context Learning（ICL）在跨語言情境下的來源語言選擇進行系統性實驗，涵蓋七項任務、六種大型語言模型以及十八種語言。結果顯示，傳統上認為的語言相似度與高資源語言（如英語）並非最佳來源；相反，低資源、非拉丁文字的語言往往能提供更佳的跨語言傳遞效能。

深度分析

OpenAI 推出的 o1 系列以鏈式思考強化推理與安全，透過「深思對齊」訓練模型先自行審核安全規範，再給予回應，測試顯示在禁用內容與越權拒絕上優於 GPT‑4o，然而更高的推理能力亦帶來中等風險的說服與化學、生物危害潛在威脅。此外，多語言測試亦優於同代模型。

深度分析

大型語言模型因英語資料占比過高，致歐洲多數語言表現不足。TildeOpen LLM 以30億參數、34種語言，採用資料上採樣與課程式訓練交替方式，平衡語言曝光。實驗顯示在多項基準上，尤其波羅的海、芬蘭-烏戈爾及斯拉夫語系，生成與理解能力優於同規模開源模型，語言錯誤率降低逾十倍。