視覺檢索

速報

研究提出 PixelRAG，一種將大型語言模型（LLM）與網頁截圖直接結合的檢索增強技術。不同於傳統先將 HTML 轉為純文字的流程，PixelRAG 以原始視覺形式保存網站資訊，利用視覺嵌入模型在像素空間進行檢索與閱讀，並將截圖直接餵入多模態模型（VLM）而不經文字抽象。

深度分析

研究指出傳統文字解析在企業RAG中損失關鍵訊號，PixelRAG直接以螢幕擷取圖像作檢索，提升準確度最高18%。此法亦大幅降低代幣成本。研究團隊來自加州大學柏克萊、普林斯頓與EPFL，測試30億截圖覆蓋全維基，六項基準皆優於文字RAG。顯示視覺檢索的潛力。