We report offline latencies per document, including document parsing and encoding latencies, as well as online latencies per query, including query encoding and search latencies

As shown in the table, although VisRAG-Ret, a VLM-based model, requires more time for document encoding compared to MiniCPM (OCR), it bypasses the time-consuming parsing stage required by 24 Published as a conference paper at ICLR · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

cs.IR · 2024-10-14 · conditional · novelty 7.0

VisRAG achieves 20-40% better end-to-end performance than text-based RAG by directly embedding and retrieving document images with VLMs.

citing papers explorer

Showing 1 of 1 citing paper.

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents cs.IR · 2024-10-14 · conditional · none · ref 43
VisRAG achieves 20-40% better end-to-end performance than text-based RAG by directly embedding and retrieving document images with VLMs.

We report offline latencies per document, including document parsing and encoding latencies, as well as online latencies per query, including query encoding and search latencies

fields

years

verdicts

representative citing papers

citing papers explorer