Unirag: Universal retrieval augmentation for multi-modal large language models

Sahel Sharifymoghaddam, Shivani Upadhyay, Wenhu Chen, Jimmy Lin · 2024 · arXiv 2405.10311

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

cs.IR · 2024-10-14 · conditional · novelty 7.0

VisRAG achieves 20-40% better end-to-end performance than text-based RAG by directly embedding and retrieving document images with VLMs.

Mixture-of-Retrieval Experts for Reasoning-Guided Multimodal Knowledge Exploitation

cs.CL · 2025-05-28 · unverdicted · novelty 6.0

MoRE enables MLLMs to dynamically coordinate heterogeneous retrieval experts via Step-GRPO training, yielding over 7% average gains on open-domain QA benchmarks.

citing papers explorer

Showing 2 of 2 citing papers.

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents cs.IR · 2024-10-14 · conditional · none · ref 19
VisRAG achieves 20-40% better end-to-end performance than text-based RAG by directly embedding and retrieving document images with VLMs.
Mixture-of-Retrieval Experts for Reasoning-Guided Multimodal Knowledge Exploitation cs.CL · 2025-05-28 · unverdicted · none · ref 31
MoRE enables MLLMs to dynamically coordinate heterogeneous retrieval experts via Step-GRPO training, yielding over 7% average gains on open-domain QA benchmarks.

Unirag: Universal retrieval augmentation for multi-modal large language models

fields

years

verdicts

representative citing papers

citing papers explorer