Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Bo Wang; Chunyu Yang; Hao Sun; Jiayan Guo; Jinsong Ni; Yan Zhang; Yingyan Hou

arxiv: 2605.24530 · v1 · pith:XB6JZ5DInew · submitted 2026-05-23 · 💻 cs.CL · cs.CV

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Hao Sun , Yingyan Hou , Jiayan Guo , Bo Wang , Chunyu Yang , Jinsong Ni , Yan Zhang This is my paper

classification 💻 cs.CL cs.CV

keywords visual-textualdocumentretrievaldistillationembeddingvisualwhileapproaches

0 comments

read the original abstract

Document retrieval in real-world scenarios faces significant challenges due to diverse document formats and modalities. Traditional text-based approaches rely on tailored parsing techniques that disregard layout information and are prone to errors, while recent parsing-free visual methods often struggle to capture fine-grained textual semantics in text-rich scenarios. To address these limitations, we propose \textbf{Unveil}, a novel visual-textual embedding framework that effectively integrates textual and visual features for robust document representation. Through knowledge distillation, we transfer the semantic understanding capabilities from the visual-textual embedding model to a purely visual model, enabling efficient parsing-free retrieval while preserving semantic fidelity. Experimental results demonstrate that our visual-textual embedding method surpasses existing approaches, while knowledge distillation successfully bridges the performance gap between visual-textual and visual-only methods, improving both retrieval accuracy and efficiency.

This paper has not been read by Pith yet.

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

discussion (0)