Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Adheesh Juvekar; Gayatri Deshmukh; Inderjit S Dhillon; Ismini Lourentzou; Jiaxun Zhang; Kiet A. Nguyen; Lin Chai; Onkar Susladkar; Sparsh Mittal; Tianshu Bao

arxiv: 2602.12221 · v2 · pith:D3RQKBZUnew · submitted 2026-02-12 · 💻 cs.CV

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Onkar Susladkar , Tushar Prakash , Gayatri Deshmukh , Kiet A. Nguyen , Jiaxun Zhang , Adheesh Juvekar , Tianshu Bao , Lin Chai

show 3 more authors

Sparsh Mittal Inderjit S Dhillon Ismini Lourentzou

This is my paper

classification 💻 cs.CV

keywords generationmultimodaldiscreteeditingreference-basedtask-specificunderstandingunified

0 comments

read the original abstract

We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.

This paper has not been read by Pith yet.

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

discussion (0)