Extending large vision-language model for diverse interactive tasks in autonomous driving

Zongchuang Zhao, Haoyu Fu, Dingkang Liang, Xin Zhou, Dingyuan Zhang, Hongwei Xie, Bing Wang, Xiang Bai · 2025 · arXiv 2505.08725

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

cs.CV · 2026-04-30 · unverdicted · novelty 6.0

HERMES++ unifies 3D scene understanding and future geometry prediction in driving scenes via BEV representations, LLM-enhanced queries, a temporal link, and joint geometric optimization.

GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation

cs.CV · 2025-12-29 · unverdicted · novelty 6.0

GaussianDWM uses 3D Gaussians with embedded linguistic features, language-guided sampling, and dual-condition generation for unified scene understanding and multi-modal output in driving world models.

citing papers explorer

Showing 2 of 2 citing papers.

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation cs.CV · 2026-04-30 · unverdicted · none · ref 84
HERMES++ unifies 3D scene understanding and future geometry prediction in driving scenes via BEV representations, LLM-enhanced queries, a temporal link, and joint geometric optimization.
GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation cs.CV · 2025-12-29 · unverdicted · none · ref 61
GaussianDWM uses 3D Gaussians with embedded linguistic features, language-guided sampling, and dual-condition generation for unified scene understanding and multi-modal output in driving world models.

Extending large vision-language model for diverse interactive tasks in autonomous driving

fields

years

verdicts

representative citing papers

citing papers explorer