Dome: Tam- ing diffusion model into high-fidelity controllable occupancy world model

Songen Gu, Wei Yin, Bu Jin, Xiaoyang Guo, Junming Wang, Haodong Li, Qian Zhang, Xiaoxiao Long · 2024 · arXiv 2410.10429

8 Pith papers cite this work. Polarity classification is still indexing.

8 Pith papers citing it

read on arXiv browse 8 citing papers

citation-role summary

background 3

citation-polarity summary

background 3

representative citing papers

GEM: Gaussian Evolution Model for Occupancy Forecasting and Motion Planning

cs.CV · 2026-05-17 · unverdicted · novelty 7.0

GEM represents driving scenes as explicit continuous 4D Gaussian primitives with learned dynamics to enable direct querying at arbitrary timestamps for semantic occupancy forecasting and motion planning.

GEM: Generating LiDAR World Model via Deformable Mamba

cs.CV · 2026-05-08 · unverdicted · novelty 6.0

GEM is a new LiDAR world model using deformable Mamba that disentangles dynamic and static features to generate high-fidelity simulations and achieve state-of-the-art results on autonomous driving benchmarks.

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

cs.CV · 2026-04-30 · unverdicted · novelty 6.0

HERMES++ unifies 3D scene understanding and future geometry prediction in driving scenes via BEV representations, LLM-enhanced queries, a temporal link, and joint geometric optimization.

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

cs.CV · 2026-02-08 · unverdicted · novelty 6.0

Rolling Sink is a training-free cache adjustment technique that maintains visual consistency in autoregressive video diffusion models for ultra-long open-ended generation beyond training horizons.

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

cs.CV · 2025-11-30 · unverdicted · novelty 6.0

Lotus-2 is a two-stage deterministic adaptation of diffusion priors that achieves state-of-the-art monocular depth estimation with only 59K training samples.

Artificial Intelligence for Modeling and Simulation of Mixed Automated and Human Traffic

cs.AI · 2026-04-14 · unverdicted · novelty 5.0

This survey synthesizes AI techniques for mixed autonomy traffic simulation and introduces a taxonomy spanning agent-level behavior models, environment-level methods, and cognitive/physics-informed approaches.

SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model

cs.CV · 2025-11-27 · unverdicted · novelty 5.0

A sparse transformer predicts multi-frame 3D occupancy from images without BEV or VAE tokenization and reports SOTA results on nuScenes for 1-3s forecasting under arbitrary trajectories.

DriVerse: Navigation World Model for Driving Simulation via Multimodal Trajectory Prompting and Motion Alignment

cs.RO · 2025-04-22 · unverdicted · novelty 5.0

DriVerse is a generative model that simulates driving scenes from an image and trajectory using multimodal prompting and motion alignment, achieving better performance on nuScenes and Waymo datasets with minimal training.

citing papers explorer

Showing 8 of 8 citing papers.

GEM: Gaussian Evolution Model for Occupancy Forecasting and Motion Planning cs.CV · 2026-05-17 · unverdicted · none · ref 36
GEM represents driving scenes as explicit continuous 4D Gaussian primitives with learned dynamics to enable direct querying at arbitrary timestamps for semantic occupancy forecasting and motion planning.
GEM: Generating LiDAR World Model via Deformable Mamba cs.CV · 2026-05-08 · unverdicted · none · ref 9
GEM is a new LiDAR world model using deformable Mamba that disentangles dynamic and static features to generate high-fidelity simulations and achieve state-of-the-art results on autonomous driving benchmarks.
HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation cs.CV · 2026-04-30 · unverdicted · none · ref 40
HERMES++ unifies 3D scene understanding and future geometry prediction in driving scenes via BEV representations, LLM-enhanced queries, a temporal link, and joint geometric optimization.
Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion cs.CV · 2026-02-08 · unverdicted · none · ref 23
Rolling Sink is a training-free cache adjustment technique that maintains visual consistency in autoregressive video diffusion models for ultra-long open-ended generation beyond training horizons.
Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model cs.CV · 2025-11-30 · unverdicted · none · ref 9
Lotus-2 is a two-stage deterministic adaptation of diffusion priors that achieves state-of-the-art monocular depth estimation with only 59K training samples.
Artificial Intelligence for Modeling and Simulation of Mixed Automated and Human Traffic cs.AI · 2026-04-14 · unverdicted · none · ref 149
This survey synthesizes AI techniques for mixed autonomy traffic simulation and introduces a taxonomy spanning agent-level behavior models, environment-level methods, and cognitive/physics-informed approaches.
SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model cs.CV · 2025-11-27 · unverdicted · none · ref 8
A sparse transformer predicts multi-frame 3D occupancy from images without BEV or VAE tokenization and reports SOTA results on nuScenes for 1-3s forecasting under arbitrary trajectories.
DriVerse: Navigation World Model for Driving Simulation via Multimodal Trajectory Prompting and Motion Alignment cs.RO · 2025-04-22 · unverdicted · none · ref 17
DriVerse is a generative model that simulates driving scenes from an image and trajectory using multimodal prompting and motion alignment, achieving better performance on nuScenes and Waymo datasets with minimal training.

Dome: Tam- ing diffusion model into high-fidelity controllable occupancy world model

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer