InAdvances in Neural Information Pro- cessing Systems, volume 28, 2944–2952

Learning Continuous Control Policies by Stochastic Value Gradients · 2023 · arXiv 2311.11385

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

read on arXiv browse 4 citing papers

citation-role summary

background 3

citation-polarity summary

background 3

representative citing papers

Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking

cs.RO · 2026-04-03 · unverdicted · novelty 7.0

A Bayesian expert selection framework with variational Bayesian last layers and lower confidence bounds improves diffusion policies for active multi-target tracking.

TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

cs.AI · 2026-05-12 · unverdicted · novelty 5.0

TOPPO reformulates PPO with critic balancing to address gradient ill-conditioning in multi-task RL and reports stronger mean and tail performance than SAC baselines on Meta-World+ using fewer parameters and steps.

FLAME: Adaptive Mixture-of-Experts for Continual Multimodal Multi-Task Learning

cs.LG · 2026-05-10 · unverdicted · novelty 5.0

FLAME is an MoE architecture using modality-specific routers and low-rank compression of expert knowledge to support efficient continual multimodal multi-task learning while reducing catastrophic forgetting.

Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems

cs.AI · 2025-12-09 · unverdicted · novelty 5.0

PRISM-WM uses a context-aware MoE with latent orthogonalization to model hybrid dynamics and reduce rollout drift for model-based planning.

citing papers explorer

Showing 4 of 4 citing papers.

Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking cs.RO · 2026-04-03 · unverdicted · none · ref 28
A Bayesian expert selection framework with variational Bayesian last layers and lower confidence bounds improves diffusion policies for active multi-target tracking.
TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing cs.AI · 2026-05-12 · unverdicted · none · ref 6
TOPPO reformulates PPO with critic balancing to address gradient ill-conditioning in multi-task RL and reports stronger mean and tail performance than SAC baselines on Meta-World+ using fewer parameters and steps.
FLAME: Adaptive Mixture-of-Experts for Continual Multimodal Multi-Task Learning cs.LG · 2026-05-10 · unverdicted · none · ref 21
FLAME is an MoE architecture using modality-specific routers and low-rank compression of expert knowledge to support efficient continual multimodal multi-task learning while reducing catastrophic forgetting.
Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems cs.AI · 2025-12-09 · unverdicted · none · ref 2
PRISM-WM uses a context-aware MoE with latent orthogonalization to model hybrid dynamics and reduce rollout drift for model-based planning.

InAdvances in Neural Information Pro- cessing Systems, volume 28, 2944–2952

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer