Addressing function approxi- mation error in actor-critic methods

· 2018

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

representative citing papers

Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement

cs.LG · 2024-09-04 · unverdicted · novelty 6.0

ERFSL uses LLMs to create per-requirement reward components, correct their code via a critic, and optimize weights with genetic-algorithm-style mutation and crossover driven by training logs, succeeding in a zero-shot data collection task.

NaviSplit: Dynamic Multi-Branch Split DNNs for Efficient Distributed Autonomous Navigation

cs.RO · 2024-06-18 · unverdicted · novelty 6.0

NaviSplit introduces a dynamic multi-branch split DNN framework for UAV navigation that runs perception on-device and control on-edge, achieving 72-81% depth accuracy with 1.2-18 KB transmissions and 95% lower data rate than static alternatives.

A Visual Reinforcement Learning-Based Separate Primitive Policy for Peg-in-Hole Tasks

cs.RO · 2025-04-21 · unverdicted · novelty 5.0

S2P learns separate location and insertion primitives simultaneously via visual RL for peg-in-hole tasks, improving sample efficiency and success rates across polygon benchmarks in simulation and real-world tests.

citing papers explorer

Showing 3 of 3 citing papers.

Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement cs.LG · 2024-09-04 · unverdicted · none · ref 18
ERFSL uses LLMs to create per-requirement reward components, correct their code via a critic, and optimize weights with genetic-algorithm-style mutation and crossover driven by training logs, succeeding in a zero-shot data collection task.
NaviSplit: Dynamic Multi-Branch Split DNNs for Efficient Distributed Autonomous Navigation cs.RO · 2024-06-18 · unverdicted · none · ref 22
NaviSplit introduces a dynamic multi-branch split DNN framework for UAV navigation that runs perception on-device and control on-edge, achieving 72-81% depth accuracy with 1.2-18 KB transmissions and 95% lower data rate than static alternatives.
A Visual Reinforcement Learning-Based Separate Primitive Policy for Peg-in-Hole Tasks cs.RO · 2025-04-21 · unverdicted · none · ref 33
S2P learns separate location and insertion primitives simultaneously via visual RL for peg-in-hole tasks, improving sample efficiency and success rates across polygon benchmarks in simulation and real-world tests.

Addressing function approxi- mation error in actor-critic methods

fields

years

verdicts

representative citing papers

citing papers explorer