AgentHPO: Large language model agent for hyperparameter optimization.arXiv preprint arXiv:2402.11427,

Siyi Liu, Ziran Chen, et al · arXiv 2402.11427

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Self-Improvement Can Self-Regress: The Rise-and-Collapse Failure Mode of LLM Self-Training

cs.AI · 2026-06-17 · unverdicted · novelty 6.0

REINFORCE self-training on competitive programming tasks exhibits robust rise-then-collapse in pass@1; CARE, ES, and GRPO mitigate it in model-size-dependent ways across Qwen-2.5-3B/7B and a Gemma pilot.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Self-Improvement Can Self-Regress: The Rise-and-Collapse Failure Mode of LLM Self-Training cs.AI · 2026-06-17 · unverdicted · none · ref 12
REINFORCE self-training on competitive programming tasks exhibits robust rise-then-collapse in pass@1; CARE, ES, and GRPO mitigate it in model-size-dependent ways across Qwen-2.5-3B/7B and a Gemma pilot.

AgentHPO: Large language model agent for hyperparameter optimization.arXiv preprint arXiv:2402.11427,

fields

years

verdicts

representative citing papers

citing papers explorer