Meta-learning without memorization.arXiv preprint arXiv:1912.03820

Meta-learning without memorization , author= · 1912 · arXiv 1912.03820

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Training Language Models to Self-Correct via Reinforcement Learning

cs.LG · 2024-09-19 · unverdicted · novelty 6.0

SCoRe uses multi-turn online RL with regularization on self-generated traces to improve LLM self-correction, achieving 15.6% and 9.1% gains on MATH and HumanEval for Gemini models.

BayMOTH: Bayesian optiMizatiOn with meTa-lookahead -- a simple approacH

cs.LG · 2026-04-13 · unverdicted · novelty 4.0

BayMOTH unifies meta-Bayesian optimization with a usefulness-based fallback to lookahead, demonstrating competitive results on function optimization tasks even under low task relatedness.

citing papers explorer

Showing 2 of 2 citing papers.

Training Language Models to Self-Correct via Reinforcement Learning cs.LG · 2024-09-19 · unverdicted · none · ref 161
SCoRe uses multi-turn online RL with regularization on self-generated traces to improve LLM self-correction, achieving 15.6% and 9.1% gains on MATH and HumanEval for Gemini models.
BayMOTH: Bayesian optiMizatiOn with meTa-lookahead -- a simple approacH cs.LG · 2026-04-13 · unverdicted · none · ref 11
BayMOTH unifies meta-Bayesian optimization with a usefulness-based fallback to lookahead, demonstrating competitive results on function optimization tasks even under low task relatedness.

Meta-learning without memorization.arXiv preprint arXiv:1912.03820

fields

years

verdicts

representative citing papers

citing papers explorer