We used claude-sonnet-4-20250514 (initial generation with reasoning_effort="medium")

Generator LLM: the LLM used to generate concepts, the corresponding template

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale

cs.AI · 2026-04-11 · conditional · novelty 7.0

TimeSeriesExamAgent combines templates and LLM agents to generate scalable time series reasoning benchmarks, demonstrating that current LLMs have limited performance on both abstract and domain-specific tasks.

citing papers explorer

Showing 1 of 1 citing paper.

TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale cs.AI · 2026-04-11 · conditional · none · ref 58
TimeSeriesExamAgent combines templates and LLM agents to generate scalable time series reasoning benchmarks, demonstrating that current LLMs have limited performance on both abstract and domain-specific tasks.

We used claude-sonnet-4-20250514 (initial generation with reasoning_effort="medium")

fields

years

verdicts

representative citing papers

citing papers explorer