What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation

Yang, Dingyi, Jin, Qin · 2025 · DOI 10.18653/v1/2025.acl-long.799

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

cs.CL · 2026-05-19 · conditional · novelty 7.0

A new 263k TTCW-annotated story dataset shows non-reasoning fine-tuning of Qwen3 models outperforms reasoning-supervised fine-tuning for fixed-format long-form literary review generation.

citing papers explorer

Showing 1 of 1 citing paper.

When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation cs.CL · 2026-05-19 · conditional · none · ref 21
A new 263k TTCW-annotated story dataset shows non-reasoning fine-tuning of Qwen3 models outperforms reasoning-supervised fine-tuning for fixed-format long-form literary review generation.

What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation

fields

years

verdicts

representative citing papers

citing papers explorer