{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2015:3HNZ3IAXCRLOI57EXEKF7WHH4G","short_pith_number":"pith:3HNZ3IAX","schema_version":"1.0","canonical_sha256":"d9db9da0171456e477e4b9145fd8e7e1bf62bd3bfbb93c99b0d08188356527a8","source":{"kind":"arxiv","id":"1511.06732","version":7},"attestation_state":"computed","paper":{"title":"Sequence Level Training with Recurrent Neural Networks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.LG","authors_text":"Marc'Aurelio Ranzato, Michael Auli, Sumit Chopra, Wojciech Zaremba","submitted_at":"2015-11-20T19:25:54Z","abstract_excerpt":"Many natural language processing applications use language models to generate text. These models are typically trained to predict the next word in a sequence, given the previous words and some context such as an image. However, at test time the model is expected to generate the entire sequence from scratch. This discrepancy makes generation brittle, as errors may accumulate along the way. We address this issue by proposing a novel sequence level training algorithm that directly optimizes the metric used at test time, such as BLEU or ROUGE. On three different tasks, our approach outperforms sev"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1511.06732","kind":"arxiv","version":7},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2015-11-20T19:25:54Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"3a4cbd6b13b46c7ac1cc6b4b3d15f79ba5486d69f20f6c201ed15e149f623804","abstract_canon_sha256":"d12c285df358cb977656e53277b69a4371de5c9474044ccb43e149a5042d8012"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T01:15:23.043940Z","signature_b64":"5LZansffQoU3+X0nUfz/gTKoXXNPSAUOqpVXyJjLFeuU/08Ks5Uc3wo8aAidoSrjQiPnP4gKPyKEdox1PwoEBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"d9db9da0171456e477e4b9145fd8e7e1bf62bd3bfbb93c99b0d08188356527a8","last_reissued_at":"2026-05-18T01:15:23.043277Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T01:15:23.043277Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Sequence Level Training with Recurrent Neural Networks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.LG","authors_text":"Marc'Aurelio Ranzato, Michael Auli, Sumit Chopra, Wojciech Zaremba","submitted_at":"2015-11-20T19:25:54Z","abstract_excerpt":"Many natural language processing applications use language models to generate text. These models are typically trained to predict the next word in a sequence, given the previous words and some context such as an image. However, at test time the model is expected to generate the entire sequence from scratch. This discrepancy makes generation brittle, as errors may accumulate along the way. We address this issue by proposing a novel sequence level training algorithm that directly optimizes the metric used at test time, such as BLEU or ROUGE. On three different tasks, our approach outperforms sev"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1511.06732","kind":"arxiv","version":7},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1511.06732","created_at":"2026-05-18T01:15:23.043383+00:00"},{"alias_kind":"arxiv_version","alias_value":"1511.06732v7","created_at":"2026-05-18T01:15:23.043383+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1511.06732","created_at":"2026-05-18T01:15:23.043383+00:00"},{"alias_kind":"pith_short_12","alias_value":"3HNZ3IAXCRLO","created_at":"2026-05-18T12:29:02.477457+00:00"},{"alias_kind":"pith_short_16","alias_value":"3HNZ3IAXCRLOI57E","created_at":"2026-05-18T12:29:02.477457+00:00"},{"alias_kind":"pith_short_8","alias_value":"3HNZ3IAX","created_at":"2026-05-18T12:29:02.477457+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":19,"internal_anchor_count":10,"sample":[{"citing_arxiv_id":"1906.08876","citing_title":"Informative Image Captioning with External Sources of Information","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"1906.09444","citing_title":"Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"1907.06330","citing_title":"Ranking sentences from product description & bullets for better search","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"1907.09207","citing_title":"Deep Learning for Time Series Forecasting: The Electric Load Case","ref_index":71,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22731","citing_title":"Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21160","citing_title":"Learning First Integrals via Backward-Generated Data and Guided Reinforcement Learning","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2510.19644","citing_title":"CoRoVA: Compressed Representations for Vector-Augmented Code Completion","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2009.01325","citing_title":"Learning to summarize from human feedback","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2409.12917","citing_title":"Training Language Models to Self-Correct via Reinforcement Learning","ref_index":159,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07775","citing_title":"Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion","ref_index":76,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12227","citing_title":"Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models","ref_index":81,"is_internal_anchor":false},{"citing_arxiv_id":"2604.23546","citing_title":"COMO: Closed-Loop Optical Molecule Recognition with Minimum Risk Training","ref_index":7,"is_internal_anchor":false},{"citing_arxiv_id":"2605.01399","citing_title":"Verbal-R3: Verbal Reranker as the Missing Bridge between Retrieval and Reasoning","ref_index":17,"is_internal_anchor":false},{"citing_arxiv_id":"2605.00206","citing_title":"State Stream Transformer (SST) V2: Parallel Training of Nonlinear Recurrence for Latent Space Reasoning","ref_index":21,"is_internal_anchor":false},{"citing_arxiv_id":"2605.07865","citing_title":"KL for a KL: On-Policy Distillation with Control Variate Baseline","ref_index":32,"is_internal_anchor":false},{"citing_arxiv_id":"2305.18290","citing_title":"Direct Preference Optimization: Your Language Model is Secretly a Reward Model","ref_index":37,"is_internal_anchor":false},{"citing_arxiv_id":"2604.04461","citing_title":"DP-OPD: Differentially Private On-Policy Distillation for Language Models","ref_index":13,"is_internal_anchor":false},{"citing_arxiv_id":"1909.08593","citing_title":"Fine-Tuning Language Models from Human Preferences","ref_index":23,"is_internal_anchor":false},{"citing_arxiv_id":"2604.14910","citing_title":"Reward-Aware Trajectory Shaping for Few-step Visual Generation","ref_index":26,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G","json":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G.json","graph_json":"https://pith.science/api/pith-number/3HNZ3IAXCRLOI57EXEKF7WHH4G/graph.json","events_json":"https://pith.science/api/pith-number/3HNZ3IAXCRLOI57EXEKF7WHH4G/events.json","paper":"https://pith.science/paper/3HNZ3IAX"},"agent_actions":{"view_html":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G","download_json":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G.json","view_paper":"https://pith.science/paper/3HNZ3IAX","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1511.06732&json=true","fetch_graph":"https://pith.science/api/pith-number/3HNZ3IAXCRLOI57EXEKF7WHH4G/graph.json","fetch_events":"https://pith.science/api/pith-number/3HNZ3IAXCRLOI57EXEKF7WHH4G/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G/action/timestamp_anchor","attest_storage":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G/action/storage_attestation","attest_author":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G/action/author_attestation","sign_citation":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G/action/citation_signature","submit_replication":"https://pith.science/pith/3HNZ3IAXCRLOI57EXEKF7WHH4G/action/replication_record"}},"created_at":"2026-05-18T01:15:23.043383+00:00","updated_at":"2026-05-18T01:15:23.043383+00:00"}