{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2015:O3IPJBL44KHNYFTYWWKXT76CXO","short_pith_number":"pith:O3IPJBL4","schema_version":"1.0","canonical_sha256":"76d0f4857ce28edc1678b59579ffc2bbaab1d16b36f0d37b031345cada6ddbd5","source":{"kind":"arxiv","id":"1502.05698","version":10},"attestation_state":"computed","paper":{"title":"Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL","stat.ML"],"primary_cat":"cs.AI","authors_text":"Alexander M. Rush, Antoine Bordes, Armand Joulin, Bart van Merri\\\"enboer, Jason Weston, Sumit Chopra, Tomas Mikolov","submitted_at":"2015-02-19T20:46:10Z","abstract_excerpt":"One long-term goal of machine learning research is to produce methods that are applicable to reasoning and natural language, in particular building an intelligent dialogue agent. To measure progress towards that goal, we argue for the usefulness of a set of proxy tasks that evaluate reading comprehension via question answering. Our tasks measure understanding in several ways: whether a system is able to answer questions via chaining facts, simple induction, deduction and many more. The tasks are designed to be prerequisites for any system that aims to be capable of conversing with a human. We "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1502.05698","kind":"arxiv","version":10},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2015-02-19T20:46:10Z","cross_cats_sorted":["cs.CL","stat.ML"],"title_canon_sha256":"ff5c2c52f7ff7b20536595a434e2ae1e3b257a8253c762480a940b1bf1c818e3","abstract_canon_sha256":"915f72279e36b1d7c05c004d9837aa60855bdb5a5e948560d06bef4dd16ecf4f"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T01:23:33.611871Z","signature_b64":"Nhvcd9CkRHwwWhN/wYyhiJMvx+mSc1tjeruMsXw4sDKFZzZBEQdApGKPhHczImQvynfdVIXfFWmihyFg6rJFBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"76d0f4857ce28edc1678b59579ffc2bbaab1d16b36f0d37b031345cada6ddbd5","last_reissued_at":"2026-05-18T01:23:33.611228Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T01:23:33.611228Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL","stat.ML"],"primary_cat":"cs.AI","authors_text":"Alexander M. Rush, Antoine Bordes, Armand Joulin, Bart van Merri\\\"enboer, Jason Weston, Sumit Chopra, Tomas Mikolov","submitted_at":"2015-02-19T20:46:10Z","abstract_excerpt":"One long-term goal of machine learning research is to produce methods that are applicable to reasoning and natural language, in particular building an intelligent dialogue agent. To measure progress towards that goal, we argue for the usefulness of a set of proxy tasks that evaluate reading comprehension via question answering. Our tasks measure understanding in several ways: whether a system is able to answer questions via chaining facts, simple induction, deduction and many more. The tasks are designed to be prerequisites for any system that aims to be capable of conversing with a human. We "},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1502.05698","kind":"arxiv","version":10},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1502.05698","created_at":"2026-05-18T01:23:33.611346+00:00"},{"alias_kind":"arxiv_version","alias_value":"1502.05698v10","created_at":"2026-05-18T01:23:33.611346+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1502.05698","created_at":"2026-05-18T01:23:33.611346+00:00"},{"alias_kind":"pith_short_12","alias_value":"O3IPJBL44KHN","created_at":"2026-05-18T12:29:34.919912+00:00"},{"alias_kind":"pith_short_16","alias_value":"O3IPJBL44KHNYFTY","created_at":"2026-05-18T12:29:34.919912+00:00"},{"alias_kind":"pith_short_8","alias_value":"O3IPJBL4","created_at":"2026-05-18T12:29:34.919912+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":15,"internal_anchor_count":7,"sample":[{"citing_arxiv_id":"1906.08570","citing_title":"Hindi Question Generation Using Dependency Structures","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"1906.08942","citing_title":"Be Consistent! Improving Procedural Text Comprehension using Label Consistency","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"1907.04286","citing_title":"UW-BHI at MEDIQA 2019: An Analysis of Representation Methods for Medical Natural Language Inference","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17625","citing_title":"Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18380","citing_title":"QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18565","citing_title":"MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2305.16264","citing_title":"Scaling Data-Constrained Language Models","ref_index":130,"is_internal_anchor":true},{"citing_arxiv_id":"1807.03819","citing_title":"Universal Transformers","ref_index":23,"is_internal_anchor":false},{"citing_arxiv_id":"2605.08966","citing_title":"VORT: Adaptive Power-Law Memory for NLP Transformers","ref_index":46,"is_internal_anchor":false},{"citing_arxiv_id":"1611.09268","citing_title":"MS MARCO: A Human Generated MAchine Reading COmprehension Dataset","ref_index":17,"is_internal_anchor":false},{"citing_arxiv_id":"2605.05741","citing_title":"HyperLens: Quantifying Cognitive Effort in LLMs with Fine-grained Confidence Trajectory","ref_index":46,"is_internal_anchor":false},{"citing_arxiv_id":"2201.02177","citing_title":"Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets","ref_index":17,"is_internal_anchor":false},{"citing_arxiv_id":"2604.11575","citing_title":"MIXAR: Scaling Autoregressive Pixel-based Language Models to Multiple Languages and Scripts","ref_index":30,"is_internal_anchor":false},{"citing_arxiv_id":"1606.06565","citing_title":"Concrete Problems in AI Safety","ref_index":164,"is_internal_anchor":false},{"citing_arxiv_id":"2604.15009","citing_title":"Towards Faster Language Model Inference Using Mixture-of-Experts Flow Matching","ref_index":34,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO","json":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO.json","graph_json":"https://pith.science/api/pith-number/O3IPJBL44KHNYFTYWWKXT76CXO/graph.json","events_json":"https://pith.science/api/pith-number/O3IPJBL44KHNYFTYWWKXT76CXO/events.json","paper":"https://pith.science/paper/O3IPJBL4"},"agent_actions":{"view_html":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO","download_json":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO.json","view_paper":"https://pith.science/paper/O3IPJBL4","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1502.05698&json=true","fetch_graph":"https://pith.science/api/pith-number/O3IPJBL44KHNYFTYWWKXT76CXO/graph.json","fetch_events":"https://pith.science/api/pith-number/O3IPJBL44KHNYFTYWWKXT76CXO/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO/action/timestamp_anchor","attest_storage":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO/action/storage_attestation","attest_author":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO/action/author_attestation","sign_citation":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO/action/citation_signature","submit_replication":"https://pith.science/pith/O3IPJBL44KHNYFTYWWKXT76CXO/action/replication_record"}},"created_at":"2026-05-18T01:23:33.611346+00:00","updated_at":"2026-05-18T01:23:33.611346+00:00"}