{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2019:YRXIRBHUOJD336H2QW2ET3WTAY","short_pith_number":"pith:YRXIRBHU","schema_version":"1.0","canonical_sha256":"c46e8884f47247bdf8fa85b449eed3060bba6af46cab9c4d460230be8dda8e2f","source":{"kind":"arxiv","id":"1906.00300","version":3},"attestation_state":"computed","paper":{"title":"Latent Retrieval for Weakly Supervised Open Domain Question Answering","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Kenton Lee, Kristina Toutanova, Ming-Wei Chang","submitted_at":"2019-06-01T22:02:39Z","abstract_excerpt":"Recent work on open domain question answering (QA) assumes strong supervision of the supporting evidence and/or assumes a blackbox information retrieval (IR) system to retrieve evidence candidates. We argue that both are suboptimal, since gold evidence is not always available, and QA is fundamentally different from IR. We show for the first time that it is possible to jointly learn the retriever and reader from question-answer string pairs and without any IR system. In this setting, evidence retrieval from all of Wikipedia is treated as a latent variable. Since this is impractical to learn fro"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1906.00300","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2019-06-01T22:02:39Z","cross_cats_sorted":[],"title_canon_sha256":"e74483f0ba5866cd0a6569480e8d55ef57e5faaff1b1b759b35f20f5fa335944","abstract_canon_sha256":"124127fafdff50cd3504bacc9978afdc04794ffe8adfa871d83f696d7531f9e7"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:42:02.123102Z","signature_b64":"k9at9orddlqb2mnz5ChuIYjcfH1sL6c9IdSvHpLFEr60x4AYghkCwBZF/640kLTbacuk8pu/hZqIA2ZQy3nBAw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"c46e8884f47247bdf8fa85b449eed3060bba6af46cab9c4d460230be8dda8e2f","last_reissued_at":"2026-05-17T23:42:02.122612Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:42:02.122612Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Latent Retrieval for Weakly Supervised Open Domain Question Answering","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Kenton Lee, Kristina Toutanova, Ming-Wei Chang","submitted_at":"2019-06-01T22:02:39Z","abstract_excerpt":"Recent work on open domain question answering (QA) assumes strong supervision of the supporting evidence and/or assumes a blackbox information retrieval (IR) system to retrieve evidence candidates. We argue that both are suboptimal, since gold evidence is not always available, and QA is fundamentally different from IR. We show for the first time that it is possible to jointly learn the retriever and reader from question-answer string pairs and without any IR system. In this setting, evidence retrieval from all of Wikipedia is treated as a latent variable. Since this is impractical to learn fro"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1906.00300","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1906.00300","created_at":"2026-05-17T23:42:02.122688+00:00"},{"alias_kind":"arxiv_version","alias_value":"1906.00300v3","created_at":"2026-05-17T23:42:02.122688+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1906.00300","created_at":"2026-05-17T23:42:02.122688+00:00"},{"alias_kind":"pith_short_12","alias_value":"YRXIRBHUOJD3","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"YRXIRBHUOJD336H2","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"YRXIRBHU","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":6,"internal_anchor_count":6,"sample":[{"citing_arxiv_id":"2505.14558","citing_title":"R2MED: A Benchmark for Reasoning-Driven Medical Retrieval","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2506.19807","citing_title":"KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2406.07887","citing_title":"An Empirical Study of Mamba-based Language Models","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2511.09803","citing_title":"Retrieval as a Decision: Training-Free Adaptive Gating for Efficient RAG","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2112.04426","citing_title":"Improving language models by retrieving from trillions of tokens","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2002.08910","citing_title":"How Much Knowledge Can You Pack Into the Parameters of a Language Model?","ref_index":56,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY","json":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY.json","graph_json":"https://pith.science/api/pith-number/YRXIRBHUOJD336H2QW2ET3WTAY/graph.json","events_json":"https://pith.science/api/pith-number/YRXIRBHUOJD336H2QW2ET3WTAY/events.json","paper":"https://pith.science/paper/YRXIRBHU"},"agent_actions":{"view_html":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY","download_json":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY.json","view_paper":"https://pith.science/paper/YRXIRBHU","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1906.00300&json=true","fetch_graph":"https://pith.science/api/pith-number/YRXIRBHUOJD336H2QW2ET3WTAY/graph.json","fetch_events":"https://pith.science/api/pith-number/YRXIRBHUOJD336H2QW2ET3WTAY/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY/action/timestamp_anchor","attest_storage":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY/action/storage_attestation","attest_author":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY/action/author_attestation","sign_citation":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY/action/citation_signature","submit_replication":"https://pith.science/pith/YRXIRBHUOJD336H2QW2ET3WTAY/action/replication_record"}},"created_at":"2026-05-17T23:42:02.122688+00:00","updated_at":"2026-05-17T23:42:02.122688+00:00"}