{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2024:C75OY7FNMDYVQFC4XNHJNN525T","short_pith_number":"pith:C75OY7FN","canonical_record":{"source":{"id":"2401.15391","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.CL","submitted_at":"2024-01-27T11:41:48Z","cross_cats_sorted":[],"title_canon_sha256":"c55454af3cb3673b746ca7a8f066c0e27a37f01b4e8c4c266b1be07fd08255de","abstract_canon_sha256":"8e3a288a6d0114362e20405f60960423603dacd29df453504f4c2fa815a03da6"},"schema_version":"1.0"},"canonical_sha256":"17faec7cad60f158145cbb4e96b7baecd22c2be3149c940e2e25447e55f12948","source":{"kind":"arxiv","id":"2401.15391","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2401.15391","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"arxiv_version","alias_value":"2401.15391v1","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2401.15391","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"pith_short_12","alias_value":"C75OY7FNMDYV","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"C75OY7FNMDYVQFC4","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"C75OY7FN","created_at":"2026-05-18T12:33:37Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2024:C75OY7FNMDYVQFC4XNHJNN525T","target":"record","payload":{"canonical_record":{"source":{"id":"2401.15391","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.CL","submitted_at":"2024-01-27T11:41:48Z","cross_cats_sorted":[],"title_canon_sha256":"c55454af3cb3673b746ca7a8f066c0e27a37f01b4e8c4c266b1be07fd08255de","abstract_canon_sha256":"8e3a288a6d0114362e20405f60960423603dacd29df453504f4c2fa815a03da6"},"schema_version":"1.0"},"canonical_sha256":"17faec7cad60f158145cbb4e96b7baecd22c2be3149c940e2e25447e55f12948","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:52.399847Z","signature_b64":"M8ob6d0I5XTYJrXX/9Qbhso/XwbPDOpdNJLMHFxBu/uFfNzxXAr7GqHBEy82l3dLDuwFvRDjILYY+B8g7jrCBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"17faec7cad60f158145cbb4e96b7baecd22c2be3149c940e2e25447e55f12948","last_reissued_at":"2026-05-17T23:38:52.399353Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:52.399353Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2401.15391","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:38:52Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"bf2CDO2Ve3ALWEEGkqZ1HFsvOHN+OW7GXmSpGmAxIBNSbe9qPNFnS6GsHJTlmTZfHDIOSAVG4jYp02lCg1neAA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-10T08:59:19.947970Z"},"content_sha256":"6529bb0b99ebaae256df30cb9b0d9c7a3f8c6dbe3b84cb595a0ff8cd6b328343","schema_version":"1.0","event_id":"sha256:6529bb0b99ebaae256df30cb9b0d9c7a3f8c6dbe3b84cb595a0ff8cd6b328343"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2024:C75OY7FNMDYVQFC4XNHJNN525T","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries","license":"http://creativecommons.org/licenses/by-sa/4.0/","headline":"Existing RAG systems are inadequate for answering multi-hop queries that require retrieving and reasoning over multiple pieces of evidence.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Yixuan Tang, Yi Yang","submitted_at":"2024-01-27T11:41:48Z","abstract_excerpt":"Retrieval-augmented generation (RAG) augments large language models (LLM) by retrieving relevant knowledge, showing promising potential in mitigating LLM hallucinations and enhancing response quality, thereby facilitating the great adoption of LLMs in practice. However, we find that existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence. Furthermore, to our knowledge, no existing RAG benchmarking dataset focuses on multi-hop queries. In this paper, we develop a novel dataset, MultiHop-RAG, which con"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The multi-hop queries constructed from the English news article dataset accurately reflect the distribution and difficulty of real-world multi-hop queries that users would ask RAG systems.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"MultiHop-RAG is a new benchmark dataset demonstrating that existing retrieval-augmented generation systems perform poorly on multi-hop queries requiring retrieval and reasoning over multiple evidence pieces.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Existing RAG systems are inadequate for answering multi-hop queries that require retrieving and reasoning over multiple pieces of evidence.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"db2b79536c04f2a262096a0deee1b0800ed16725b4f3a3a135f3a34e1c6f871e"},"source":{"id":"2401.15391","kind":"arxiv","version":1},"verdict":{"id":"8be6379a-3ddc-4466-90b1-cba1db8d1fdd","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T13:49:12.581967Z","strongest_claim":"existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence.","one_line_summary":"MultiHop-RAG is a new benchmark dataset demonstrating that existing retrieval-augmented generation systems perform poorly on multi-hop queries requiring retrieval and reasoning over multiple evidence pieces.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The multi-hop queries constructed from the English news article dataset accurately reflect the distribution and difficulty of real-world multi-hop queries that users would ask RAG systems.","pith_extraction_headline":"Existing RAG systems are inadequate for answering multi-hop queries that require retrieving and reasoning over multiple pieces of evidence."},"references":{"count":296,"sample":[{"doi":"","year":2023,"title":"Anthropic. 2023. Claude 2.1 ( May version). https://api.anthropic.com/v1/messages. Claude 2.1","work_id":"e23e2e37-8d00-42b9-b780-2d3e46fd5287","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Akari Asai, Sewon Min, Zexuan Zhong, and Danqi Chen. 2023. Retrieval-based language models and applications. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics ","work_id":"962bc87e-4a60-497f-9674-e165975c5280","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George Bm Van Den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego De Las Casas, Aur","work_id":"a5d01995-b562-4bda-b925-346dea795b67","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"Harrison Chase. 2022. https://github.com/langchain-ai/langchain LangChain","work_id":"f2314057-ba9b-49f0-8722-89abbbb435c0","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Benchmarking large language models in retrieval-augmented generation.arXiv preprint arXiv:2309.01431","work_id":"0cedce0f-ffd3-4107-b96a-00f53c8c3d37","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":296,"snapshot_sha256":"78779bff3b8eb3b0f49a10b84cd196b28d7ae39819ed6b3697bd62459db339e7","internal_anchors":6},"formal_canon":{"evidence_count":1,"snapshot_sha256":"b263552db690db56a6221e9260a68f3b5cf118c3e9be41621d8051a8dbac35df"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":"8be6379a-3ddc-4466-90b1-cba1db8d1fdd"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:38:52Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"rlNylPDGbwRmrjk7Nux8TLgJ/OtV+CtxuyAIQF2DbJ1OxMj3opACmALscREqc3WRauJUSzOIaMNaZ/Yhv6CnCg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-10T08:59:19.949109Z"},"content_sha256":"6dfb1fde7252a47ac260027987b51b296550b230b51f0968f3d93b80025e7514","schema_version":"1.0","event_id":"sha256:6dfb1fde7252a47ac260027987b51b296550b230b51f0968f3d93b80025e7514"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/C75OY7FNMDYVQFC4XNHJNN525T/bundle.json","state_url":"https://pith.science/pith/C75OY7FNMDYVQFC4XNHJNN525T/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/C75OY7FNMDYVQFC4XNHJNN525T/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-10T08:59:19Z","links":{"resolver":"https://pith.science/pith/C75OY7FNMDYVQFC4XNHJNN525T","bundle":"https://pith.science/pith/C75OY7FNMDYVQFC4XNHJNN525T/bundle.json","state":"https://pith.science/pith/C75OY7FNMDYVQFC4XNHJNN525T/state.json","well_known_bundle":"https://pith.science/.well-known/pith/C75OY7FNMDYVQFC4XNHJNN525T/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2024:C75OY7FNMDYVQFC4XNHJNN525T","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"8e3a288a6d0114362e20405f60960423603dacd29df453504f4c2fa815a03da6","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.CL","submitted_at":"2024-01-27T11:41:48Z","title_canon_sha256":"c55454af3cb3673b746ca7a8f066c0e27a37f01b4e8c4c266b1be07fd08255de"},"schema_version":"1.0","source":{"id":"2401.15391","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2401.15391","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"arxiv_version","alias_value":"2401.15391v1","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2401.15391","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"pith_short_12","alias_value":"C75OY7FNMDYV","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"C75OY7FNMDYVQFC4","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"C75OY7FN","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:6dfb1fde7252a47ac260027987b51b296550b230b51f0968f3d93b80025e7514","target":"graph","created_at":"2026-05-17T23:38:52Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"The multi-hop queries constructed from the English news article dataset accurately reflect the distribution and difficulty of real-world multi-hop queries that users would ask RAG systems."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"MultiHop-RAG is a new benchmark dataset demonstrating that existing retrieval-augmented generation systems perform poorly on multi-hop queries requiring retrieval and reasoning over multiple evidence pieces."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"Existing RAG systems are inadequate for answering multi-hop queries that require retrieving and reasoning over multiple pieces of evidence."}],"snapshot_sha256":"db2b79536c04f2a262096a0deee1b0800ed16725b4f3a3a135f3a34e1c6f871e"},"formal_canon":{"evidence_count":1,"snapshot_sha256":"b263552db690db56a6221e9260a68f3b5cf118c3e9be41621d8051a8dbac35df"},"paper":{"abstract_excerpt":"Retrieval-augmented generation (RAG) augments large language models (LLM) by retrieving relevant knowledge, showing promising potential in mitigating LLM hallucinations and enhancing response quality, thereby facilitating the great adoption of LLMs in practice. However, we find that existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence. Furthermore, to our knowledge, no existing RAG benchmarking dataset focuses on multi-hop queries. In this paper, we develop a novel dataset, MultiHop-RAG, which con","authors_text":"Yixuan Tang, Yi Yang","cross_cats":[],"headline":"Existing RAG systems are inadequate for answering multi-hop queries that require retrieving and reasoning over multiple pieces of evidence.","license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.CL","submitted_at":"2024-01-27T11:41:48Z","title":"MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries"},"references":{"count":296,"internal_anchors":6,"resolved_work":296,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Anthropic. 2023. Claude 2.1 ( May version). https://api.anthropic.com/v1/messages. Claude 2.1","work_id":"e23e2e37-8d00-42b9-b780-2d3e46fd5287","year":2023},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":2,"title":"Akari Asai, Sewon Min, Zexuan Zhong, and Danqi Chen. 2023. Retrieval-based language models and applications. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics ","work_id":"962bc87e-4a60-497f-9674-e165975c5280","year":2023},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":3,"title":"Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George Bm Van Den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego De Las Casas, Aur","work_id":"a5d01995-b562-4bda-b925-346dea795b67","year":2022},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Harrison Chase. 2022. https://github.com/langchain-ai/langchain LangChain","work_id":"f2314057-ba9b-49f0-8722-89abbbb435c0","year":2022},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":5,"title":"Benchmarking large language models in retrieval-augmented generation.arXiv preprint arXiv:2309.01431","work_id":"0cedce0f-ffd3-4107-b96a-00f53c8c3d37","year":2023}],"snapshot_sha256":"78779bff3b8eb3b0f49a10b84cd196b28d7ae39819ed6b3697bd62459db339e7"},"source":{"id":"2401.15391","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-15T13:49:12.581967Z","id":"8be6379a-3ddc-4466-90b1-cba1db8d1fdd","model_set":{"reader":"grok-4.3"},"one_line_summary":"MultiHop-RAG is a new benchmark dataset demonstrating that existing retrieval-augmented generation systems perform poorly on multi-hop queries requiring retrieval and reasoning over multiple evidence pieces.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"Existing RAG systems are inadequate for answering multi-hop queries that require retrieving and reasoning over multiple pieces of evidence.","strongest_claim":"existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence.","weakest_assumption":"The multi-hop queries constructed from the English news article dataset accurately reflect the distribution and difficulty of real-world multi-hop queries that users would ask RAG systems."}},"verdict_id":"8be6379a-3ddc-4466-90b1-cba1db8d1fdd"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:6529bb0b99ebaae256df30cb9b0d9c7a3f8c6dbe3b84cb595a0ff8cd6b328343","target":"record","created_at":"2026-05-17T23:38:52Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"8e3a288a6d0114362e20405f60960423603dacd29df453504f4c2fa815a03da6","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.CL","submitted_at":"2024-01-27T11:41:48Z","title_canon_sha256":"c55454af3cb3673b746ca7a8f066c0e27a37f01b4e8c4c266b1be07fd08255de"},"schema_version":"1.0","source":{"id":"2401.15391","kind":"arxiv","version":1}},"canonical_sha256":"17faec7cad60f158145cbb4e96b7baecd22c2be3149c940e2e25447e55f12948","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"17faec7cad60f158145cbb4e96b7baecd22c2be3149c940e2e25447e55f12948","first_computed_at":"2026-05-17T23:38:52.399353Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:38:52.399353Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"M8ob6d0I5XTYJrXX/9Qbhso/XwbPDOpdNJLMHFxBu/uFfNzxXAr7GqHBEy82l3dLDuwFvRDjILYY+B8g7jrCBA==","signature_status":"signed_v1","signed_at":"2026-05-17T23:38:52.399847Z","signed_message":"canonical_sha256_bytes"},"source_id":"2401.15391","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:6529bb0b99ebaae256df30cb9b0d9c7a3f8c6dbe3b84cb595a0ff8cd6b328343","sha256:6dfb1fde7252a47ac260027987b51b296550b230b51f0968f3d93b80025e7514"],"state_sha256":"524b721531bd03f2c604da63028fb2e24bef2df089598630033d5dcff330cfbf"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"Rsai046G7T1cJUPw7rc+EEvACt1hdFgZe9Qol+6Z6nxQDuSisreNyfhwtyxG9TPSfhx9ZJOohSdDwIYj7kqSDA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-10T08:59:19.954491Z","bundle_sha256":"5eae397ad7d0e0844ca178aeb8550da6290cbb59a6a9b6964334d4f3b2fea981"}}