{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:PMHBABAV6C2EUGIS3CQ2LQ4QLK","short_pith_number":"pith:PMHBABAV","schema_version":"1.0","canonical_sha256":"7b0e100415f0b44a1912d8a1a5c3905a891593ff4d6b22df10755148ec7dd634","source":{"kind":"arxiv","id":"2409.12640","version":2},"attestation_state":"computed","paper":{"title":"Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.CL","authors_text":"Angeliki Lazaridou, Bahare Fatemi, Ed Chi, Ethan Dyer, Harsh Mehta, Jean-Baptiste Lespiau, Jeffrey Hui, Kate Olszewska, Kelvin Xu, Kiran Vodrahalli, Mehran Kazemi, Nilesh Tripuraneni, Nishanth Dikkala, Nithya Attaluri, Orhan Firat, Quoc Le, Rakesh Shivanna, Rohan Anil, Roopali Vij, Sanil Jain, Santiago Ontanon, Siamak Shakeri, Vinay Ramasesh, Yifeng Lu","submitted_at":"2024-09-19T10:38:01Z","abstract_excerpt":"We introduce Michelangelo: a minimal, synthetic, and unleaked long-context reasoning evaluation for large language models which is also easy to automatically score. This evaluation is derived via a novel, unifying framework for evaluations over arbitrarily long contexts which measure the model's ability to do more than retrieve a single piece of information from its context. The central idea of the Latent Structure Queries framework (LSQ) is to construct tasks which require a model to ``chisel away'' the irrelevant information in the context, revealing a latent structure in the context. To ver"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2409.12640","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2024-09-19T10:38:01Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"c9138c07a2c8c33e08f91b764a7eef6be78aabce610802805a266370c671a936","abstract_canon_sha256":"10797f5aa6dc067ce46ed52fe566d2f3c79765de28d2b54412e64a5cf6e9bcef"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-05T09:09:26.821076Z","signature_b64":"0nBDvNgtj0XvlCZ2cn9l/XQCsnsTTwkkMYvg3eBnhXLQ+NECZ1VkdPKkOegfWeGapgsIQCuWhgORVG9cUMqCAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7b0e100415f0b44a1912d8a1a5c3905a891593ff4d6b22df10755148ec7dd634","last_reissued_at":"2026-07-05T09:09:26.820564Z","signature_status":"signed_v1","first_computed_at":"2026-07-05T09:09:26.820564Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.CL","authors_text":"Angeliki Lazaridou, Bahare Fatemi, Ed Chi, Ethan Dyer, Harsh Mehta, Jean-Baptiste Lespiau, Jeffrey Hui, Kate Olszewska, Kelvin Xu, Kiran Vodrahalli, Mehran Kazemi, Nilesh Tripuraneni, Nishanth Dikkala, Nithya Attaluri, Orhan Firat, Quoc Le, Rakesh Shivanna, Rohan Anil, Roopali Vij, Sanil Jain, Santiago Ontanon, Siamak Shakeri, Vinay Ramasesh, Yifeng Lu","submitted_at":"2024-09-19T10:38:01Z","abstract_excerpt":"We introduce Michelangelo: a minimal, synthetic, and unleaked long-context reasoning evaluation for large language models which is also easy to automatically score. This evaluation is derived via a novel, unifying framework for evaluations over arbitrarily long contexts which measure the model's ability to do more than retrieve a single piece of information from its context. The central idea of the Latent Structure Queries framework (LSQ) is to construct tasks which require a model to ``chisel away'' the irrelevant information in the context, revealing a latent structure in the context. To ver"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2409.12640","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2409.12640/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2409.12640","created_at":"2026-07-05T09:09:26.820626+00:00"},{"alias_kind":"arxiv_version","alias_value":"2409.12640v2","created_at":"2026-07-05T09:09:26.820626+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2409.12640","created_at":"2026-07-05T09:09:26.820626+00:00"},{"alias_kind":"pith_short_12","alias_value":"PMHBABAV6C2E","created_at":"2026-07-05T09:09:26.820626+00:00"},{"alias_kind":"pith_short_16","alias_value":"PMHBABAV6C2EUGIS","created_at":"2026-07-05T09:09:26.820626+00:00"},{"alias_kind":"pith_short_8","alias_value":"PMHBABAV","created_at":"2026-07-05T09:09:26.820626+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":16,"internal_anchor_count":0,"sample":[{"citing_arxiv_id":"2606.23687","citing_title":"Randomized YaRN Improves Length Generalization for Long-Context Reasoning","ref_index":9,"is_internal_anchor":false},{"citing_arxiv_id":"2606.24020","citing_title":"You Don't Need to Run Every Eval","ref_index":87,"is_internal_anchor":false},{"citing_arxiv_id":"2606.21228","citing_title":"Sakana Fugu Technical Report","ref_index":6,"is_internal_anchor":false},{"citing_arxiv_id":"2606.15079","citing_title":"Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale","ref_index":48,"is_internal_anchor":false},{"citing_arxiv_id":"2606.06203","citing_title":"Dense Contexts Are Hard Contexts: Lexical Density Limits Effective Context in LLMs","ref_index":42,"is_internal_anchor":false},{"citing_arxiv_id":"2605.24414","citing_title":"JT-SAFE-V2: Safety-by-Design Foundation Model with World-Context Data","ref_index":27,"is_internal_anchor":false},{"citing_arxiv_id":"2606.29503","citing_title":"The Verbose Context Problem in Medical Records","ref_index":10,"is_internal_anchor":false},{"citing_arxiv_id":"2503.19786","citing_title":"Gemma 3 Technical Report","ref_index":43,"is_internal_anchor":false},{"citing_arxiv_id":"2605.19577","citing_title":"GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment","ref_index":43,"is_internal_anchor":false},{"citing_arxiv_id":"2604.18556","citing_title":"GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling","ref_index":31,"is_internal_anchor":false},{"citing_arxiv_id":"2507.06261","citing_title":"Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities","ref_index":82,"is_internal_anchor":false},{"citing_arxiv_id":"2605.08151","citing_title":"SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference","ref_index":18,"is_internal_anchor":false},{"citing_arxiv_id":"2601.02780","citing_title":"MiMo-V2-Flash Technical Report","ref_index":46,"is_internal_anchor":false},{"citing_arxiv_id":"2605.08151","citing_title":"SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference","ref_index":18,"is_internal_anchor":false},{"citing_arxiv_id":"2605.08301","citing_title":"Priming: Hybrid State Space Models From Pre-trained Transformers","ref_index":86,"is_internal_anchor":false},{"citing_arxiv_id":"2604.18556","citing_title":"GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling","ref_index":31,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK","json":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK.json","graph_json":"https://pith.science/api/pith-number/PMHBABAV6C2EUGIS3CQ2LQ4QLK/graph.json","events_json":"https://pith.science/api/pith-number/PMHBABAV6C2EUGIS3CQ2LQ4QLK/events.json","paper":"https://pith.science/paper/PMHBABAV"},"agent_actions":{"view_html":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK","download_json":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK.json","view_paper":"https://pith.science/paper/PMHBABAV","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2409.12640&json=true","fetch_graph":"https://pith.science/api/pith-number/PMHBABAV6C2EUGIS3CQ2LQ4QLK/graph.json","fetch_events":"https://pith.science/api/pith-number/PMHBABAV6C2EUGIS3CQ2LQ4QLK/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK/action/timestamp_anchor","attest_storage":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK/action/storage_attestation","attest_author":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK/action/author_attestation","sign_citation":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK/action/citation_signature","submit_replication":"https://pith.science/pith/PMHBABAV6C2EUGIS3CQ2LQ4QLK/action/replication_record"}},"created_at":"2026-07-05T09:09:26.820626+00:00","updated_at":"2026-07-05T09:09:26.820626+00:00"}