{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:R6CS4N4KBEFIMLP7Q3HZHH2I6R","short_pith_number":"pith:R6CS4N4K","schema_version":"1.0","canonical_sha256":"8f852e378a090a862dff86cf939f48f44fe5ca200b874a8dd765bd067f135a00","source":{"kind":"arxiv","id":"2606.05632","version":1},"attestation_state":"computed","paper":{"title":"Evaluation of LLMs for Mathematical Formalization in Lean","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Ariel Fu, Bohao Chen, Drew Bladek, Escher Crawford, Giovanni Inchiostro, Jarod Alper, Kaira Nair, Tyson Klingner, Vasily Ilin","submitted_at":"2026-06-04T02:59:39Z","abstract_excerpt":"Within the past few years, the ability of Large Language Models (LLMs) to generate formal mathematical proofs has improved drastically. We provide a comparison of various LLMs' effectiveness in producing formal proofs in Lean 4 with the goal of assisting those seeking to use LLMs to support their own projects. We utilize both pass@$k$ and refine@$k$ metrics as the benchmark for our comparison and evaluate on subsets of both miniF2F and miniCTX datasets. Our testing shows that overall, Gemini 3.1 Pro and Claude Opus 4.7 perform best. Gemini 3.1 Pro achieved a 92\\% success rate on miniF2F via re"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.05632","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2026-06-04T02:59:39Z","cross_cats_sorted":[],"title_canon_sha256":"80cc675703762f36fd0304619425c32c59dc5534f2f0557683f51ae0a8d15395","abstract_canon_sha256":"ee379f45984d03a3bd2a0d95c8f7e001593eb358ea4c7c70fbf8212bd015b475"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-05T01:14:57.296402Z","signature_b64":"3mp7U/tuLoQ3jNEKSubeqNhmmL8V5zZ8LwaY9hzv2JNJitLFWDs7ifUqJjCIsc7AwIhtqW4l1B8W94iYULySAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"8f852e378a090a862dff86cf939f48f44fe5ca200b874a8dd765bd067f135a00","last_reissued_at":"2026-06-05T01:14:57.295857Z","signature_status":"signed_v1","first_computed_at":"2026-06-05T01:14:57.295857Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Evaluation of LLMs for Mathematical Formalization in Lean","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Ariel Fu, Bohao Chen, Drew Bladek, Escher Crawford, Giovanni Inchiostro, Jarod Alper, Kaira Nair, Tyson Klingner, Vasily Ilin","submitted_at":"2026-06-04T02:59:39Z","abstract_excerpt":"Within the past few years, the ability of Large Language Models (LLMs) to generate formal mathematical proofs has improved drastically. We provide a comparison of various LLMs' effectiveness in producing formal proofs in Lean 4 with the goal of assisting those seeking to use LLMs to support their own projects. We utilize both pass@$k$ and refine@$k$ metrics as the benchmark for our comparison and evaluate on subsets of both miniF2F and miniCTX datasets. Our testing shows that overall, Gemini 3.1 Pro and Claude Opus 4.7 perform best. Gemini 3.1 Pro achieved a 92\\% success rate on miniF2F via re"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.05632","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.05632/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.05632","created_at":"2026-06-05T01:14:57.295940+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.05632v1","created_at":"2026-06-05T01:14:57.295940+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.05632","created_at":"2026-06-05T01:14:57.295940+00:00"},{"alias_kind":"pith_short_12","alias_value":"R6CS4N4KBEFI","created_at":"2026-06-05T01:14:57.295940+00:00"},{"alias_kind":"pith_short_16","alias_value":"R6CS4N4KBEFIMLP7","created_at":"2026-06-05T01:14:57.295940+00:00"},{"alias_kind":"pith_short_8","alias_value":"R6CS4N4K","created_at":"2026-06-05T01:14:57.295940+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R","json":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R.json","graph_json":"https://pith.science/api/pith-number/R6CS4N4KBEFIMLP7Q3HZHH2I6R/graph.json","events_json":"https://pith.science/api/pith-number/R6CS4N4KBEFIMLP7Q3HZHH2I6R/events.json","paper":"https://pith.science/paper/R6CS4N4K"},"agent_actions":{"view_html":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R","download_json":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R.json","view_paper":"https://pith.science/paper/R6CS4N4K","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.05632&json=true","fetch_graph":"https://pith.science/api/pith-number/R6CS4N4KBEFIMLP7Q3HZHH2I6R/graph.json","fetch_events":"https://pith.science/api/pith-number/R6CS4N4KBEFIMLP7Q3HZHH2I6R/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R/action/timestamp_anchor","attest_storage":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R/action/storage_attestation","attest_author":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R/action/author_attestation","sign_citation":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R/action/citation_signature","submit_replication":"https://pith.science/pith/R6CS4N4KBEFIMLP7Q3HZHH2I6R/action/replication_record"}},"created_at":"2026-06-05T01:14:57.295940+00:00","updated_at":"2026-06-05T01:14:57.295940+00:00"}