{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:MN5WLFNPB3JKUJGWGPKMLGE5PN","short_pith_number":"pith:MN5WLFNP","schema_version":"1.0","canonical_sha256":"637b6595af0ed2aa24d633d4c5989d7b7d36087e669a0775c52ac416b08ced3b","source":{"kind":"arxiv","id":"2601.22813","version":2},"attestation_state":"computed","paper":{"title":"Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.LG","authors_text":"Andrei Panferov, Dan Alistarh, Erik Schultheis, Soroush Tabesh","submitted_at":"2026-01-30T10:39:11Z","abstract_excerpt":"The NVFP4 lower-precision format, supported in hardware by NVIDIA Blackwell GPUs, promises to allow, for the first time, end-to-end fully-quantized pre-training of massive models such as LLMs. Yet, existing quantized training methods still sacrifice some of the representation capacity of this format in favor of more accurate unbiased quantized gradient estimation by stochastic rounding (SR), losing noticeable accuracy relative to standard FP16 and FP8 training. In this paper, improve the state of the art for quantized training in NVFP4 via a novel unbiased quantization routine for micro-scaled"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2601.22813","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-01-30T10:39:11Z","cross_cats_sorted":[],"title_canon_sha256":"b3b04239cf4d10da06188aad30bdc3a304808442b54b26b1e029245831542985","abstract_canon_sha256":"6ad2db74a24970367b48bd84321037b1fc420819c09cc9c86345d8539d928786"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-02T02:04:50.395018Z","signature_b64":"BgX13M+hkRuJ3xHHqbk170GmuW6DL+k6JrVwwasZql0emfb43XCqbQKKHqgZv9OYD0XxBgButZg+A6bd9GqDCg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"637b6595af0ed2aa24d633d4c5989d7b7d36087e669a0775c52ac416b08ced3b","last_reissued_at":"2026-06-02T02:04:50.394496Z","signature_status":"signed_v1","first_computed_at":"2026-06-02T02:04:50.394496Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.LG","authors_text":"Andrei Panferov, Dan Alistarh, Erik Schultheis, Soroush Tabesh","submitted_at":"2026-01-30T10:39:11Z","abstract_excerpt":"The NVFP4 lower-precision format, supported in hardware by NVIDIA Blackwell GPUs, promises to allow, for the first time, end-to-end fully-quantized pre-training of massive models such as LLMs. Yet, existing quantized training methods still sacrifice some of the representation capacity of this format in favor of more accurate unbiased quantized gradient estimation by stochastic rounding (SR), losing noticeable accuracy relative to standard FP16 and FP8 training. In this paper, improve the state of the art for quantized training in NVFP4 via a novel unbiased quantization routine for micro-scaled"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2601.22813","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2601.22813/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2601.22813","created_at":"2026-06-02T02:04:50.394555+00:00"},{"alias_kind":"arxiv_version","alias_value":"2601.22813v2","created_at":"2026-06-02T02:04:50.394555+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2601.22813","created_at":"2026-06-02T02:04:50.394555+00:00"},{"alias_kind":"pith_short_12","alias_value":"MN5WLFNPB3JK","created_at":"2026-06-02T02:04:50.394555+00:00"},{"alias_kind":"pith_short_16","alias_value":"MN5WLFNPB3JKUJGW","created_at":"2026-06-02T02:04:50.394555+00:00"},{"alias_kind":"pith_short_8","alias_value":"MN5WLFNP","created_at":"2026-06-02T02:04:50.394555+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":6,"internal_anchor_count":6,"sample":[{"citing_arxiv_id":"2605.20402","citing_title":"Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20402","citing_title":"Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12327","citing_title":"Grid Games: The Power of Multiple Grids for Quantizing Large Language Models","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06067","citing_title":"Normalized Architectures are Natively 4-Bit","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06014","citing_title":"Quantizing With Randomized Hadamard Transforms: Efficient Heuristic Now Proven","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08826","citing_title":"HiFloat4 Format for Language Model Pre-training on Ascend NPUs","ref_index":12,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN","json":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN.json","graph_json":"https://pith.science/api/pith-number/MN5WLFNPB3JKUJGWGPKMLGE5PN/graph.json","events_json":"https://pith.science/api/pith-number/MN5WLFNPB3JKUJGWGPKMLGE5PN/events.json","paper":"https://pith.science/paper/MN5WLFNP"},"agent_actions":{"view_html":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN","download_json":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN.json","view_paper":"https://pith.science/paper/MN5WLFNP","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2601.22813&json=true","fetch_graph":"https://pith.science/api/pith-number/MN5WLFNPB3JKUJGWGPKMLGE5PN/graph.json","fetch_events":"https://pith.science/api/pith-number/MN5WLFNPB3JKUJGWGPKMLGE5PN/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN/action/timestamp_anchor","attest_storage":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN/action/storage_attestation","attest_author":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN/action/author_attestation","sign_citation":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN/action/citation_signature","submit_replication":"https://pith.science/pith/MN5WLFNPB3JKUJGWGPKMLGE5PN/action/replication_record"}},"created_at":"2026-06-02T02:04:50.394555+00:00","updated_at":"2026-06-02T02:04:50.394555+00:00"}