{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2025:FQ5J6PFLWEPYJZZDRMZDBCYEE2","short_pith_number":"pith:FQ5J6PFL","canonical_record":{"source":{"id":"2511.04393","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.AI","submitted_at":"2025-11-06T14:21:22Z","cross_cats_sorted":[],"title_canon_sha256":"f0de672cb3137cdf3c9ede246b2438cca652f650142277c170005406a121adc4","abstract_canon_sha256":"a25f9e04e0aca420afb0353a3101e7a2a315c1b8f421a033b22efb10dc2d7e67"},"schema_version":"1.0"},"canonical_sha256":"2c3a9f3cabb11f84e7238b32308b0426907ecbce5b64856444d7ec2795836700","source":{"kind":"arxiv","id":"2511.04393","version":2},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2511.04393","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"arxiv_version","alias_value":"2511.04393v2","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2511.04393","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"pith_short_12","alias_value":"FQ5J6PFLWEPY","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"pith_short_16","alias_value":"FQ5J6PFLWEPYJZZD","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"pith_short_8","alias_value":"FQ5J6PFL","created_at":"2026-06-01T01:02:24Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2025:FQ5J6PFLWEPYJZZDRMZDBCYEE2","target":"record","payload":{"canonical_record":{"source":{"id":"2511.04393","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.AI","submitted_at":"2025-11-06T14:21:22Z","cross_cats_sorted":[],"title_canon_sha256":"f0de672cb3137cdf3c9ede246b2438cca652f650142277c170005406a121adc4","abstract_canon_sha256":"a25f9e04e0aca420afb0353a3101e7a2a315c1b8f421a033b22efb10dc2d7e67"},"schema_version":"1.0"},"canonical_sha256":"2c3a9f3cabb11f84e7238b32308b0426907ecbce5b64856444d7ec2795836700","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-01T01:02:24.959931Z","signature_b64":"ocikk3Ac/cBxzunKErS+ocHr218/JQhxTrMnVJDi1fcI+Na5QBXaT78SygxuSNy4S2NmLpNpvsgfgec7JZhlCg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2c3a9f3cabb11f84e7238b32308b0426907ecbce5b64856444d7ec2795836700","last_reissued_at":"2026-06-01T01:02:24.959041Z","signature_status":"signed_v1","first_computed_at":"2026-06-01T01:02:24.959041Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2511.04393","source_version":2,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-06-01T01:02:24Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"+PRtq64FYigX5J0u6ymGnMul0S/9aQq0t32VZgrASF2KzPn3areAbb68H8fR91pTrFOSIZLaGmBVrJrowWC3CA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-01T13:48:27.656337Z"},"content_sha256":"3151502b2858e38c940cef9e4981ce03c98a9dd663d6449b2f656d48ef9ecd2c","schema_version":"1.0","event_id":"sha256:3151502b2858e38c940cef9e4981ce03c98a9dd663d6449b2f656d48ef9ecd2c"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2025:FQ5J6PFLWEPYJZZDRMZDBCYEE2","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Asuman Ozdaglar, Chanwoo Park, Kaiqing Zhang, Ziyang Chen","submitted_at":"2025-11-06T14:21:22Z","abstract_excerpt":"Large language models (LLMs) are increasingly deployed as \"agents\" for decision-making (DM) in interactive and dynamic environments. Yet, since they were not originally designed for DM, recent studies show that LLMs can struggle even in basic online DM problems, failing to achieve low regret or an effective exploration-exploitation tradeoff. To address this, we introduce Iterative Regret-Minimization Fine-Tuning (Iterative RMFT), a post-training procedure that repeatedly distills low-regret decision trajectories back into the base model. At each iteration, the model rolls out multiple decision"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2511.04393","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2511.04393/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-06-01T01:02:24Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"z1khf4rtLezPwkqIQ52/emNf972N0h9Xg/uaoeff4Thnr7RjJJ0dMmMYqO0S/yS0eFGFlGszs3/hlwmIYXOeCA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-01T13:48:27.656714Z"},"content_sha256":"ecbad7206f2d341575323428a612da334a587a460cf4fb435feeb0ac5261c8b8","schema_version":"1.0","event_id":"sha256:ecbad7206f2d341575323428a612da334a587a460cf4fb435feeb0ac5261c8b8"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/FQ5J6PFLWEPYJZZDRMZDBCYEE2/bundle.json","state_url":"https://pith.science/pith/FQ5J6PFLWEPYJZZDRMZDBCYEE2/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/FQ5J6PFLWEPYJZZDRMZDBCYEE2/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-01T13:48:27Z","links":{"resolver":"https://pith.science/pith/FQ5J6PFLWEPYJZZDRMZDBCYEE2","bundle":"https://pith.science/pith/FQ5J6PFLWEPYJZZDRMZDBCYEE2/bundle.json","state":"https://pith.science/pith/FQ5J6PFLWEPYJZZDRMZDBCYEE2/state.json","well_known_bundle":"https://pith.science/.well-known/pith/FQ5J6PFLWEPYJZZDRMZDBCYEE2/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2025:FQ5J6PFLWEPYJZZDRMZDBCYEE2","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"a25f9e04e0aca420afb0353a3101e7a2a315c1b8f421a033b22efb10dc2d7e67","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.AI","submitted_at":"2025-11-06T14:21:22Z","title_canon_sha256":"f0de672cb3137cdf3c9ede246b2438cca652f650142277c170005406a121adc4"},"schema_version":"1.0","source":{"id":"2511.04393","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2511.04393","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"arxiv_version","alias_value":"2511.04393v2","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2511.04393","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"pith_short_12","alias_value":"FQ5J6PFLWEPY","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"pith_short_16","alias_value":"FQ5J6PFLWEPYJZZD","created_at":"2026-06-01T01:02:24Z"},{"alias_kind":"pith_short_8","alias_value":"FQ5J6PFL","created_at":"2026-06-01T01:02:24Z"}],"graph_snapshots":[{"event_id":"sha256:ecbad7206f2d341575323428a612da334a587a460cf4fb435feeb0ac5261c8b8","target":"graph","created_at":"2026-06-01T01:02:24Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2511.04393/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Large language models (LLMs) are increasingly deployed as \"agents\" for decision-making (DM) in interactive and dynamic environments. Yet, since they were not originally designed for DM, recent studies show that LLMs can struggle even in basic online DM problems, failing to achieve low regret or an effective exploration-exploitation tradeoff. To address this, we introduce Iterative Regret-Minimization Fine-Tuning (Iterative RMFT), a post-training procedure that repeatedly distills low-regret decision trajectories back into the base model. At each iteration, the model rolls out multiple decision","authors_text":"Asuman Ozdaglar, Chanwoo Park, Kaiqing Zhang, Ziyang Chen","cross_cats":[],"headline":"","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.AI","submitted_at":"2025-11-06T14:21:22Z","title":"Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2511.04393","kind":"arxiv","version":2},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:3151502b2858e38c940cef9e4981ce03c98a9dd663d6449b2f656d48ef9ecd2c","target":"record","created_at":"2026-06-01T01:02:24Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"a25f9e04e0aca420afb0353a3101e7a2a315c1b8f421a033b22efb10dc2d7e67","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.AI","submitted_at":"2025-11-06T14:21:22Z","title_canon_sha256":"f0de672cb3137cdf3c9ede246b2438cca652f650142277c170005406a121adc4"},"schema_version":"1.0","source":{"id":"2511.04393","kind":"arxiv","version":2}},"canonical_sha256":"2c3a9f3cabb11f84e7238b32308b0426907ecbce5b64856444d7ec2795836700","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"2c3a9f3cabb11f84e7238b32308b0426907ecbce5b64856444d7ec2795836700","first_computed_at":"2026-06-01T01:02:24.959041Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-01T01:02:24.959041Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"ocikk3Ac/cBxzunKErS+ocHr218/JQhxTrMnVJDi1fcI+Na5QBXaT78SygxuSNy4S2NmLpNpvsgfgec7JZhlCg==","signature_status":"signed_v1","signed_at":"2026-06-01T01:02:24.959931Z","signed_message":"canonical_sha256_bytes"},"source_id":"2511.04393","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:3151502b2858e38c940cef9e4981ce03c98a9dd663d6449b2f656d48ef9ecd2c","sha256:ecbad7206f2d341575323428a612da334a587a460cf4fb435feeb0ac5261c8b8"],"state_sha256":"59c8bb4619261224b70f0121aa41a5b280024df874f01f22c3a9a2332653f568"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"DP0i839cV7RBxszqt6VPxGOQYfYPCe4qChWYfpH/Dt8S3QVN0ny4Q8s341W5+SjDTIGKp3KkZsg7IiGZyyD9BQ==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-01T13:48:27.658712Z","bundle_sha256":"c1fe13efbc146389e340dcdbdbb9403e95fe1eb8601258344585b5b25c1e9d00"}}