{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:QTDTQ73XNXQCYPIZXAKB7NTDBQ","short_pith_number":"pith:QTDTQ73X","canonical_record":{"source":{"id":"2606.08602","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-07T12:28:51Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"cdc42d65007bfbbb77f978c04e1e996f14b0fc5a594698bffbd64ca29c058fac","abstract_canon_sha256":"999206803c763ad9e5891197626a9fe0b4e4ffaf520a142b889ec4776a91f7c3"},"schema_version":"1.0"},"canonical_sha256":"84c7387f776de02c3d19b8141fb6630c2e5f49785272dd85484955ded0e0310a","source":{"kind":"arxiv","id":"2606.08602","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.08602","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"arxiv_version","alias_value":"2606.08602v1","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.08602","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"pith_short_12","alias_value":"QTDTQ73XNXQC","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"pith_short_16","alias_value":"QTDTQ73XNXQCYPIZ","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"pith_short_8","alias_value":"QTDTQ73X","created_at":"2026-06-09T01:05:41Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:QTDTQ73XNXQCYPIZXAKB7NTDBQ","target":"record","payload":{"canonical_record":{"source":{"id":"2606.08602","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-07T12:28:51Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"cdc42d65007bfbbb77f978c04e1e996f14b0fc5a594698bffbd64ca29c058fac","abstract_canon_sha256":"999206803c763ad9e5891197626a9fe0b4e4ffaf520a142b889ec4776a91f7c3"},"schema_version":"1.0"},"canonical_sha256":"84c7387f776de02c3d19b8141fb6630c2e5f49785272dd85484955ded0e0310a","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-09T01:05:41.193547Z","signature_b64":"JAiMnohJx2eTV//KizDTMJiOUdNqgUn3w6iEu94ijuEdHn9QV3hswdHnfAYYAuTBilu0+q15hQXmjqyIrupeBw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"84c7387f776de02c3d19b8141fb6630c2e5f49785272dd85484955ded0e0310a","last_reissued_at":"2026-06-09T01:05:41.193119Z","signature_status":"signed_v1","first_computed_at":"2026-06-09T01:05:41.193119Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2606.08602","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-06-09T01:05:41Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"eHsjLe1rUYjl3F1aOSdtmQnbt8PKJCiZF0w4e1KuzfykzPokeI8qdDdkLHVdxFvm0sx1qyfRBbQQbSZq1Hb2BQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-09T19:19:54.321199Z"},"content_sha256":"593fb69ea0c3a0a6fdba0dd22bae1a084b45651bbe178302a4666936eeecce05","schema_version":"1.0","event_id":"sha256:593fb69ea0c3a0a6fdba0dd22bae1a084b45651bbe178302a4666936eeecce05"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:QTDTQ73XNXQCYPIZXAKB7NTDBQ","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Reinforcement Learning for Flow-Matching Policies with Density Transport","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Antonio Loquercio, Boshu Lei, Kostas Daniilidis","submitted_at":"2026-06-07T12:28:51Z","abstract_excerpt":"We present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuous-control problems. Our key insight is to view RL-based policy improvement as a transport of action densities towards regions of high reward, which naturally aligns with the transport formulation of flow matching models. Prior methods either approximate the current or optimal policy distribution or resort to distillation, which introduces biased gradients or sacrifices multimodal modeling capacity. In contrast, our approach for RL with Density Transport, which we name \\emph{RLDT}, cons"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.08602","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.08602/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-06-09T01:05:41Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"kfiYTUsg5ts4vTM0kXpsVqOgkr/oHc/0llUHrnN20ksEiuYMT+e6cczEQlg/As8Q8/mvqKBubu9uK7BTDpUUCA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-09T19:19:54.321993Z"},"content_sha256":"abf99f120b65aa97390dbdc01211b28c1429e2227711c137519ec5f73bf0f13a","schema_version":"1.0","event_id":"sha256:abf99f120b65aa97390dbdc01211b28c1429e2227711c137519ec5f73bf0f13a"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/QTDTQ73XNXQCYPIZXAKB7NTDBQ/bundle.json","state_url":"https://pith.science/pith/QTDTQ73XNXQCYPIZXAKB7NTDBQ/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/QTDTQ73XNXQCYPIZXAKB7NTDBQ/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-09T19:19:54Z","links":{"resolver":"https://pith.science/pith/QTDTQ73XNXQCYPIZXAKB7NTDBQ","bundle":"https://pith.science/pith/QTDTQ73XNXQCYPIZXAKB7NTDBQ/bundle.json","state":"https://pith.science/pith/QTDTQ73XNXQCYPIZXAKB7NTDBQ/state.json","well_known_bundle":"https://pith.science/.well-known/pith/QTDTQ73XNXQCYPIZXAKB7NTDBQ/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:QTDTQ73XNXQCYPIZXAKB7NTDBQ","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"999206803c763ad9e5891197626a9fe0b4e4ffaf520a142b889ec4776a91f7c3","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-07T12:28:51Z","title_canon_sha256":"cdc42d65007bfbbb77f978c04e1e996f14b0fc5a594698bffbd64ca29c058fac"},"schema_version":"1.0","source":{"id":"2606.08602","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.08602","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"arxiv_version","alias_value":"2606.08602v1","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.08602","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"pith_short_12","alias_value":"QTDTQ73XNXQC","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"pith_short_16","alias_value":"QTDTQ73XNXQCYPIZ","created_at":"2026-06-09T01:05:41Z"},{"alias_kind":"pith_short_8","alias_value":"QTDTQ73X","created_at":"2026-06-09T01:05:41Z"}],"graph_snapshots":[{"event_id":"sha256:abf99f120b65aa97390dbdc01211b28c1429e2227711c137519ec5f73bf0f13a","target":"graph","created_at":"2026-06-09T01:05:41Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2606.08602/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"We present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuous-control problems. Our key insight is to view RL-based policy improvement as a transport of action densities towards regions of high reward, which naturally aligns with the transport formulation of flow matching models. Prior methods either approximate the current or optimal policy distribution or resort to distillation, which introduces biased gradients or sacrifices multimodal modeling capacity. In contrast, our approach for RL with Density Transport, which we name \\emph{RLDT}, cons","authors_text":"Antonio Loquercio, Boshu Lei, Kostas Daniilidis","cross_cats":["cs.AI"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-07T12:28:51Z","title":"Reinforcement Learning for Flow-Matching Policies with Density Transport"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.08602","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:593fb69ea0c3a0a6fdba0dd22bae1a084b45651bbe178302a4666936eeecce05","target":"record","created_at":"2026-06-09T01:05:41Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"999206803c763ad9e5891197626a9fe0b4e4ffaf520a142b889ec4776a91f7c3","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-06-07T12:28:51Z","title_canon_sha256":"cdc42d65007bfbbb77f978c04e1e996f14b0fc5a594698bffbd64ca29c058fac"},"schema_version":"1.0","source":{"id":"2606.08602","kind":"arxiv","version":1}},"canonical_sha256":"84c7387f776de02c3d19b8141fb6630c2e5f49785272dd85484955ded0e0310a","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"84c7387f776de02c3d19b8141fb6630c2e5f49785272dd85484955ded0e0310a","first_computed_at":"2026-06-09T01:05:41.193119Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-09T01:05:41.193119Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"JAiMnohJx2eTV//KizDTMJiOUdNqgUn3w6iEu94ijuEdHn9QV3hswdHnfAYYAuTBilu0+q15hQXmjqyIrupeBw==","signature_status":"signed_v1","signed_at":"2026-06-09T01:05:41.193547Z","signed_message":"canonical_sha256_bytes"},"source_id":"2606.08602","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:593fb69ea0c3a0a6fdba0dd22bae1a084b45651bbe178302a4666936eeecce05","sha256:abf99f120b65aa97390dbdc01211b28c1429e2227711c137519ec5f73bf0f13a"],"state_sha256":"fed93e4358ee51f40a775f758923ca3c3306ce0e6487e8322f34c18142b32b06"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"RK+VM1cQ84pkdk0bhOIty7nRzwh2S+SnL2+a6EP6J5g8aU6+NhGWyspcawX5d2Uhp3MXXx+j2BGB14jwmopNBA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-09T19:19:54.326516Z","bundle_sha256":"9ef7d691f68d236970d8d72267d5748041d69605935b9d0bf81d7f85faadb566"}}