{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:HDPXO5DKHMNGVLETG4KPSF3HKT","merge_version":"pith-open-graph-merge-v1","event_count":7,"valid_event_count":7,"invalid_event_count":0,"equivocation_count":1,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"2ad5c571057bcc27dfc05075d4d48a519b2cb4bb92f5b35c0bc663ec6d91284e","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-05-14T17:59:04Z","title_canon_sha256":"54a69f0e7bf5f6bfbca1d7fd0698c3fb77fc02d41bcdf1af94ce3fa33b5852f9"},"schema_version":"1.0","source":{"id":"2605.15185","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.15185","created_at":"2026-05-17T21:18:32Z"},{"alias_kind":"arxiv_version","alias_value":"2605.15185v1","created_at":"2026-05-17T21:18:32Z"},{"alias_kind":"pith_short_12","alias_value":"HDPXO5DKHMNG","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"HDPXO5DKHMNGVLET","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"HDPXO5DK","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:11e38859876338cf324b6b3170572c2fdfe269a5ab953456eb488935dd51bf09","target":"graph","created_at":"2026-05-17T21:57:18Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That monocular 3D reconstruction from the generated video (via tools such as MegaSaM) produces sufficiently accurate world-space coordinates to diagnose the generator's own geometric errors rather than injecting reconstruction artifacts."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"PDI-Bench computes 3D projective residuals from segmented and tracked points to quantify geometric inconsistency in AI-generated videos."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"PDI-Bench quantifies geometric coherence in generated videos by measuring projective residuals from 3D lifts of tracked points."}],"snapshot_sha256":"aef68a9b17cc87ee7f1fec61b4af53c69510dae6b376328e14d122021ec222c5"},"formal_canon":{"evidence_count":2,"snapshot_sha256":"2d57cebfb23c170fa7354f21b3df20837a6e8bfd78de8706a8c8ec88129f8932"},"paper":{"abstract_excerpt":"Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and Co","authors_text":"Jiaxin Wu, Xueyan Zou, Yihao Pi, Yinling Zhang, Yuheng Li","cross_cats":["cs.AI"],"headline":"PDI-Bench quantifies geometric coherence in generated videos by measuring projective residuals from 3D lifts of tracked points.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-05-14T17:59:04Z","title":"Quantitative Video World Model Evaluation for Geometric-Consistency"},"references":{"count":64,"internal_anchors":10,"resolved_work":64,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"K. Allen, C. Doersch, G. Zhou, M. Suhail, D. Driess, I. Rocco, Y. Rubanova, T. Kipf, M. S. M. Sajjadi, K. Murphy, J. Carreira, and S. van Steenkiste. Direct motion models for assessing generated video","work_id":"b4f37c3a-ed71-4b04-97ab-c283bcd9d736","year":null},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":2,"title":"URLhttps://arxiv.org/abs/2505.00209","work_id":"792ebd6f-e7c7-48dd-b442-6c0d16474c5d","year":null},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":3,"title":"M. Asim, C. Wewer, T. Wimmer, B. Schiele, and J. E. Lenssen. Met3r: Measuring multi-view consistency in generated images, 2026. URLhttps://arxiv.org/abs/2501.06336","work_id":"2058f4f5-62a5-4365-a929-6ad5e45d80f7","year":2026},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Videophy: Evaluating physical commonsense for video generation","work_id":"27ed795c-abbe-4de1-9a7a-2ecf39c354f3","year":2024},{"cited_arxiv_id":"2311.15127","doi":"","is_internal_anchor":true,"ref_index":5,"title":"Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets","work_id":"4f68eada-27e3-437a-a2fe-6e4ca524d0d3","year":2023}],"snapshot_sha256":"3e66c0ed1cc25590dbaeaa6633d8dad152e83a916b6419d1eeaa6f42273da3d0"},"source":{"id":"2605.15185","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-15T03:06:28.592571Z","id":"0d2d6059-38fd-4f44-8c7e-d02e4ea4a3a6","model_set":{"reader":"grok-4.3"},"one_line_summary":"PDI-Bench computes 3D projective residuals from segmented and tracked points to quantify geometric inconsistency in AI-generated videos.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"PDI-Bench quantifies geometric coherence in generated videos by measuring projective residuals from 3D lifts of tracked points.","strongest_claim":"Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model.","weakest_assumption":"That monocular 3D reconstruction from the generated video (via tools such as MegaSaM) produces sufficiently accurate world-space coordinates to diagnose the generator's own geometric errors rather than injecting reconstruction artifacts."}},"verdict_id":"0d2d6059-38fd-4f44-8c7e-d02e4ea4a3a6"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:06e6a75ea644435cc00b3ad466e910a3cc4031c8586f0f3a83e0e5cb5c8c7ef8","target":"record","created_at":"2026-05-17T21:18:32Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"2ad5c571057bcc27dfc05075d4d48a519b2cb4bb92f5b35c0bc663ec6d91284e","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-05-14T17:59:04Z","title_canon_sha256":"54a69f0e7bf5f6bfbca1d7fd0698c3fb77fc02d41bcdf1af94ce3fa33b5852f9"},"schema_version":"1.0","source":{"id":"2605.15185","kind":"arxiv","version":1}},"canonical_sha256":"38df77746a3b1a6aac933714f9176754d8866f31af51a8593c473b3d23a607e7","receipt":{"builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"38df77746a3b1a6aac933714f9176754d8866f31af51a8593c473b3d23a607e7","first_computed_at":"2026-05-17T21:40:25.107372Z","kind":"pith_receipt","last_reissued_at":"2026-05-17T21:57:18.491550Z","receipt_version":"0.2","signature_status":"unsigned_v0"},"source_id":"2605.15185","source_kind":"arxiv","source_version":1}}},"equivocations":[{"signer_id":"pith.science","event_type":"integrity_finding","target":"integrity","event_ids":["sha256:6c1aa3c2ad274a8b1babdf31ba498ef7b72855511a86c7b32c807842ab7ecca9","sha256:7b90b260603d684d867ae118517b61c33df42d0e611e1fb0c5f0df4438850b38","sha256:a72135a5fd2b4dd472c8f3fa6b13141e6d06788ecc511937bacf21b149cb9043","sha256:b071917e81bb5ff4381fd6548f126db7c109ce3c03dd77395d9f26952c8ca4fe","sha256:c9abcb85c3e36018a4ce0b2540e4cdee7c3e8dd021bcd8270cd3ce9a4c6f8e05"]}],"invalid_events":[],"applied_event_ids":["sha256:06e6a75ea644435cc00b3ad466e910a3cc4031c8586f0f3a83e0e5cb5c8c7ef8","sha256:11e38859876338cf324b6b3170572c2fdfe269a5ab953456eb488935dd51bf09"],"state_sha256":"0f73173ada0c34d2cab282abbd45d3639713bbb5dc8d57d05b8dea68cca4d5d8"}