{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:QUBC5UMTDPBC4QFEYWLPFN5E77","short_pith_number":"pith:QUBC5UMT","schema_version":"1.0","canonical_sha256":"85022ed1931bc22e40a4c596f2b7a4ffccf4e8ac3491af192700fa19049f38e4","source":{"kind":"arxiv","id":"2406.02509","version":1},"attestation_state":"computed","paper":{"title":"CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"CamCo adds precise camera pose control to image-to-video generation while enforcing 3D consistency across frames.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Arash Vahdat, Chao Liu, Dejia Xu, Jan Kautz, Sifei Liu, Weili Nie, Zhangyang Wang","submitted_at":"2024-06-04T17:27:19Z","abstract_excerpt":"Recently video diffusion models have emerged as expressive generative tools for high-quality video content creation readily available to general users. However, these models often do not offer precise control over camera poses for video generation, limiting the expression of cinematic language and user control. To address this issue, we introduce CamCo, which allows fine-grained Camera pose Control for image-to-video generation. We equip a pre-trained image-to-video generator with accurately parameterized camera pose input using Pl\\\"ucker coordinates. To enhance 3D consistency in the videos pr"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2406.02509","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2024-06-04T17:27:19Z","cross_cats_sorted":[],"title_canon_sha256":"c358ab54f299c894e2ff6b254dd0f9df8d91edd137583060629b740233c5d527","abstract_canon_sha256":"271e94179800efbd83c4c50a7553d59c8d5f0b355ff9be3032dc979f02d0c972"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:46.805598Z","signature_b64":"kfxfivGlFQcPvaqoQyt6aEegjVeOuP+Paj5Up9zdFPNykFc21XVjLR9t8gcSd8mojbV0LoabN5uAoeuptHMCDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"85022ed1931bc22e40a4c596f2b7a4ffccf4e8ac3491af192700fa19049f38e4","last_reissued_at":"2026-05-17T23:38:46.805055Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:46.805055Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"CamCo adds precise camera pose control to image-to-video generation while enforcing 3D consistency across frames.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Arash Vahdat, Chao Liu, Dejia Xu, Jan Kautz, Sifei Liu, Weili Nie, Zhangyang Wang","submitted_at":"2024-06-04T17:27:19Z","abstract_excerpt":"Recently video diffusion models have emerged as expressive generative tools for high-quality video content creation readily available to general users. However, these models often do not offer precise control over camera poses for video generation, limiting the expression of cinematic language and user control. To address this issue, we introduce CamCo, which allows fine-grained Camera pose Control for image-to-video generation. We equip a pre-trained image-to-video generator with accurately parameterized camera pose input using Pl\\\"ucker coordinates. To enhance 3D consistency in the videos pr"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Our experiments show that CamCo significantly improves 3D consistency and camera control capabilities compared to previous models while effectively generating plausible object motion.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the epipolar attention module will enforce geometric consistency across frames without introducing new artifacts or reducing visual quality, and that fine-tuning on SfM-estimated poses from real videos will transfer to user-specified camera trajectories at inference time.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"CamCo equips image-to-video generators with Plücker-coordinate camera inputs and epipolar attention to improve 3D consistency and camera controllability.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"CamCo adds precise camera pose control to image-to-video generation while enforcing 3D consistency across frames.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"9e355c76cda6241c7eb682f09765b59b0c155b6c8255ac13465cf99d76d33f7e"},"source":{"id":"2406.02509","kind":"arxiv","version":1},"verdict":{"id":"6c9be686-5027-41cb-9fcf-9c3222dad798","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T19:39:57.771538Z","strongest_claim":"Our experiments show that CamCo significantly improves 3D consistency and camera control capabilities compared to previous models while effectively generating plausible object motion.","one_line_summary":"CamCo equips image-to-video generators with Plücker-coordinate camera inputs and epipolar attention to improve 3D consistency and camera controllability.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the epipolar attention module will enforce geometric consistency across frames without introducing new artifacts or reducing visual quality, and that fine-tuning on SfM-estimated poses from real videos will transfer to user-specified camera trajectories at inference time.","pith_extraction_headline":"CamCo adds precise camera pose control to image-to-video generation while enforcing 3D consistency across frames."},"references":{"count":63,"sample":[{"doi":"","year":2023,"title":"Stable video diffusion: Scaling latent video diffu- sion models to large datasets","work_id":"44aec313-7388-4097-b049-fb3888e3f072","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2021,"title":"Frozen in time: A joint video and image encoder for end-to-end retrieval","work_id":"2a136f10-92cd-4a8d-96ba-7aa9ab74f8d3","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Improving image generation with better captions","work_id":"aa4e9e1a-4c37-468d-bdb4-412819771b5e","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Align your latents: High-resolution video synthesis with latent diffusion models","work_id":"d4d6346d-ffdc-4dd2-a00c-f7409d76344d","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Video generation models as world simulators","work_id":"d274a5e4-174c-445f-b42d-b4f55cdfb2f5","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":63,"snapshot_sha256":"1a4235ee2b6c90abb42075b49951c16dd440363dccd01fbec15dab03f20b7d68","internal_anchors":17},"formal_canon":{"evidence_count":2,"snapshot_sha256":"d7c36e7bd89d193282ea8b5bbc01bf4e3e69bdca6f4006b6d4a122be458b3fb2"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2406.02509","created_at":"2026-05-17T23:38:46.805142+00:00"},{"alias_kind":"arxiv_version","alias_value":"2406.02509v1","created_at":"2026-05-17T23:38:46.805142+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2406.02509","created_at":"2026-05-17T23:38:46.805142+00:00"},{"alias_kind":"pith_short_12","alias_value":"QUBC5UMTDPBC","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"QUBC5UMTDPBC4QFE","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"QUBC5UMT","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":24,"internal_anchor_count":24,"sample":[{"citing_arxiv_id":"2601.00678","citing_title":"Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17248","citing_title":"Image-to-Video Diffusion: From Foundations to Open Frontiers","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2509.19979","citing_title":"CamPVG: Camera-Controlled Panoramic Video Generation with Epipolar-Aware Diffusion","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2511.00503","citing_title":"Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2512.10959","citing_title":"StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space","ref_index":96,"is_internal_anchor":true},{"citing_arxiv_id":"2601.00678","citing_title":"Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15178","citing_title":"SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2603.26481","citing_title":"SparseCam4D: Spatio-Temporally Consistent 4D Reconstruction from Sparse Cameras","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07188","citing_title":"PicoEyes: Unified Gaze Estimation Framework for Mixed Reality with a Large-Scale Multi-View Dataset","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2409.02048","citing_title":"ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2404.02101","citing_title":"CameraCtrl: Enabling Camera Control for Text-to-Video Generation","ref_index":158,"is_internal_anchor":true},{"citing_arxiv_id":"2604.28169","citing_title":"PhyCo: Learning Controllable Physical Priors for Generative Motion","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17565","citing_title":"UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models","ref_index":79,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06051","citing_title":"RealCam: Real-Time Novel-View Video Generation with Interactive Camera Control","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00345","citing_title":"Pose-Aware Diffusion for 3D Generation","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13036","citing_title":"Lyra 2.0: Explorable Generative 3D Worlds","ref_index":120,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07188","citing_title":"PicoEyes: Unified Gaze Estimation Framework for Mixed Reality with a Large-Scale Multi-View Dataset","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09429","citing_title":"Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2501.03575","citing_title":"Cosmos World Foundation Model Platform for Physical AI","ref_index":225,"is_internal_anchor":true},{"citing_arxiv_id":"2604.07209","citing_title":"INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06010","citing_title":"OmniCamera: A Unified Framework for Multi-task Video Generation with Arbitrary Camera Control","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14302","citing_title":"Geometrically Consistent Multi-View Scene Generation from Freehand Sketches","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17565","citing_title":"UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models","ref_index":79,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21776","citing_title":"Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting","ref_index":43,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77","json":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77.json","graph_json":"https://pith.science/api/pith-number/QUBC5UMTDPBC4QFEYWLPFN5E77/graph.json","events_json":"https://pith.science/api/pith-number/QUBC5UMTDPBC4QFEYWLPFN5E77/events.json","paper":"https://pith.science/paper/QUBC5UMT"},"agent_actions":{"view_html":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77","download_json":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77.json","view_paper":"https://pith.science/paper/QUBC5UMT","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2406.02509&json=true","fetch_graph":"https://pith.science/api/pith-number/QUBC5UMTDPBC4QFEYWLPFN5E77/graph.json","fetch_events":"https://pith.science/api/pith-number/QUBC5UMTDPBC4QFEYWLPFN5E77/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77/action/timestamp_anchor","attest_storage":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77/action/storage_attestation","attest_author":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77/action/author_attestation","sign_citation":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77/action/citation_signature","submit_replication":"https://pith.science/pith/QUBC5UMTDPBC4QFEYWLPFN5E77/action/replication_record"}},"created_at":"2026-05-17T23:38:46.805142+00:00","updated_at":"2026-05-17T23:38:46.805142+00:00"}