{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:LTC5F6X7XFS5JRME2HUOBX4ZUS","short_pith_number":"pith:LTC5F6X7","schema_version":"1.0","canonical_sha256":"5cc5d2faffb965d4c584d1e8e0df99a4a10d66fda744db74f2cbbc260888bda5","source":{"kind":"arxiv","id":"2503.07598","version":2},"attestation_state":"computed","paper":{"title":"VACE: All-in-One Video Creation and Editing","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"VACE unifies reference-to-video generation, video-to-video editing, and masked editing in one diffusion transformer model.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu, Zeyinzi Jiang, Zhen Han","submitted_at":"2025-03-10T17:57:04Z","abstract_excerpt":"Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, vid"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2503.07598","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-03-10T17:57:04Z","cross_cats_sorted":[],"title_canon_sha256":"2c7c560f4cbfdf87ccdb24d7102a49e1f8018124aba127510f276ea072866958","abstract_canon_sha256":"1292eeb7b544d00e497f524c966f0595d82d9986f7c40778ae387cc1bf65999d"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.530496Z","signature_b64":"CidutFwk9E8Gw6ecMtZ1NStuTcwt8QSyfkCUArqrgLZ3mYisH2TZfiys0FiZgQ6uHXNPxsATYaC8HDMLr5HtCQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"5cc5d2faffb965d4c584d1e8e0df99a4a10d66fda744db74f2cbbc260888bda5","last_reissued_at":"2026-05-17T23:38:49.529939Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.529939Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"VACE: All-in-One Video Creation and Editing","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"VACE unifies reference-to-video generation, video-to-video editing, and masked editing in one diffusion transformer model.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu, Zeyinzi Jiang, Zhen Han","submitted_at":"2025-03-10T17:57:04Z","abstract_excerpt":"Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, vid"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"that the Video Condition Unit and Context Adapter can integrate the requirements of reference-to-video, video-to-video, and masked editing tasks into a single model without performance degradation relative to specialized systems.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"VACE unifies reference-to-video generation, video-to-video editing, and masked video-to-video editing in one Diffusion Transformer framework using a Video Condition Unit for inputs and a Context Adapter for task injection.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"VACE unifies reference-to-video generation, video-to-video editing, and masked editing in one diffusion transformer model.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"5e3b2b50af3cebcfa67cc8e46fd7a55ede1bb1bbd0e72032f321f1675e98ff6b"},"source":{"id":"2503.07598","kind":"arxiv","version":2},"verdict":{"id":"dcf63541-932c-414f-96b3-cf9a5d1d958f","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T00:48:33.590926Z","strongest_claim":"the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations.","one_line_summary":"VACE unifies reference-to-video generation, video-to-video editing, and masked video-to-video editing in one Diffusion Transformer framework using a Video Condition Unit for inputs and a Context Adapter for task injection.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"that the Video Condition Unit and Context Adapter can integrate the requirements of reference-to-video, video-to-video, and masked editing tasks into a single model without performance degradation relative to specialized systems.","pith_extraction_headline":"VACE unifies reference-to-video generation, video-to-video editing, and masked editing in one diffusion transformer model."},"references":{"count":81,"sample":[{"doi":"","year":null,"title":"KLING AI, https://klingai.com/ ,","work_id":"02be1107-121c-4dda-a749-df32de2a34b2","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"Stable Diffusion v1.5 Model Card, https://huggingface.co/runwayml/stable- diffusion-v1-5, 2022","work_id":"c7f856b2-cfe1-4a71-9cd5-529683c6a523","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"Stable Diffusion Inpainting Model Card, https://huggingface.co/runwayml/stable- diffusion-inpainting, 2022","work_id":"a4296892-521a-43db-8142-7df676cf710e","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Tim Brooks, Aleksander Holynski, and Alexei A. Efros. In- structPix2Pix: Learning To Follow Image Editing Instruc- tions. In IEEE Conf. Comput. Vis. Pattern Recog. , pages 18392–18402, 2023. 2, 3","work_id":"57163bb1-5d6a-4e2b-890e-3645454dcb28","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2021,"title":"OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields","work_id":"61b0f343-0d3d-45fe-bcff-672c64331b9c","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":81,"snapshot_sha256":"190b06ccb06772df870e978cb4e06f92ed0225762e31f3078d155cf6dedf7197","internal_anchors":6},"formal_canon":{"evidence_count":2,"snapshot_sha256":"98ac4e276ab47b3b674121c6770f7e8103a6978261a6811e24065b771702275b"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2503.07598","created_at":"2026-05-17T23:38:49.530042+00:00"},{"alias_kind":"arxiv_version","alias_value":"2503.07598v2","created_at":"2026-05-17T23:38:49.530042+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2503.07598","created_at":"2026-05-17T23:38:49.530042+00:00"},{"alias_kind":"pith_short_12","alias_value":"LTC5F6X7XFS5","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"LTC5F6X7XFS5JRME","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"LTC5F6X7","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":38,"internal_anchor_count":38,"sample":[{"citing_arxiv_id":"2605.23192","citing_title":"Occlusion-Aware Physics-Semantic Keyframe Selection for Robust Video Editing","ref_index":116,"is_internal_anchor":true},{"citing_arxiv_id":"2503.20314","citing_title":"Wan: Open and Advanced Large-Scale Video Generative Models","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2504.17816","citing_title":"Learning Zero-Shot Subject-Driven Video Generation Using 1% Compute","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22051","citing_title":"EasyVFX: Frequency-Driven Decoupling for Resource-Efficient VFX Generation","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2512.15693","citing_title":"Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17248","citing_title":"Image-to-Video Diffusion: From Foundations to Open Frontiers","ref_index":88,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17283","citing_title":"OProver: A Unified Framework for Agentic Formal Theorem Proving","ref_index":92,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17312","citing_title":"VISTA: Triplet-Supervised Video Style Transfer with Diffusion Transformers","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17423","citing_title":"Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18748","citing_title":"Aurora: Unified Video Editing with a Tool-Using Agent","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15533","citing_title":"Tuning-free Instruction-based Video Editing Via Structural Noise Initialization and Guidance","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2510.01186","citing_title":"ASTRA: Let Arbitrary Subjects Transform in Video Editing","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2511.17844","citing_title":"Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2511.18957","citing_title":"Eevee: Towards Close-up High-resolution Video-based Virtual Try-on","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2512.05564","citing_title":"ProPhy: Progressive Physical Alignment for Dynamic World Simulation","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2512.07469","citing_title":"VideoCoF: Unified Video Editing with Temporal Reasoner","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2512.07951","citing_title":"Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2512.10571","citing_title":"AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2601.06928","citing_title":"RenderFlow: Single-Step Neural Rendering via Flow Matching","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2601.10632","citing_title":"CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2602.13669","citing_title":"EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2603.09283","citing_title":"From Ideal to Real: Stable Video Object Removal under Imperfect Conditions","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14664","citing_title":"MiVE: Multiscale Vision-language features for reference-guided video Editing","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03819","citing_title":"ActivityForensics: A Comprehensive Benchmark for Localizing Manipulated Activity in Videos","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03637","citing_title":"Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing","ref_index":8,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS","json":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS.json","graph_json":"https://pith.science/api/pith-number/LTC5F6X7XFS5JRME2HUOBX4ZUS/graph.json","events_json":"https://pith.science/api/pith-number/LTC5F6X7XFS5JRME2HUOBX4ZUS/events.json","paper":"https://pith.science/paper/LTC5F6X7"},"agent_actions":{"view_html":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS","download_json":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS.json","view_paper":"https://pith.science/paper/LTC5F6X7","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2503.07598&json=true","fetch_graph":"https://pith.science/api/pith-number/LTC5F6X7XFS5JRME2HUOBX4ZUS/graph.json","fetch_events":"https://pith.science/api/pith-number/LTC5F6X7XFS5JRME2HUOBX4ZUS/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS/action/timestamp_anchor","attest_storage":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS/action/storage_attestation","attest_author":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS/action/author_attestation","sign_citation":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS/action/citation_signature","submit_replication":"https://pith.science/pith/LTC5F6X7XFS5JRME2HUOBX4ZUS/action/replication_record"}},"created_at":"2026-05-17T23:38:49.530042+00:00","updated_at":"2026-05-17T23:38:49.530042+00:00"}