{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:FU3QJMJLKBVLXZFJLB6OAC5I22","short_pith_number":"pith:FU3QJMJL","schema_version":"1.0","canonical_sha256":"2d3704b12b506abbe4a9587ce00ba8d69d6bab89ddb5116c82d23207fb5ff959","source":{"kind":"arxiv","id":"2512.16776","version":1},"attestation_state":"computed","paper":{"title":"Kling-Omni Technical Report","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"Kling-Omni unifies video generation, editing, and reasoning into a single end-to-end framework that accepts text, images, and video inputs to produce high-fidelity cinematic content.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Borui Liao, Boyuan Jiang, Chao Wang, Chenyu Wang, Da Xie, Fangyuan Kong, Feng Han, Guohao Wu, Guosheng Zhu, Hang Li, Hangyu Mao, Haodong Ouyang, Haozhi Sun, Jiajun Liang, Jie Li, Jingbin He, Kang He, Kling Team: Jialu Chen, Kun Gai, Lianghao Su, Meng Wang, Min Wei, Peiqin Sun, Pengfei Wan, Qingyu Li, Qiulin Wang, Quande Liu, Ruiliang Zhou, Runqi Wang, Sainan Guo, Shenglong Zhang, Shen Li, Shuaiyu Zhang, Shun Lu, Sile Yang, Tiancheng Wen, Wanqi Shi, Weicai Ye, Weihong Lin, Wenyu Qin, Wenzheng Zhao, Xiangyu Du, Xiaohan Li, Xiao Hu, Xiaohua Hu, Xiaokun Liu, Xiaoshi Wu, Xiaoyu Shi, Xintao Wang, Xuebo Wang, Yan Li, Yan Zhou, Yilun Liu, Yingtong Xiong, Yiqiao Liao, Yongjie Zhu, Yuanxing Zhang, Yuanzheng Ci, Yufan Zhang, Yuliang Liu, Yulong Xu, Yunyao Mao, Zekun Wang, Zhenhua Wu, Zikang Yang, Zipeng Feng, Ziyang Yuan","submitted_at":"2025-12-18T17:08:12Z","abstract_excerpt":"We present Kling-Omni, a generalist generative framework designed to synthesize high-fidelity videos directly from multimodal visual language inputs. Adopting an end-to-end perspective, Kling-Omni bridges the functional separation among diverse video generation, editing, and intelligent reasoning tasks, integrating them into a holistic system. Unlike disjointed pipeline approaches, Kling-Omni supports a diverse range of user inputs, including text instructions, reference images, and video contexts, processing them into a unified multimodal representation to deliver cinematic-quality and highly"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2512.16776","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CV","submitted_at":"2025-12-18T17:08:12Z","cross_cats_sorted":[],"title_canon_sha256":"4bb9174cf23d55030b849d4c3235ef1c7c9534466f2b3dba6c1b0c63318689e8","abstract_canon_sha256":"03f42b4446b0d71d95b31ceb6280cb7357b3c913bf547f39a24168f22bb345e6"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:50.184009Z","signature_b64":"msYsp4PcS3f/2oZ4f/L3uZbUsSBuxdL54vq0st6d909oxWDV/8PiOYxIQz2jcTT/pWKJXVNFvSdM80zVDkdDDg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2d3704b12b506abbe4a9587ce00ba8d69d6bab89ddb5116c82d23207fb5ff959","last_reissued_at":"2026-05-17T23:38:50.183410Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:50.183410Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Kling-Omni Technical Report","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"Kling-Omni unifies video generation, editing, and reasoning into a single end-to-end framework that accepts text, images, and video inputs to produce high-fidelity cinematic content.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Borui Liao, Boyuan Jiang, Chao Wang, Chenyu Wang, Da Xie, Fangyuan Kong, Feng Han, Guohao Wu, Guosheng Zhu, Hang Li, Hangyu Mao, Haodong Ouyang, Haozhi Sun, Jiajun Liang, Jie Li, Jingbin He, Kang He, Kling Team: Jialu Chen, Kun Gai, Lianghao Su, Meng Wang, Min Wei, Peiqin Sun, Pengfei Wan, Qingyu Li, Qiulin Wang, Quande Liu, Ruiliang Zhou, Runqi Wang, Sainan Guo, Shenglong Zhang, Shen Li, Shuaiyu Zhang, Shun Lu, Sile Yang, Tiancheng Wen, Wanqi Shi, Weicai Ye, Weihong Lin, Wenyu Qin, Wenzheng Zhao, Xiangyu Du, Xiaohan Li, Xiao Hu, Xiaohua Hu, Xiaokun Liu, Xiaoshi Wu, Xiaoyu Shi, Xintao Wang, Xuebo Wang, Yan Li, Yan Zhou, Yilun Liu, Yingtong Xiong, Yiqiao Liao, Yongjie Zhu, Yuanxing Zhang, Yuanzheng Ci, Yufan Zhang, Yuliang Liu, Yulong Xu, Yunyao Mao, Zekun Wang, Zhenhua Wu, Zikang Yang, Zipeng Feng, Ziyang Yuan","submitted_at":"2025-12-18T17:08:12Z","abstract_excerpt":"We present Kling-Omni, a generalist generative framework designed to synthesize high-fidelity videos directly from multimodal visual language inputs. Adopting an end-to-end perspective, Kling-Omni bridges the functional separation among diverse video generation, editing, and intelligent reasoning tasks, integrating them into a holistic system. Unlike disjointed pipeline approaches, Kling-Omni supports a diverse range of user inputs, including text instructions, reference images, and video contexts, processing them into a unified multimodal representation to deliver cinematic-quality and highly"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Kling-Omni demonstrates exceptional capabilities in in-context generation, reasoning-based editing, and multimodal instruction following.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The assumption that the constructed comprehensive data system and large-scale pre-training strategies are sufficient to deliver the claimed integration of generation, editing, and reasoning without hidden performance trade-offs or evaluation biases.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Kling-Omni is a unified multimodal generative system that produces cinematic videos from diverse inputs by integrating generation, editing, and intelligent reasoning in a single end-to-end model.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Kling-Omni unifies video generation, editing, and reasoning into a single end-to-end framework that accepts text, images, and video inputs to produce high-fidelity cinematic content.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"908165395ecd4109a240059e2c32a65b3bcc9041e2f21eb5da45bf7367940b2f"},"source":{"id":"2512.16776","kind":"arxiv","version":1},"verdict":{"id":"8a208e22-eac1-4e0c-ac07-1f636e3779e3","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T20:56:43.030444Z","strongest_claim":"Kling-Omni demonstrates exceptional capabilities in in-context generation, reasoning-based editing, and multimodal instruction following.","one_line_summary":"Kling-Omni is a unified multimodal generative system that produces cinematic videos from diverse inputs by integrating generation, editing, and intelligent reasoning in a single end-to-end model.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The assumption that the constructed comprehensive data system and large-scale pre-training strategies are sufficient to deliver the claimed integration of generation, editing, and reasoning without hidden performance trade-offs or evaluation biases.","pith_extraction_headline":"Kling-Omni unifies video generation, editing, and reasoning into a single end-to-end framework that accepts text, images, and video inputs to produce high-fidelity cinematic content."},"references":{"count":36,"sample":[{"doi":"","year":2024,"title":"Video generation models as world simulators.OpenAI, 2024","work_id":"8e788c52-86c4-45b7-8c02-9a9933a4812d","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"GPT-4 Technical Report","work_id":"b928e041-6991-4c08-8c81-0359e4097c7b","ref_index":2,"cited_arxiv_id":"2303.08774","is_internal_anchor":true},{"doi":"","year":2025,"title":"From structure to detail: Hierarchical distillation for efficient diffusion model.arXiv preprint arXiv:2511.08930, 2025","work_id":"bdb1f4d7-aac5-4797-a6bd-2553e464cb3d","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"https://deepmind.google/models/gemini-image/pro/","work_id":"578365a4-5faf-4412-8f6e-dc48fca5e015","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Patch n’pack: Navit, a vision transformer for any aspect ratio and resolution.Advances in Neural Information Processing Systems, 36:2252–2274","work_id":"af2aa358-10a6-409d-83c1-c2ec6427e78c","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":36,"snapshot_sha256":"09a3525342ac5d61e91b2e44ccd9c63e6f6a18e396bacab633024d996809dad9","internal_anchors":14},"formal_canon":{"evidence_count":2,"snapshot_sha256":"e4277bb682c40bd523969353a781b5ad2b13fb20ffb83be03f158916bf6f5693"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.16776","created_at":"2026-05-17T23:38:50.183507+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.16776v1","created_at":"2026-05-17T23:38:50.183507+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.16776","created_at":"2026-05-17T23:38:50.183507+00:00"},{"alias_kind":"pith_short_12","alias_value":"FU3QJMJLKBVL","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"FU3QJMJLKBVLXZFJ","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"FU3QJMJL","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":31,"internal_anchor_count":31,"sample":[{"citing_arxiv_id":"2605.22344","citing_title":"Bernini: Latent Semantic Planning for Video Diffusion","ref_index":68,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22051","citing_title":"EasyVFX: Frequency-Driven Decoupling for Resource-Efficient VFX Generation","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14382","citing_title":"Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14382","citing_title":"Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16003","citing_title":"Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17312","citing_title":"VISTA: Triplet-Supervised Video Style Transfer with Diffusion Transformers","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17423","citing_title":"Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17923","citing_title":"AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17019","citing_title":"StreamingEffect: Real-Time Human-Centric Video Effect Generation","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15237","citing_title":"A3D: Agentic AI flow for autonomous Accelerator Design","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07064","citing_title":"OmniFysics: Towards Physical Intelligence Evolution via Omni-Modal Signal Processing and Network Optimization","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14664","citing_title":"MiVE: Multiscale Vision-language features for reference-guided video Editing","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14382","citing_title":"Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12038","citing_title":"OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11723","citing_title":"CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03652","citing_title":"AniMatrix: An Anime Video Generation Model that Thinks in Art, Not Physics","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27711","citing_title":"ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03652","citing_title":"AniMatrix: An Anime Video Generation Model that Thinks in Art, Not Physics","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25427","citing_title":"A Systematic Post-Train Framework for Video Generation","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04515","citing_title":"From Priors to Perception: Grounding Video-LLMs in Physical Reality","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19193","citing_title":"How Far Are Video Models from True Multimodal Reasoning?","ref_index":62,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11804","citing_title":"OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11789","citing_title":"LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation","ref_index":157,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01720","citing_title":"SignVerse-2M: A Two-Million-Clip Pose-Native Universe of 55+ Sign Languages","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08646","citing_title":"InsEdit: Towards Instruction-based Visual Editing via Data-Efficient Video Diffusion Models Adaptation","ref_index":33,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22","json":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22.json","graph_json":"https://pith.science/api/pith-number/FU3QJMJLKBVLXZFJLB6OAC5I22/graph.json","events_json":"https://pith.science/api/pith-number/FU3QJMJLKBVLXZFJLB6OAC5I22/events.json","paper":"https://pith.science/paper/FU3QJMJL"},"agent_actions":{"view_html":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22","download_json":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22.json","view_paper":"https://pith.science/paper/FU3QJMJL","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.16776&json=true","fetch_graph":"https://pith.science/api/pith-number/FU3QJMJLKBVLXZFJLB6OAC5I22/graph.json","fetch_events":"https://pith.science/api/pith-number/FU3QJMJLKBVLXZFJLB6OAC5I22/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22/action/timestamp_anchor","attest_storage":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22/action/storage_attestation","attest_author":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22/action/author_attestation","sign_citation":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22/action/citation_signature","submit_replication":"https://pith.science/pith/FU3QJMJLKBVLXZFJLB6OAC5I22/action/replication_record"}},"created_at":"2026-05-17T23:38:50.183507+00:00","updated_at":"2026-05-17T23:38:50.183507+00:00"}