{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2022:KC6YMKX7ZMAU45GOIDBFOCIPWY","short_pith_number":"pith:KC6YMKX7","schema_version":"1.0","canonical_sha256":"50bd862affcb014e74ce40c257090fb61180163f0bb5d5612932c67e974d4e01","source":{"kind":"arxiv","id":"2210.16031","version":3},"attestation_state":"computed","paper":{"title":"UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Guohao Li, Hua Wu, Hu Yang, Jiachen Liu, Qiaoqiao She, Wei Li, Xinyan Xiao, Xue Xu, Yajuan Lyu, Zhanpeng Wang, Zhifan Feng","submitted_at":"2022-10-28T10:07:25Z","abstract_excerpt":"Diffusion generative models have recently greatly improved the power of text-conditioned image generation. Existing image generation models mainly include text conditional diffusion model and cross-modal guided diffusion model, which are good at small scene image generation and complex scene image generation respectively. In this work, we propose a simple yet effective approach, namely UPainting, to unify simple and complex scene image generation, as shown in Figure 1. Based on architecture improvements and diverse guidance schedules, UPainting effectively integrates cross-modal guidance from "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2210.16031","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2022-10-28T10:07:25Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"cf512e9d257ffd25619dcaca633ceec551a5eff4591c18a303a0f37bc9194eba","abstract_canon_sha256":"c0163240f3808c4a1a78c3fc1e576c98b3753d6809eb4c15085fc2cd2a4fd406"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-05T05:12:54.789093Z","signature_b64":"OCYGJBWte8f0+xpZgbToaCXfFn0aEvoBU8lsh7KbtAE2Ys7F18PXYEEzmk7D5YopnnkdK0A3Z4J5QHxh8tVyDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"50bd862affcb014e74ce40c257090fb61180163f0bb5d5612932c67e974d4e01","last_reissued_at":"2026-07-05T05:12:54.788397Z","signature_status":"signed_v1","first_computed_at":"2026-07-05T05:12:54.788397Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Guohao Li, Hua Wu, Hu Yang, Jiachen Liu, Qiaoqiao She, Wei Li, Xinyan Xiao, Xue Xu, Yajuan Lyu, Zhanpeng Wang, Zhifan Feng","submitted_at":"2022-10-28T10:07:25Z","abstract_excerpt":"Diffusion generative models have recently greatly improved the power of text-conditioned image generation. Existing image generation models mainly include text conditional diffusion model and cross-modal guided diffusion model, which are good at small scene image generation and complex scene image generation respectively. In this work, we propose a simple yet effective approach, namely UPainting, to unify simple and complex scene image generation, as shown in Figure 1. Based on architecture improvements and diverse guidance schedules, UPainting effectively integrates cross-modal guidance from "},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2210.16031","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2210.16031/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2210.16031","created_at":"2026-07-05T05:12:54.788491+00:00"},{"alias_kind":"arxiv_version","alias_value":"2210.16031v3","created_at":"2026-07-05T05:12:54.788491+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2210.16031","created_at":"2026-07-05T05:12:54.788491+00:00"},{"alias_kind":"pith_short_12","alias_value":"KC6YMKX7ZMAU","created_at":"2026-07-05T05:12:54.788491+00:00"},{"alias_kind":"pith_short_16","alias_value":"KC6YMKX7ZMAU45GO","created_at":"2026-07-05T05:12:54.788491+00:00"},{"alias_kind":"pith_short_8","alias_value":"KC6YMKX7","created_at":"2026-07-05T05:12:54.788491+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":4,"internal_anchor_count":0,"sample":[{"citing_arxiv_id":"2606.00267","citing_title":"StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement","ref_index":46,"is_internal_anchor":false},{"citing_arxiv_id":"2309.17400","citing_title":"Directly Fine-Tuning Diffusion Models on Differentiable Rewards","ref_index":13,"is_internal_anchor":false},{"citing_arxiv_id":"2604.02355","citing_title":"From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation","ref_index":16,"is_internal_anchor":false},{"citing_arxiv_id":"2307.04725","citing_title":"AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning","ref_index":12,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY","json":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY.json","graph_json":"https://pith.science/api/pith-number/KC6YMKX7ZMAU45GOIDBFOCIPWY/graph.json","events_json":"https://pith.science/api/pith-number/KC6YMKX7ZMAU45GOIDBFOCIPWY/events.json","paper":"https://pith.science/paper/KC6YMKX7"},"agent_actions":{"view_html":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY","download_json":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY.json","view_paper":"https://pith.science/paper/KC6YMKX7","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2210.16031&json=true","fetch_graph":"https://pith.science/api/pith-number/KC6YMKX7ZMAU45GOIDBFOCIPWY/graph.json","fetch_events":"https://pith.science/api/pith-number/KC6YMKX7ZMAU45GOIDBFOCIPWY/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY/action/timestamp_anchor","attest_storage":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY/action/storage_attestation","attest_author":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY/action/author_attestation","sign_citation":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY/action/citation_signature","submit_replication":"https://pith.science/pith/KC6YMKX7ZMAU45GOIDBFOCIPWY/action/replication_record"}},"created_at":"2026-07-05T05:12:54.788491+00:00","updated_at":"2026-07-05T05:12:54.788491+00:00"}