{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2022:VDKAFHVIQBGQGPNGNV2MPTDWOL","short_pith_number":"pith:VDKAFHVI","schema_version":"1.0","canonical_sha256":"a8d4029ea8804d033da66d74c7cc7672d1dc83485250a44301225b098611f227","source":{"kind":"arxiv","id":"2212.08751","version":1},"attestation_state":"computed","paper":{"title":"Point-E: A System for Generating 3D Point Clouds from Complex Prompts","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"A two-stage diffusion process turns text prompts into 3D point clouds in 1-2 minutes on one GPU.","cross_cats":["cs.LG"],"primary_cat":"cs.CV","authors_text":"Alex Nichol, Heewoo Jun, Mark Chen, Pamela Mishkin, Prafulla Dhariwal","submitted_at":"2022-12-16T23:22:59Z","abstract_excerpt":"While recent work on text-conditional 3D object generation has shown promising results, the state-of-the-art methods typically require multiple GPU-hours to produce a single sample. This is in stark contrast to state-of-the-art generative image models, which produce samples in a number of seconds or minutes. In this paper, we explore an alternative method for 3D object generation which produces 3D models in only 1-2 minutes on a single GPU. Our method first generates a single synthetic view using a text-to-image diffusion model, and then produces a 3D point cloud using a second diffusion model"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":true},"canonical_record":{"source":{"id":"2212.08751","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2022-12-16T23:22:59Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"df73e4635e8391feb6291ec8a9e7c0268d22b6f6b462fc2ac060130847f62727","abstract_canon_sha256":"f21f9348a172593d518c7962ad21bfb80e8da4bcc9c39b753439e75df417a213"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:39:21.774565Z","signature_b64":"DIOBt4xTxMBPeUtAHHlw4FV9m8ep9deKSFGM198HBze0Exo8XtAJnkMAp5mrS7sC+jSZRQmheYkM6EJNayyMDg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"a8d4029ea8804d033da66d74c7cc7672d1dc83485250a44301225b098611f227","last_reissued_at":"2026-05-17T23:39:21.773888Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:39:21.773888Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Point-E: A System for Generating 3D Point Clouds from Complex Prompts","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"A two-stage diffusion process turns text prompts into 3D point clouds in 1-2 minutes on one GPU.","cross_cats":["cs.LG"],"primary_cat":"cs.CV","authors_text":"Alex Nichol, Heewoo Jun, Mark Chen, Pamela Mishkin, Prafulla Dhariwal","submitted_at":"2022-12-16T23:22:59Z","abstract_excerpt":"While recent work on text-conditional 3D object generation has shown promising results, the state-of-the-art methods typically require multiple GPU-hours to produce a single sample. This is in stark contrast to state-of-the-art generative image models, which produce samples in a number of seconds or minutes. In this paper, we explore an alternative method for 3D object generation which produces 3D models in only 1-2 minutes on a single GPU. Our method first generates a single synthetic view using a text-to-image diffusion model, and then produces a 3D point cloud using a second diffusion model"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Our method first generates a single synthetic view using a text-to-image diffusion model, and then produces a 3D point cloud using a second diffusion model which conditions on the generated image. ... produces 3D models in only 1-2 minutes on a single GPU.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That a single synthetic 2D view generated by the text-to-image model contains enough information for the second diffusion model to recover accurate 3D geometry for complex prompts.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Point-E is a cascaded diffusion system that generates 3D point clouds from text in minutes by first synthesizing a 2D view then lifting it to 3D.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A two-stage diffusion process turns text prompts into 3D point clouds in 1-2 minutes on one GPU.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"5e39034ff84f2df9fa7168a4bd601b781e54144619976805ae4c298c916d599e"},"source":{"id":"2212.08751","kind":"arxiv","version":1},"verdict":{"id":"b381caa9-b0e7-4fe5-b287-6b08e21df986","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T20:46:07.223132Z","strongest_claim":"Our method first generates a single synthetic view using a text-to-image diffusion model, and then produces a 3D point cloud using a second diffusion model which conditions on the generated image. ... produces 3D models in only 1-2 minutes on a single GPU.","one_line_summary":"Point-E is a cascaded diffusion system that generates 3D point clouds from text in minutes by first synthesizing a 2D view then lifting it to 3D.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That a single synthetic 2D view generated by the text-to-image model contains enough information for the second diffusion model to recover accurate 3D geometry for complex prompts.","pith_extraction_headline":"A two-stage diffusion process turns text prompts into 3D point clouds in 1-2 minutes on one GPU."},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":2,"snapshot_sha256":"3a6f18a3cc732cb7fe6b56166da9f2c8e20a96c8d506859fec384aa79bd604ba"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2212.08751","created_at":"2026-05-17T23:39:21.773982+00:00"},{"alias_kind":"arxiv_version","alias_value":"2212.08751v1","created_at":"2026-05-17T23:39:21.773982+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2212.08751","created_at":"2026-05-17T23:39:21.773982+00:00"},{"alias_kind":"pith_short_12","alias_value":"VDKAFHVIQBGQ","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"VDKAFHVIQBGQGPNG","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"VDKAFHVI","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":50,"internal_anchor_count":50,"sample":[{"citing_arxiv_id":"2401.16764","citing_title":"BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2504.02316","citing_title":"ConsDreamer: Advancing Multi-View Consistency for Zero-Shot Text-to-3D Generation","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2504.10466","citing_title":"Art3D: Training-Free 3D Generation from Flat-Colored Illustration","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2508.01014","citing_title":"Hestia: Voxel-Face-Aware Hierarchical Next-Best-View Acquisition for Efficient 3D Reconstruction","ref_index":65,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21798","citing_title":"CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20872","citing_title":"CAdam: Context-Adaptive Moment Estimation for 3D Gaussian Densification in Generative Distillation","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2512.14692","citing_title":"Native and Compact Structured Latents for 3D Generation","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21121","citing_title":"ROAR-3D: Routing Arbitrary Views for High-Fidelity 3D Generation","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20733","citing_title":"Sketch2MinSurf: Vision-Language Guided Generation of Editable Minimal Surfaces from Hand-Drawn Sketches","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21472","citing_title":"Stream3D: Sequential Multi-View 3D Generation via Evidential Memory","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20274","citing_title":"PolycubeNet: A Dual-latent Diffusion Model for Polycube-Based Hexahedral Mesh Generation","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15843","citing_title":"WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17131","citing_title":"A Systematic Survey on Deep Learning Architectures for Point Cloud Classification and Segmentation","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18132","citing_title":"Who Generated This 3D Asset? Learning Source Attribution for Generative 3D Models","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18052","citing_title":"Efficient 3D Content Reconstruction and Generation","ref_index":170,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19876","citing_title":"Structural Energy Guidance for View-Consistent Text-to-3D Generation","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19305","citing_title":"Mat\\'ern Noise for Triangulation-Agnostic Flow Matching on Meshes","ref_index":88,"is_internal_anchor":true},{"citing_arxiv_id":"2510.04236","citing_title":"Scaling Sequence-to-Sequence Generative Neural Rendering","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2307.05663","citing_title":"Objaverse-XL: A Universe of 10M+ 3D Objects","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2502.06608","citing_title":"TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2305.02463","citing_title":"Shap-E: Generating Conditional 3D Implicit Functions","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2412.01506","citing_title":"Structured 3D Latents for Scalable and Versatile 3D Generation","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2601.16046","citing_title":"DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2309.03453","citing_title":"SyncDreamer: Generating Multiview-consistent Images from a Single-view Image","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2309.16653","citing_title":"DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation","ref_index":130,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL","json":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL.json","graph_json":"https://pith.science/api/pith-number/VDKAFHVIQBGQGPNGNV2MPTDWOL/graph.json","events_json":"https://pith.science/api/pith-number/VDKAFHVIQBGQGPNGNV2MPTDWOL/events.json","paper":"https://pith.science/paper/VDKAFHVI"},"agent_actions":{"view_html":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL","download_json":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL.json","view_paper":"https://pith.science/paper/VDKAFHVI","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2212.08751&json=true","fetch_graph":"https://pith.science/api/pith-number/VDKAFHVIQBGQGPNGNV2MPTDWOL/graph.json","fetch_events":"https://pith.science/api/pith-number/VDKAFHVIQBGQGPNGNV2MPTDWOL/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL/action/timestamp_anchor","attest_storage":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL/action/storage_attestation","attest_author":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL/action/author_attestation","sign_citation":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL/action/citation_signature","submit_replication":"https://pith.science/pith/VDKAFHVIQBGQGPNGNV2MPTDWOL/action/replication_record"}},"created_at":"2026-05-17T23:39:21.773982+00:00","updated_at":"2026-05-17T23:39:21.773982+00:00"}