{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:PO3H6CMWB2ETGL6HR6QCTSM6GC","short_pith_number":"pith:PO3H6CMW","schema_version":"1.0","canonical_sha256":"7bb67f09960e89332fc78fa029c99e308361d1930735f6f3f88d4834ff5cfa6d","source":{"kind":"arxiv","id":"2505.04021","version":3},"attestation_state":"computed","paper":{"title":"Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.LG","cs.PF"],"primary_cat":"cs.DC","authors_text":"Deepak Vij, Gao Gao, Harry Xu, Jiarong Xing, Junyi Shu, Ke Bao, Mingyuan Ma, Qingda Lu, Shan Yu, Shiyi Cao, Shuo Yang, Xiaoning Ding, Xinyuan Tong, Yangmin Li, Yang Wang, Yichen Wang, Yifan Qiao, Ying Sheng, Yuwei An, Zhiqiang Xie, Zhong Wang","submitted_at":"2025-05-06T23:38:33Z","abstract_excerpt":"Inference providers must maintain availability for many LLMs, including low-volume but essential models, making resource efficiency increasingly important as token prices fall. Analysis of production traces reveals a dynamic bursty-group pattern in which sets of models become active together and shift over time; existing space- and time-sharing approaches lack principled mechanisms to adapt to this variability, forcing trade-offs between SLO adherence and efficiency. We observe that elastic memory allocation can unify spatial and temporal sharing. Based on this insight, we have developed Prism"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2505.04021","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.DC","submitted_at":"2025-05-06T23:38:33Z","cross_cats_sorted":["cs.AI","cs.LG","cs.PF"],"title_canon_sha256":"996b916933bd653a80dfb4f02ee10c8b814ebdfcd4818d634ae6b4daef152027","abstract_canon_sha256":"344dd146af12ff712f8acddfb606640a2411f3f2eb18611d0c02bc4dba473eff"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-12T01:08:13.877776Z","signature_b64":"w0i7pAdoNBTecBIeeIKXAgoBEc3c6/WFKsDtOCr+LROcGerD2XxtCQMwbUiC+Hh6+t+PCs71JxSLYGtefPvCBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7bb67f09960e89332fc78fa029c99e308361d1930735f6f3f88d4834ff5cfa6d","last_reissued_at":"2026-06-12T01:08:13.876716Z","signature_status":"signed_v1","first_computed_at":"2026-06-12T01:08:13.876716Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.LG","cs.PF"],"primary_cat":"cs.DC","authors_text":"Deepak Vij, Gao Gao, Harry Xu, Jiarong Xing, Junyi Shu, Ke Bao, Mingyuan Ma, Qingda Lu, Shan Yu, Shiyi Cao, Shuo Yang, Xiaoning Ding, Xinyuan Tong, Yangmin Li, Yang Wang, Yichen Wang, Yifan Qiao, Ying Sheng, Yuwei An, Zhiqiang Xie, Zhong Wang","submitted_at":"2025-05-06T23:38:33Z","abstract_excerpt":"Inference providers must maintain availability for many LLMs, including low-volume but essential models, making resource efficiency increasingly important as token prices fall. Analysis of production traces reveals a dynamic bursty-group pattern in which sets of models become active together and shift over time; existing space- and time-sharing approaches lack principled mechanisms to adapt to this variability, forcing trade-offs between SLO adherence and efficiency. We observe that elastic memory allocation can unify spatial and temporal sharing. Based on this insight, we have developed Prism"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2505.04021","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2505.04021/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2505.04021","created_at":"2026-06-12T01:08:13.876883+00:00"},{"alias_kind":"arxiv_version","alias_value":"2505.04021v3","created_at":"2026-06-12T01:08:13.876883+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2505.04021","created_at":"2026-06-12T01:08:13.876883+00:00"},{"alias_kind":"pith_short_12","alias_value":"PO3H6CMWB2ET","created_at":"2026-06-12T01:08:13.876883+00:00"},{"alias_kind":"pith_short_16","alias_value":"PO3H6CMWB2ETGL6H","created_at":"2026-06-12T01:08:13.876883+00:00"},{"alias_kind":"pith_short_8","alias_value":"PO3H6CMW","created_at":"2026-06-12T01:08:13.876883+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":14,"internal_anchor_count":14,"sample":[{"citing_arxiv_id":"2606.00946","citing_title":"Lodestar: An Online-Learning LLM Inference Router","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2512.09472","citing_title":"WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06534","citing_title":"ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL","ref_index":89,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19593","citing_title":"Towards Multi-Model LLM Schedulers: Empirical Insights into Offloading and Preemption","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08151","citing_title":"SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08151","citing_title":"SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25080","citing_title":"CacheFlow: Efficient LLM Serving with 3D-Parallel KV Cache Restoration","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06534","citing_title":"ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23838","citing_title":"JigsawRL: Assembling RL Pipelines for Efficient LLM Post-Training","ref_index":64,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04357","citing_title":"Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2604.07874","citing_title":"Valve: Production Online-Offline Inference Colocation with Jointly-Bounded Preemption Latency and Rate","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06664","citing_title":"Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04745","citing_title":"The Energy Cost of Execution-Idle in GPU Clusters","ref_index":62,"is_internal_anchor":true},{"citing_arxiv_id":"2604.15186","citing_title":"Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines","ref_index":59,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC","json":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC.json","graph_json":"https://pith.science/api/pith-number/PO3H6CMWB2ETGL6HR6QCTSM6GC/graph.json","events_json":"https://pith.science/api/pith-number/PO3H6CMWB2ETGL6HR6QCTSM6GC/events.json","paper":"https://pith.science/paper/PO3H6CMW"},"agent_actions":{"view_html":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC","download_json":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC.json","view_paper":"https://pith.science/paper/PO3H6CMW","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2505.04021&json=true","fetch_graph":"https://pith.science/api/pith-number/PO3H6CMWB2ETGL6HR6QCTSM6GC/graph.json","fetch_events":"https://pith.science/api/pith-number/PO3H6CMWB2ETGL6HR6QCTSM6GC/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC/action/timestamp_anchor","attest_storage":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC/action/storage_attestation","attest_author":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC/action/author_attestation","sign_citation":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC/action/citation_signature","submit_replication":"https://pith.science/pith/PO3H6CMWB2ETGL6HR6QCTSM6GC/action/replication_record"}},"created_at":"2026-06-12T01:08:13.876883+00:00","updated_at":"2026-06-12T01:08:13.876883+00:00"}