{"paper":{"title":"ARIA: A Diagnostic Framework for Music Training Data Attribution","license":"http://creativecommons.org/licenses/by/4.0/","headline":"ARIA decomposes music training data attribution into specific musical aspects and validates methods using reliability diagnostics that match ground truth rankings.","cross_cats":[],"primary_cat":"cs.SD","authors_text":"Ashkan Panahi, Changheon Han, K{\\i}van\\c{c} Tatar","submitted_at":"2026-05-15T17:00:14Z","abstract_excerpt":"Training data attribution (TDA) for music generation must answer two questions that copyright analysis requires, namely which training songs influence a generated output and along which musical aspects the influence operates. Existing methods reduce influence to a single scalar, without revealing which musical aspects are dominant in that influence. We propose ARIA, a framework that decomposes attribution along musical aspects (five for symbolic music, three for audio) and pairs the decomposition with reliability diagnostics computed from the segment-level score matrix. It measures within-grou"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"On a symbolic-music model where attribution ground truth is available through counterfactual retraining, the reliability diagnostics rank four attribution methods identically to that ground truth.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The chosen musical aspects (five for symbolic music, three for audio) and the reliability diagnostics (within-group similarity, SVD, column statistics) correctly capture the dimensions of influence relevant to copyright analysis and model behavior.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"ARIA decomposes music training data attribution into musical aspects and supplies reliability diagnostics from similarity metrics and score matrix analysis, with validation on symbolic models using counterfactual retraining.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"ARIA decomposes music training data attribution into specific musical aspects and validates methods using reliability diagnostics that match ground truth rankings.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"68a1d2c97804292413ba1eb3c42edd4cdde1dc0fdfbf589bf341641ef8dd4b00"},"source":{"id":"2605.16181","kind":"arxiv","version":1},"verdict":{"id":"caf50536-f47b-4df4-be11-51bb098d73cd","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-19T18:20:24.981741Z","strongest_claim":"On a symbolic-music model where attribution ground truth is available through counterfactual retraining, the reliability diagnostics rank four attribution methods identically to that ground truth.","one_line_summary":"ARIA decomposes music training data attribution into musical aspects and supplies reliability diagnostics from similarity metrics and score matrix analysis, with validation on symbolic models using counterfactual retraining.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The chosen musical aspects (five for symbolic music, three for audio) and the reliability diagnostics (within-group similarity, SVD, column statistics) correctly capture the dimensions of influence relevant to copyright analysis and model behavior.","pith_extraction_headline":"ARIA decomposes music training data attribution into specific musical aspects and validates methods using reliability diagnostics that match ground truth rankings."},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.16181/integrity.json","findings":[],"available":true,"detectors_run":[{"name":"doi_title_agreement","ran_at":"2026-05-19T18:31:18.742143Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"doi_compliance","ran_at":"2026-05-19T18:31:09.096656Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"cited_work_retraction","ran_at":"2026-05-19T17:52:01.735861Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"citation_quote_validity","ran_at":"2026-05-19T17:49:47.146206Z","status":"skipped","version":"0.1.0","findings_count":0},{"name":"ai_meta_artifact","ran_at":"2026-05-19T17:33:30.692590Z","status":"skipped","version":"1.0.0","findings_count":0},{"name":"external_links","ran_at":"2026-05-19T17:31:43.753042Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"claim_evidence","ran_at":"2026-05-19T16:41:55.420035Z","status":"completed","version":"1.0.0","findings_count":0}],"snapshot_sha256":"6406f629d87e42aebb0c9e019bb78ec7388858ea870320b4a7ccde3faf8076f4"},"references":{"count":56,"sample":[{"doi":"","year":2023,"title":"MusicLM: Generating Music From Text","work_id":"15e6566e-1c36-468f-966e-823248cbf87f","ref_index":1,"cited_arxiv_id":"2301.11325","is_internal_anchor":true},{"doi":"","year":2022,"title":"Towards tracing knowledge in language models back to the training data","work_id":"3af79ad8-541f-47aa-be07-87cb92830bc3","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Exploring musical roots: Applying audio embeddings to empower influence attribution for a generative music model","work_id":"2b642d65-2cef-444c-85e4-9dc5b7d0421b","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2017,"title":"Bittner, Brian McFee, Justin Salamon, Peter Li, and Juan Pablo Bello","work_id":"c7e5b7d0-33eb-4eb4-af3d-4712aa338ddc","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"AudioLM: A language modeling approach to audio generation.IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31:2523–2533, 2023","work_id":"e2394a15-768a-4ce1-9425-f8c509945f7d","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":56,"snapshot_sha256":"e2077b611bb724af072468170333b8fdc67e699b8bf1357492c5d994fbc86e21","internal_anchors":1},"formal_canon":{"evidence_count":2,"snapshot_sha256":"6c986e4947b1c28e95f11576d45e3189e0a314914336b3fadafdaa2554dd6143"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"}