{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:T353RQIGVTH4WTECFG3AYW33N6","short_pith_number":"pith:T353RQIG","schema_version":"1.0","canonical_sha256":"9efbb8c106accfcb4c8229b60c5b7b6f960a7ee9138da1d4de0e0f8a4c62d996","source":{"kind":"arxiv","id":"2605.17512","version":1},"attestation_state":"computed","paper":{"title":"Robust Audio Tagging under Class-wise Supervision Unreliability","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Learning one unreliability scalar per sound class down-weights noisy labels and improves audio tagging on weak data.","cross_cats":["cs.SD"],"primary_cat":"eess.AS","authors_text":"Jian Guan, Qiaoqiao Ren, Stephen Roberts, Tong Ye, Wenwu Wang, Yuanbo Hou, Zhaoyi Liu","submitted_at":"2026-05-17T15:51:30Z","abstract_excerpt":"Weakly labeled datasets such as AudioSet have driven recent progress in audio tagging. However, annotation quality varies across sound classes. Labels may be incomplete, ambiguous, or unreliable, which introduces class-dependent supervision bias during optimisation. The issue becomes harder as real and generated audio are increasingly mixed in training, and generated samples do not always match their intended semantic labels. Prior work mainly addressed unreliable supervision from missing-positive labels, while this paper targets three other sources of unreliable supervision: spurious addition"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2605.17512","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"eess.AS","submitted_at":"2026-05-17T15:51:30Z","cross_cats_sorted":["cs.SD"],"title_canon_sha256":"861d534d1de2d7deb0fc46e7da41cff377c1e8e9e88ea960a7af0dceb997cca4","abstract_canon_sha256":"bb12281067f9a383846537b76137ed16d3c014e3be31d18a22c035d6f5865b4c"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-20T00:04:43.135587Z","signature_b64":"KjCV6mPjCoqp3zi6coRX5qjfzbY2AIPZ4NPzzNEo5Pwgoo4sKCYFkKYOHCv7GSlYxaF9l9sWFqtvPhCdhmSDCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"9efbb8c106accfcb4c8229b60c5b7b6f960a7ee9138da1d4de0e0f8a4c62d996","last_reissued_at":"2026-05-20T00:04:43.134776Z","signature_status":"signed_v1","first_computed_at":"2026-05-20T00:04:43.134776Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Robust Audio Tagging under Class-wise Supervision Unreliability","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Learning one unreliability scalar per sound class down-weights noisy labels and improves audio tagging on weak data.","cross_cats":["cs.SD"],"primary_cat":"eess.AS","authors_text":"Jian Guan, Qiaoqiao Ren, Stephen Roberts, Tong Ye, Wenwu Wang, Yuanbo Hou, Zhaoyi Liu","submitted_at":"2026-05-17T15:51:30Z","abstract_excerpt":"Weakly labeled datasets such as AudioSet have driven recent progress in audio tagging. However, annotation quality varies across sound classes. Labels may be incomplete, ambiguous, or unreliable, which introduces class-dependent supervision bias during optimisation. The issue becomes harder as real and generated audio are increasingly mixed in training, and generated samples do not always match their intended semantic labels. Prior work mainly addressed unreliable supervision from missing-positive labels, while this paper targets three other sources of unreliable supervision: spurious addition"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"explicit class-wise modeling of supervision unreliability is an effective and practical strategy for robust audio tagging under large-scale weakly labeled training","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"that a single scalar unreliability parameter per class is sufficient to capture and correct the combined effects of spurious additions, misassignments between similar classes, and weakened label evidence without introducing new biases or requiring architecture changes","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"CSU learns per-class unreliability parameters to reduce class-dependent supervision bias from spurious, misassigned, or weak labels in audio tagging, with gains shown on AudioSet and a new ESC-FreeGen50 benchmark mixing real and generated audio.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Learning one unreliability scalar per sound class down-weights noisy labels and improves audio tagging on weak data.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"deb644d89e8c10d31586a6539f72ec97fef15546c5b480037bcdcbda042a87be"},"source":{"id":"2605.17512","kind":"arxiv","version":1},"verdict":{"id":"f6886f70-a9a1-4460-8641-01f8423e31e3","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-19T22:22:35.974044Z","strongest_claim":"explicit class-wise modeling of supervision unreliability is an effective and practical strategy for robust audio tagging under large-scale weakly labeled training","one_line_summary":"CSU learns per-class unreliability parameters to reduce class-dependent supervision bias from spurious, misassigned, or weak labels in audio tagging, with gains shown on AudioSet and a new ESC-FreeGen50 benchmark mixing real and generated audio.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"that a single scalar unreliability parameter per class is sufficient to capture and correct the combined effects of spurious additions, misassignments between similar classes, and weakened label evidence without introducing new biases or requiring architecture changes","pith_extraction_headline":"Learning one unreliability scalar per sound class down-weights noisy labels and improves audio tagging on weak data."},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.17512/integrity.json","findings":[],"available":true,"detectors_run":[{"name":"doi_title_agreement","ran_at":"2026-05-19T22:31:19.606736Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"doi_compliance","ran_at":"2026-05-19T22:31:07.774162Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"claim_evidence","ran_at":"2026-05-19T21:41:57.654094Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"ai_meta_artifact","ran_at":"2026-05-19T21:33:23.629857Z","status":"skipped","version":"1.0.0","findings_count":0}],"snapshot_sha256":"e197136aeb8d01877eff80100fcaa2a77c9fefd06f9deaeab425c23670909c2a"},"references":{"count":46,"sample":[{"doi":"","year":2017,"title":"J. F. Gemmeke, D. P. Ellis, D. Freedman, et al., AudioSet: An ontology and human-labeled dataset for audio events, in: IEEE International Conference on Acoustics, Speech, and Signal Processing, 2017, ","work_id":"1eb6faec-9e3d-42ba-b51b-8e2c3d05e7bf","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"E. Fonseca, J. Pons, X. Favory, F. Font, D. Bogdanov, et al., FSD50K: an 30 open dataset of human-labeled sound events, IEEE/ACM Transactions on Au- dio, Speech, and Language Processing 30 (2022) 829–","work_id":"1cb65ae5-f61d-47ed-a84c-5c0054cc28c0","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2026,"title":"Y . Hou, Q. Ren, A. Mitchell, W. Wang, J. Kang, T. Belpaeme, D. Botteldooren, Soundscape captioning using sound affective quality network and large language model, IEEE Transactions on Multimedia 28 (","work_id":"409d03cb-02b7-4e15-ae2a-e398861204dd","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2019,"title":"E. Fonseca, M. Plakal, F. Font, D. P. Ellis, X. Serra, Audio tagging with noisy labels and minimal supervision, in: IEEE AASP DCASE 2019, 2019, p. 69","work_id":"ad61958a-7ca2-411d-b875-ab3b6924f3da","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2020,"title":"E. Fonseca, S. Hershey, M. Plakal, D. P. Ellis, et al., Addressing missing labels in large-scale sound event recognition using a teacher-student framework with loss masking, IEEE Signal Processing Let","work_id":"dbfe6848-eddf-4e2f-9c90-00f87f6e1417","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":46,"snapshot_sha256":"bd3f23b608822dca9ac993ef5f0de62389fcd5e327905fdb18b73b8552713ec9","internal_anchors":0},"formal_canon":{"evidence_count":2,"snapshot_sha256":"a98ecb59565fb89e18577df1a3d1862fd6009baadfab9ffdd69b56699abbe60c"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.17512","created_at":"2026-05-20T00:04:43.134886+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.17512v1","created_at":"2026-05-20T00:04:43.134886+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.17512","created_at":"2026-05-20T00:04:43.134886+00:00"},{"alias_kind":"pith_short_12","alias_value":"T353RQIGVTH4","created_at":"2026-05-20T00:04:43.134886+00:00"},{"alias_kind":"pith_short_16","alias_value":"T353RQIGVTH4WTEC","created_at":"2026-05-20T00:04:43.134886+00:00"},{"alias_kind":"pith_short_8","alias_value":"T353RQIG","created_at":"2026-05-20T00:04:43.134886+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6","json":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6.json","graph_json":"https://pith.science/api/pith-number/T353RQIGVTH4WTECFG3AYW33N6/graph.json","events_json":"https://pith.science/api/pith-number/T353RQIGVTH4WTECFG3AYW33N6/events.json","paper":"https://pith.science/paper/T353RQIG"},"agent_actions":{"view_html":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6","download_json":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6.json","view_paper":"https://pith.science/paper/T353RQIG","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.17512&json=true","fetch_graph":"https://pith.science/api/pith-number/T353RQIGVTH4WTECFG3AYW33N6/graph.json","fetch_events":"https://pith.science/api/pith-number/T353RQIGVTH4WTECFG3AYW33N6/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6/action/timestamp_anchor","attest_storage":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6/action/storage_attestation","attest_author":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6/action/author_attestation","sign_citation":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6/action/citation_signature","submit_replication":"https://pith.science/pith/T353RQIGVTH4WTECFG3AYW33N6/action/replication_record"}},"created_at":"2026-05-20T00:04:43.134886+00:00","updated_at":"2026-05-20T00:04:43.134886+00:00"}