{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:BIYHPIZJKOKBQT5PDSH2QDVCHT","short_pith_number":"pith:BIYHPIZJ","schema_version":"1.0","canonical_sha256":"0a3077a3295394184faf1c8fa80ea23cc52933879b4b207f78c7fed0a8d162c7","source":{"kind":"arxiv","id":"2606.07264","version":1},"attestation_state":"computed","paper":{"title":"VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"eess.AS","authors_text":"Bohan Li, Jian Gao, Jing Peng, Kai Yu, Shuai Fan, Tao Liu, Wenming Tu, Xie Chen, Yanru Huo, Yixuan Wang, Zilong Zheng, Ziyang Ma","submitted_at":"2026-06-05T13:39:39Z","abstract_excerpt":"Audio reasoning requires multi-step, evidence-grounded inference over temporally dynamic and acoustically mixed signals, exceeding conventional perception tasks such as ASR or captioning. We present VISA, our submission to the Interspeech 2026 Audio Reasoning Challenge (Agent Track), evaluated via the MMAR Rubrics for correctness and reasoning quality. Under a \"LALM as a Tool\" paradigm, VISA strengthens large audio language models with auxiliary multi-modal evidence while avoiding heavy orchestration. The system integrates three components: multi-modal feature extraction for complementary audi"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.07264","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"eess.AS","submitted_at":"2026-06-05T13:39:39Z","cross_cats_sorted":[],"title_canon_sha256":"f44d5e139e335f91911c68992959b5f5752ed7ff3d4019e7b3c0c8dc771c8493","abstract_canon_sha256":"0a0fb994699aa99cc8747700ab6d3bf075dafc2de91cefaf2f3d05cb60f8f7a8"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-08T01:05:16.616201Z","signature_b64":"sZ1XYd4+MgI/gXy7hr5Oul8jqMN6KiSgfycooOKKBxeKdD8RPrjAgl32t7EL+2sXg2phN7VR3SpY8W9c/ZDMAQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"0a3077a3295394184faf1c8fa80ea23cc52933879b4b207f78c7fed0a8d162c7","last_reissued_at":"2026-06-08T01:05:16.615242Z","signature_status":"signed_v1","first_computed_at":"2026-06-08T01:05:16.615242Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"eess.AS","authors_text":"Bohan Li, Jian Gao, Jing Peng, Kai Yu, Shuai Fan, Tao Liu, Wenming Tu, Xie Chen, Yanru Huo, Yixuan Wang, Zilong Zheng, Ziyang Ma","submitted_at":"2026-06-05T13:39:39Z","abstract_excerpt":"Audio reasoning requires multi-step, evidence-grounded inference over temporally dynamic and acoustically mixed signals, exceeding conventional perception tasks such as ASR or captioning. We present VISA, our submission to the Interspeech 2026 Audio Reasoning Challenge (Agent Track), evaluated via the MMAR Rubrics for correctness and reasoning quality. Under a \"LALM as a Tool\" paradigm, VISA strengthens large audio language models with auxiliary multi-modal evidence while avoiding heavy orchestration. The system integrates three components: multi-modal feature extraction for complementary audi"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.07264","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.07264/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.07264","created_at":"2026-06-08T01:05:16.615365+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.07264v1","created_at":"2026-06-08T01:05:16.615365+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.07264","created_at":"2026-06-08T01:05:16.615365+00:00"},{"alias_kind":"pith_short_12","alias_value":"BIYHPIZJKOKB","created_at":"2026-06-08T01:05:16.615365+00:00"},{"alias_kind":"pith_short_16","alias_value":"BIYHPIZJKOKBQT5P","created_at":"2026-06-08T01:05:16.615365+00:00"},{"alias_kind":"pith_short_8","alias_value":"BIYHPIZJ","created_at":"2026-06-08T01:05:16.615365+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT","json":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT.json","graph_json":"https://pith.science/api/pith-number/BIYHPIZJKOKBQT5PDSH2QDVCHT/graph.json","events_json":"https://pith.science/api/pith-number/BIYHPIZJKOKBQT5PDSH2QDVCHT/events.json","paper":"https://pith.science/paper/BIYHPIZJ"},"agent_actions":{"view_html":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT","download_json":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT.json","view_paper":"https://pith.science/paper/BIYHPIZJ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.07264&json=true","fetch_graph":"https://pith.science/api/pith-number/BIYHPIZJKOKBQT5PDSH2QDVCHT/graph.json","fetch_events":"https://pith.science/api/pith-number/BIYHPIZJKOKBQT5PDSH2QDVCHT/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT/action/timestamp_anchor","attest_storage":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT/action/storage_attestation","attest_author":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT/action/author_attestation","sign_citation":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT/action/citation_signature","submit_replication":"https://pith.science/pith/BIYHPIZJKOKBQT5PDSH2QDVCHT/action/replication_record"}},"created_at":"2026-06-08T01:05:16.615365+00:00","updated_at":"2026-06-08T01:05:16.615365+00:00"}