{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:C7FS43ZY7FEVE25KVLRGUPIPEH","short_pith_number":"pith:C7FS43ZY","schema_version":"1.0","canonical_sha256":"17cb2e6f38f949526baaaae26a3d0f21c85d4357d9b547c106780a44c96b2fb1","source":{"kind":"arxiv","id":"2507.08128","version":2},"attestation_state":"computed","paper":{"title":"Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Audio Flamingo 3 is a fully open large audio-language model that sets new state-of-the-art results on over twenty audio understanding and reasoning benchmarks using only open-source data.","cross_cats":["cs.AI","cs.CL","eess.AS"],"primary_cat":"cs.SD","authors_text":"Arushi Goel, Bryan Catanzaro, Chao-Han Huck Yang, Dinesh Manocha, Jaehyeon Kim, Rafael Valle, Ramani Duraiswami, Sang-gil Lee, Sonal Kumar, Sreyan Ghosh, Zhifeng Kong","submitted_at":"2025-07-10T19:40:21Z","abstract_excerpt":"We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice in"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2507.08128","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.SD","submitted_at":"2025-07-10T19:40:21Z","cross_cats_sorted":["cs.AI","cs.CL","eess.AS"],"title_canon_sha256":"c6c0fe3e84f24dffea9d926559483dc8b4aae1ad8ed0b973ecc08b5e7237e806","abstract_canon_sha256":"b5e40b9361de399324381bcffd9d049ec056cb96913b881de6ae19dac5ccbeab"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:53.662306Z","signature_b64":"bkOU/Qt2lajaHiII7lLqk/MnfTVlLw5++I6aNXfDt/7R2uQ95q+go+wLYKDuYLsj9Yg4mq6oLu7XB/fsqu8dDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"17cb2e6f38f949526baaaae26a3d0f21c85d4357d9b547c106780a44c96b2fb1","last_reissued_at":"2026-05-17T23:38:53.661752Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:53.661752Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Audio Flamingo 3 is a fully open large audio-language model that sets new state-of-the-art results on over twenty audio understanding and reasoning benchmarks using only open-source data.","cross_cats":["cs.AI","cs.CL","eess.AS"],"primary_cat":"cs.SD","authors_text":"Arushi Goel, Bryan Catanzaro, Chao-Han Huck Yang, Dinesh Manocha, Jaehyeon Kim, Rafael Valle, Ramani Duraiswami, Sang-gil Lee, Sonal Kumar, Sreyan Ghosh, Zhifeng Kong","submitted_at":"2025-07-10T19:40:21Z","abstract_excerpt":"We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice in"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the newly introduced datasets and five-stage curriculum produce genuine generalization rather than benchmark-specific gains, and that all comparisons use identical evaluation protocols without undisclosed advantages.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Audio Flamingo 3 introduces an open large audio-language model achieving new state-of-the-art results on over 20 audio understanding and reasoning benchmarks using a unified encoder and curriculum training on open data.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Audio Flamingo 3 is a fully open large audio-language model that sets new state-of-the-art results on over twenty audio understanding and reasoning benchmarks using only open-source data.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"61739c1547a299dafec5f569bdc620cb33833c7a962f0e396ae7603607c47617"},"source":{"id":"2507.08128","kind":"arxiv","version":2},"verdict":{"id":"697c620a-a579-4359-8139-070b17ff1d58","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T03:37:56.252379Z","strongest_claim":"AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.","one_line_summary":"Audio Flamingo 3 introduces an open large audio-language model achieving new state-of-the-art results on over 20 audio understanding and reasoning benchmarks using a unified encoder and curriculum training on open data.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the newly introduced datasets and five-stage curriculum produce genuine generalization rather than benchmark-specific gains, and that all comparisons use identical evaluation protocols without undisclosed advantages.","pith_extraction_headline":"Audio Flamingo 3 is a fully open large audio-language model that sets new state-of-the-art results on over twenty audio understanding and reasoning benchmarks using only open-source data."},"references":{"count":208,"sample":[{"doi":"","year":2025,"title":"Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs","work_id":"83956045-536a-41ff-af02-b80e2a614eab","ref_index":1,"cited_arxiv_id":"2503.01743","is_internal_anchor":true},{"doi":"","year":2016,"title":"YouTube-8M: A Large-Scale Video Classification Benchmark","work_id":"6b543bd8-75e8-4c53-9718-b4545e4bc424","ref_index":2,"cited_arxiv_id":"1609.08675","is_internal_anchor":true},{"doi":"","year":2023,"title":"MusicLM: Generating Music From Text","work_id":"15e6566e-1c36-468f-966e-823248cbf87f","ref_index":3,"cited_arxiv_id":"2301.11325","is_internal_anchor":true},{"doi":"","year":2024,"title":"Seed-TTS: A Family of High-Quality Versatile Speech Generation Models","work_id":"6e88ee95-1133-4302-a142-cdf8f9456a8d","ref_index":4,"cited_arxiv_id":"2406.02430","is_internal_anchor":true},{"doi":"","year":2020,"title":"R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F. M. Tyers, and G. Weber. Common voice: A massively-multilingual speech corpus. In Proceedings of the 12th C","work_id":"c0ea9007-1463-4192-bef0-5bcd366eaa01","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":208,"snapshot_sha256":"859abea44efcf4fc6cc8c0c9aa68713d9203c13f325b5c5ee3ec29c643cccefd","internal_anchors":21},"formal_canon":{"evidence_count":3,"snapshot_sha256":"c802c9fa3d64325deb6b1497a258471f351502a086ee9eecbcfd3e496bff1d3b"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2507.08128","created_at":"2026-05-17T23:38:53.661843+00:00"},{"alias_kind":"arxiv_version","alias_value":"2507.08128v2","created_at":"2026-05-17T23:38:53.661843+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2507.08128","created_at":"2026-05-17T23:38:53.661843+00:00"},{"alias_kind":"pith_short_12","alias_value":"C7FS43ZY7FEV","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"C7FS43ZY7FEVE25K","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"C7FS43ZY","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":29,"internal_anchor_count":29,"sample":[{"citing_arxiv_id":"2605.17370","citing_title":"CBT-Audio: Evaluating Audio Language Models for Patient-Side Distress Intensity Estimation in CBT Session Recordings","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19101","citing_title":"Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17225","citing_title":"Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2510.00626","citing_title":"When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2601.02954","citing_title":"The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2601.20898","citing_title":"Reducing Prompt Sensitivity in LLM-based Speech Recognition Through Learnable Projection","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2507.16632","citing_title":"Step-Audio 2 Technical Report","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2602.22029","citing_title":"MIDI-Informed Singing Accompaniment Generation in a Compositional Song Pipeline","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13931","citing_title":"FSD50K-Solo: Automated Curation of Single-Source Sound Events","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14231","citing_title":"AudioMosaic: Contrastive Masked Audio Representation Learning","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03074","citing_title":"Speaker-Reasoner: Scaling Interaction Turns and Reasoning Patterns for Timestamped Speaker-Attributed ASR","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12036","citing_title":"Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03352","citing_title":"Can Multimodal Large Language Models Understand Pathologic Movements? A Pilot Study on Seizure Semiology","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23717","citing_title":"HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23323","citing_title":"Robust Audio-Text Retrieval via Cross-Modal Attention and Hybrid Loss","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2604.22245","citing_title":"Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04505","citing_title":"JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00371","citing_title":"GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19300","citing_title":"HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18187","citing_title":"Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09021","citing_title":"Noise-Aware In-Context Learning for Hallucination Mitigation in ALLMs","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08003","citing_title":"Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2509.17765","citing_title":"Qwen3-Omni Technical Report","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12527","citing_title":"Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13023","citing_title":"SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding","ref_index":13,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":3,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH","json":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH.json","graph_json":"https://pith.science/api/pith-number/C7FS43ZY7FEVE25KVLRGUPIPEH/graph.json","events_json":"https://pith.science/api/pith-number/C7FS43ZY7FEVE25KVLRGUPIPEH/events.json","paper":"https://pith.science/paper/C7FS43ZY"},"agent_actions":{"view_html":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH","download_json":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH.json","view_paper":"https://pith.science/paper/C7FS43ZY","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2507.08128&json=true","fetch_graph":"https://pith.science/api/pith-number/C7FS43ZY7FEVE25KVLRGUPIPEH/graph.json","fetch_events":"https://pith.science/api/pith-number/C7FS43ZY7FEVE25KVLRGUPIPEH/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH/action/timestamp_anchor","attest_storage":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH/action/storage_attestation","attest_author":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH/action/author_attestation","sign_citation":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH/action/citation_signature","submit_replication":"https://pith.science/pith/C7FS43ZY7FEVE25KVLRGUPIPEH/action/replication_record"}},"created_at":"2026-05-17T23:38:53.661843+00:00","updated_at":"2026-05-17T23:38:53.661843+00:00"}