91尤物无码不卡在线,国产精品玖玖玖在线资源,久国产一二三区四区乱码2022

小米聲音理解大模型 MiDashengLM-7B 發(fā)布并全量開(kāi)源，22 個(gè)公開(kāi)評(píng)測(cè)集刷新最好成績(jī)

2025-08-05 09:02 IT之家

導(dǎo)讀：小米自研聲音理解大模型 MiDashengLM-7B 正式發(fā)布，并全量開(kāi)源。

　　8 月 4 日消息，小米自研聲音理解大模型 MiDashengLM-7B 正式發(fā)布，并全量開(kāi)源。

　　據(jù)小米官方介紹，MiDashengLM-7B 速度精度上實(shí)現(xiàn)雙突破：?jiǎn)螛颖臼?Token 延遲僅為同類模型 1/4、同顯存下并發(fā)超 20 倍，在 22 個(gè)公開(kāi)評(píng)測(cè)集上刷新多模態(tài)大模型最好成績(jī)（SOTA）。

　　MiDashengLM-7B 基于 Xiaomi Dasheng 作為音頻編碼器和 Qwen2.5-Omni-7B Thinker 作為自回歸解碼器，通過(guò)創(chuàng)新的通用音頻描述訓(xùn)練策略，實(shí)現(xiàn)了對(duì)語(yǔ)音、環(huán)境聲音和音樂(lè)的統(tǒng)一理解。

　　2024 年，小米發(fā)布的 Xiaomi Dasheng 聲音基座模型在國(guó)際上首次突破 AudioSet 50+ mAP，在 HEAR Benchmark 環(huán)境聲、語(yǔ)音、音樂(lè)三大領(lǐng)域建立領(lǐng)先優(yōu)勢(shì)并保持至今。

　　Xiaomi Dasheng 在小米的智能家居和汽車座艙等場(chǎng)景有超過(guò) 30 項(xiàng)落地應(yīng)用。行業(yè)首發(fā)的車外喚醒防御、手機(jī)音箱全天候監(jiān)控異常聲音、“打個(gè)響指”環(huán)境音關(guān)聯(lián) IoT 控制能力，以及小米 YU7 上搭載的增強(qiáng)哨兵模式劃車檢測(cè)等，背后都有 Xiaomi Dasheng 作為核心算法的賦能。

　　MiDashengLM 的訓(xùn)練數(shù)據(jù)由 100% 的公開(kāi)數(shù)據(jù)構(gòu)成，模型以寬松的 Apache License 2.0 發(fā)布，同時(shí)支持學(xué)術(shù)和商業(yè)應(yīng)用。

　　小米表示，不同于 Qwen2.5-Omni 等未公開(kāi)訓(xùn)練數(shù)據(jù)細(xì)節(jié)的模型，MiDashengLM 完整公開(kāi)了 77 個(gè)數(shù)據(jù)源的詳細(xì)配比，技術(shù)報(bào)告中詳細(xì)介紹了從音頻編碼器預(yù)訓(xùn)練到指令微調(diào)的全流程。

　　作為小米“人車家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù)，MiDashengLM 通過(guò)統(tǒng)一理解語(yǔ)音、環(huán)境聲與音樂(lè)的跨領(lǐng)域能力，不僅能聽(tīng)懂用戶周圍發(fā)生了什么事情，還能分析發(fā)現(xiàn)這些事情的隱藏含義，提高用戶場(chǎng)景理解的泛化性。

　　基于 MiDashengLM 的模型通過(guò)自然語(yǔ)言和用戶交互，為用戶提更人性化的溝通和反饋，比如在用戶練習(xí)唱歌或練習(xí)外語(yǔ)時(shí)提供發(fā)音反饋并制定針對(duì)性提升方案，又比如在用戶駕駛車輛時(shí)實(shí)時(shí)對(duì)用戶關(guān)于環(huán)境聲音的提問(wèn)做出解答。

　　MiDashengLM 以 Xiaomi Dasheng 音頻編碼器為核心組件，是 Xiaomi Dasheng 系列模型的重要升級(jí)。在當(dāng)前版本的基礎(chǔ)上，小米已著手對(duì)該模型做計(jì)算效率的進(jìn)一步升級(jí)，尋求終端設(shè)備上可離線部署，并完善基于用戶自然語(yǔ)言提示的聲音編輯等更全面的功能。

小米聲音理解大模型 MiDashengLM-7B 發(fā)布并全量開(kāi)源，22 個(gè)公開(kāi)評(píng)測(cè)集刷新最好成績(jī)

相關(guān)閱讀