<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Mini-Omni-Reasoner:實時推理,定義下一代端到端對話模型

      0
      分享至



      本文第一作者謝之非,共同第一作者馬子陽皆是來自于南洋理工大學的博士生。通訊作者為新加坡國立大學特聘教授顏水成和南洋理工大學數據與科學系校長講席教授苗春燕。共同作者為騰訊AI首席專家葉德珩和新加坡國立大學博士后研究員廖越。

      兩千多年前,孔子說過「三思而后行」。這句古老箴言,其實點出了人類面對復雜問題的核心智慧:一步步推理,層層拆解,最終做出可靠的決策。

      現在,已有諸多模型在復雜推理方面展現出顯著進展,如 DeepSeek-R1 和 OpenAI o1,部分多模態系統甚至能夠處理跨領域的復雜任務,展現出解決復雜現實問題的潛力。然而,在端到端對話模型中,推理能力尚未解鎖。

      原因并不復雜。深度思考意味著模型往往需要在輸出前生成完整推理鏈,而這直接帶來延遲。對于語音對話系統而言,速度與質量同樣關鍵。一旦停頓過長,哪怕答案再精妙,也會破壞交互的自然感。

      設想一個場景:你問語音助手「這份研究報告的結論可靠嗎?」。如果模型沉默十秒才給出語音的回復,則完全失去對話的體驗;若它立刻回答,但推理缺乏深度,又容易顯得表面化。問題在于:要么得到一個「強大但反應遲鈍」的助手,要么得到一個「迅速但思維簡單」的助手。魚與熊掌,似乎不可兼得。

      基于這一挑戰,我們提出了 Mini-Omni-Reasoner——一種專為對話場景打造的實時推理新范式。它通過「Thinking-in-Speaking」實現邊思考邊表達,既能實時反饋、輸出自然流暢的語音內容,又能保持高質量且可解釋的推理過程。



      • 論文標題:MINI-OMNI-REASONER: TOKEN-LEVEL THINKING-IN-SPEAKING IN LARGE SPEECH MODELS
      • 論文鏈接
      • https://arxiv.org/pdf/2508.15827
      • 項目主頁
      • https://github.com/xzf-thu/Mini-Omni-Reasoner

      Mini-Omni-Reasoner:

      邊思考,邊表達



      讓我們暫時把視角放回人類自己。當一個人面對復雜問題時,往往不是「想完再說」,而是「邊說邊想」。當被問到「如何理解人工智能的未來」時,大多數人不會先默默推理數分鐘再完整輸出結論,而是會邊思考邊組織語言:「這個問題挺復雜的……我覺得可以從技術和社會兩個層面來看……」

      Mini-Omni-Reasoner 正是受到這一啟發,探索「邊思考,邊表達」的新范式。它允許模型在生成回答的同時進行內部推理,實現token 級別的思維流與輸出流交替生成。這樣既能保留邏輯深度與可解釋性,又能提供自然、低延遲的交互體驗。

      「一心二用」——如何在大模型中實現?



      「Thinking-in-Speaking」推理范式:傳統推理模型遵循「thinking-before-speaking」路線:先完整生成推理鏈,再一次性給出答案。邏輯雖完整,但交互性差,用戶必須等待較長時間。尤其在語音交互場景下,這種長時間的停頓極大削弱了使用體驗。

      Mini-Omni-Reasoner 提出的則是「thinking-in-speaking」范式。模型在生成過程中同時維護兩條流:回答流(response stream)和推理流(reasoning stream)。二者像兩支交錯前進的隊伍,一邊輸出用戶可聽到的回答,一邊在后臺繼續進行邏輯演算。

      通俗理解為:模型循環輸出p 個回答 token + q 個推理 token,直到完成任務。用戶感受到的是自然、幾乎無停頓的對話,而模型在內部始終維持嚴謹的推理鏈。整個推理過程如下。



      這種機制突破了「要么快,要么準」的二元困境,讓「會想、會說」真正成為可能。

      模型架構:Mini-Omni-Reasoner 采用了Thinker-Talker架構,像一對分工明確的搭檔:

      • Thinker:大腦擔當,負責語音理解和邏輯推理,交替產出回答 token 和推理 token。內部結構是「音頻編碼器 + 大模型」。

      • Talker:嘴巴擔當,只負責把回答 token 變成語音,而對推理 token 保持沉默,確保輸出始終簡潔、自然。

      這種解耦方式的好處很直觀:Thinker 全力搞邏輯,Talker 專心搞對話,誰也不分心。

      2:8 Token 交替設計:我們最終選擇了2:8 的回答–推理 token 比例,背后有幾層考量:

      • 推理比例更高 → 思維更完整,但可能反應太慢,實時性差。

      • 回答比例更高 → 說得快,但容易「說過頭」,邏輯沒跟上,甚至產生幻覺。

      • Chunk 過長 → 不管是全推理還是全回答,都會帶來延遲或質量問題。

      結合實驗結果,我們發現推理鏈長度大約是回答的 2~3 倍,因此 2:8 是一個平衡點:既保證推理深度,又能保持實時語音合成的流暢性。比如,當模型每秒生成 50 token,就能給用戶帶來 10 個回答 token——對實時對話來說已經非常充裕。

      「點石成金」——四階段數據合成管線



      僅有架構還不夠,要真正掌握「邊思考邊表達」,還需要精心設計的數據與訓練流程。為此,我們構建了Spoken-Math-Problems-3M數據集,并設計了嚴謹的數據管線。

      在數據構建中,我們面臨一個核心挑戰——解決**「邏輯錯位」(Anticipation Drift)**問題。即如何防止模型在回答時「搶跑」,說出推理流中尚未得出的結論。我們為此設計了兩大核心策略:

      • 異步推理機制:我們在數據層面「教會」模型一種新的說話藝術。在回答流中,先說一些「鋪墊語境」的話,為后續的推理爭取時間;而在推理流中,則要求模型「開門見山」,直奔主題,不講廢話。

      • 反序列化驗證:我們像一位嚴格的考官,將所有交錯的 token 重新組合成自然語言文本,然后利用強大的 GPT 模型進行語義和時間一致性檢查,剔除所有邏輯不連貫或存在「超越」現象的不合格樣本。

      通過上圖中的四階段數據管線,我們為 Mini-Omni-Reasoner 提供了超過百萬份高質量的訓練數據。

      「百煉成鋼」——五階段訓練方法

      訓練 Mini-Omni-Reasoner 需要一個精心設計的五階段管線,因為模型不僅引入了定制化架構,還采用了全新的輸出形式。為了確保穩定收斂并有效將文本推理能力遷移到語音,我們將訓練過程分解為五個逐步遞進的階段,總體思路為先在文本模態中保持或增強推理能力,再將其與語音模態對齊。

      • 對齊訓練:我們從 Qwen2.5-Omni-3B 初始化模型,解決架構不兼容問題,并先只微調音頻適配器,使用語音問答和對話數據橋接語音編碼器與 LLM 主干的接口,然后解凍除音頻編碼器外的所有模塊,適應新加入的特殊 token,確保模型在定制化 token 格式下無縫工作。

      • 混合數學預訓練:在模型對齊后,我們增強其數學推理能力,使用標準的「先推理再說話」數據集(包括文本和語音形式)進行預訓練,確保在引入 token 級交錯生成之前具備扎實的推理能力和數據對齊。

      • 文本 thinking-in-speaking 訓練:在文本模態中訓練模型交替生成推理 token 和回應 token,僅更新語言模型參數,專注于掌握交錯推理-回應結構,不涉及語音變化。

      • 語音 thinking-in-speaking 訓練:將輸入替換為語音,僅微調音頻編碼器,保持 LLM 固定,使模型能夠在語音條件下保持推理增強的生成方式,實現推理范式在模態間的遷移。

      • Talker 訓練:最終階段訓練說話模塊,實現流暢自然的語音生成,整個 Thinker 組件凍結,僅訓練 Talker 以將交錯輸出轉換為語音,同時保留前面階段建立的邏輯基礎和推理能力。

      「真金火煉」——實驗數據與案例分析

      為了驗證 Mini-Omni-Reasoner 的有效性,我們在 Spoken-MQA 數據集上測試了模型與多種不同類型方法的對比,模型相比于基座模型 Qwen2.5-Omni-3B 有明顯的性能提升。



      為了進一步展現 Mini-Omni-Reasoner 與傳統的對話模型和基礎模型 Qwen2.5-Omni 模型的區別,我們分析了針對同樣問題不同模型的回答結果:實驗證明「Thinking-in-Speaking」方法可以有效地在保持回復內容自然簡潔的情況下保持高質量的推理過程。



      結語

      當下,大模型的推理能力已逐漸成為解決復雜問題的核心驅動力。但遺憾的是,這一能力在對話系統中仍未被真正釋放。為此,我們提出了Mini-Omni-Reasoner——一次早期的嘗試。誠然,它距離成熟應用還有很長的路要走,但「thinking-in-speaking」的實時推理機制,我們相信正是對話模型邁向復雜問題解決的必經之路。

      展望未來,我們認為至少有幾個值得深入探索的方向:

      • 如何科學地評測模型在通用問題上的推理增益,如「人生的意義是什么」;
      • 如何讓對話模型自主決定何時需要「思考」;
      • 如何突破固定比例生成,探索更靈活多樣的思維范式。

      總的來說,Mini-Omni-Reasoner 并非終點,而是一個起點。我們更希望它能成為拋磚引玉,引發學界和產業界對「對話中的推理能力」的持續關注與探索。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      改革者 正青春|這條“黃金通道”憑啥讓人流口水?

      改革者 正青春|這條“黃金通道”憑啥讓人流口水?

      現代快報
      2025-12-06 09:19:09
      俄羅斯終止與加拿大、法國和葡萄牙的部分 軍事合作協議

      俄羅斯終止與加拿大、法國和葡萄牙的部分 軍事合作協議

      每日經濟新聞
      2025-12-06 09:20:13
      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      每日經濟新聞
      2025-12-06 23:23:09
      散步1個小時錯了?醫生提醒:過了70歲,散步要盡量做到這8點

      散步1個小時錯了?醫生提醒:過了70歲,散步要盡量做到這8點

      今日養生之道
      2025-12-07 14:14:44
      李連杰“換心”真相大白!向太曝更多內幕,一夜回春秘密終被揭開

      李連杰“換心”真相大白!向太曝更多內幕,一夜回春秘密終被揭開

      老吳教育課堂
      2025-11-17 06:42:06
      80后已經有1100萬人提前下車了。

      80后已經有1100萬人提前下車了。

      愛吃糖的貓cat
      2025-11-16 18:27:38
      多名業主舉報京瑞居:有人稱被勸貸款付15.8萬裝修費,租金沒著落還得每月還錢,有房子裝成“半拉子”;警方已受案調查

      多名業主舉報京瑞居:有人稱被勸貸款付15.8萬裝修費,租金沒著落還得每月還錢,有房子裝成“半拉子”;警方已受案調查

      極目新聞
      2025-12-06 22:57:54
      大生意人:直到晉大奶奶秘密曝光,男主才知,母親、古二因何遇害

      大生意人:直到晉大奶奶秘密曝光,男主才知,母親、古二因何遇害

      完善法
      2025-12-07 13:59:50
      通話長達兩小時,美媒披露“重大進展”:美對烏克蘭安全保證接近達成協議

      通話長達兩小時,美媒披露“重大進展”:美對烏克蘭安全保證接近達成協議

      環球網資訊
      2025-12-07 14:34:13
      CBA最新消息!曝遼寧男籃裁掉布朗,徐昕迎來爆發

      CBA最新消息!曝遼寧男籃裁掉布朗,徐昕迎來爆發

      體壇瞎白話
      2025-12-07 08:08:11
      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      另子維愛讀史
      2025-12-05 21:20:39
      波杰預計被擺上貨架!隊記堅信勇士將做重磅交易:10換3搶字母?

      波杰預計被擺上貨架!隊記堅信勇士將做重磅交易:10換3搶字母?

      羅說NBA
      2025-12-07 05:59:02
      美烏會談,俄大規模襲烏

      美烏會談,俄大規模襲烏

      參考消息
      2025-12-06 21:21:08
      電影《瘋狂動物城2》票房破29億

      電影《瘋狂動物城2》票房破29億

      界面新聞
      2025-12-07 11:12:06
      可以懷疑向家缺錢,但有一點不得不承認,78歲向華強真的太年輕了

      可以懷疑向家缺錢,但有一點不得不承認,78歲向華強真的太年輕了

      樂悠悠娛樂
      2025-12-06 12:01:38
      徐杰單節三分雨,胡明軒也復出了

      徐杰單節三分雨,胡明軒也復出了

      刺猬籃球
      2025-12-07 21:51:06
      西伯利亞-63℃小賣部:全村約900人,蘋果30塊1個,1斤牛肉10多元

      西伯利亞-63℃小賣部:全村約900人,蘋果30塊1個,1斤牛肉10多元

      小蜜情感說
      2025-12-07 06:47:59
      馬克龍訪華,法媒很感慨:中國已經很發達了,我們才是發展中國家

      馬克龍訪華,法媒很感慨:中國已經很發達了,我們才是發展中國家

      知鑒明史
      2025-12-06 18:46:45
      強度拉滿,殲15雷達照射日本F15,遼寧艦戰斗姿態通過琉球群島

      強度拉滿,殲15雷達照射日本F15,遼寧艦戰斗姿態通過琉球群島

      花花娛界
      2025-12-07 22:08:47
      一定要警惕親友借運,若身上出現3種現象,多半是被借走了

      一定要警惕親友借運,若身上出現3種現象,多半是被借走了

      古怪奇談錄
      2025-12-04 11:25:16
      2025-12-07 23:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142509關注度
      往期回顧 全部

      科技要聞

      漲幅最高20%!戴爾、聯想等PC廠計劃漲價

      頭條要聞

      人民日報、新華社追問"全網最忙五人組":需一查到底

      頭條要聞

      人民日報、新華社追問"全網最忙五人組":需一查到底

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      家居
      藝術
      房產
      健康
      公開課

      家居要聞

      白味湯館 當代宴飲儀式

      藝術要聞

      谷愛凌性感泳裝照來襲,你絕對想不到的驚艷瞬間!

      房產要聞

      封關啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      甲狀腺結節"排雷"指南

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人综合伊人五月婷久久| 日日碰狠狠躁久久躁96avv| 成人品视频观看在线| 久久天天躁夜夜躁狠狠| 中文国产不卡一区二区| 超碰aⅴ人人做人人爽欧美| 春色校园综合人妻av| 日产国产精品亚洲系列| 亚洲一区二区人妻| 9久久精品| 新视频SSS欧美整片| 日韩精品人成在线播放| 性欧美长视频免费观看不卡| 久久99国产乱子伦精品免费 | xxx久久| 无码成人1000部免费视频| 天天爱天天做天天爽夜夜揉| 狠狠色狠狠色综合| 天天躁日日躁狠狠躁喷水| 绿春县| 色婷婷色| 国产乱码精品一区二三区蜜臂| 女人与公狍交酡女免费| 樱花影院电视剧免费| 日韩无码一卡二卡| 丁香婷婷社区| 久久中文字幕人妻| 亚洲精品欧美综合二区| 国产成人欧美综合在线影院| 丰满熟妇高潮一二三区| 久久亚洲精品中文字幕波多野结衣 | 丰满人妻熟妇乱又伦精品视| 免费一本色道久久一区| 亚洲AV一二三| 人妖15p| 男人猛躁进女人免费播放| 无码中文av有码中文av| av性色av久久无码ai换脸| 久久人妻中文| 尤物一区| 麻豆AV在线|