<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      人大讓AI搜索智能體跑得更快:擴散模型也能邊思考邊搜索了

      0
      分享至


      這項由中國人民大學、上海交通大學等機構聯合完成的研究發表于2026年,論文編號為arXiv:2602.07035v1,標志著人工智能搜索代理技術的一次重要突破。有興趣深入了解的讀者可以通過該論文編號查詢完整論文。

      想象一下,你正在和一個超級聰明的助手對話,你問它一個復雜問題,比如"2023年諾貝爾物理學獎得主的主要研究領域與量子計算有什么關系?"傳統的AI助手會這樣工作:先思考一會兒該搜索什么,然后去網上搜索相關信息,等搜索結果返回后再繼續思考,接著可能還要進行第二次、第三次搜索,每次都要停下來等待。這個過程就像一個廚師必須嚴格按順序做菜——先切菜,等切完了再開火,等火熱了再下鍋,每個步驟都要等前一步完成。

      然而,中國人民大學的研究團隊發現了一個更聰明的方法。他們開發了一種名為DLLM-Searcher的新型AI搜索系統,就像讓廚師學會了同時處理多個任務——一邊切菜一邊熱鍋,在等水開的時候準備調料。這種"邊思考邊搜索"的能力讓整個問答過程提速了約15%,而且回答質量絲毫不減。

      這項研究的核心在于使用了一種叫做"擴散大語言模型"的新技術。傳統的AI語言模型就像讀書一樣,必須從左到右、一個字一個字地閱讀和生成文本。而擴散模型則更像拼圖游戲,可以同時在不同位置放置拼圖塊,不必嚴格按照順序進行。研究團隊巧妙地利用了這個特性,讓AI能夠在等待搜索結果的時候繼續思考其他問題。

      一、傳統搜索助手的"等待困境"

      傳統的AI搜索助手面臨著一個根本性問題,就像一個非常守規矩的學生,必須嚴格按照老師的要求一步步完成作業。當你向它提出一個需要查找信息的問題時,它會按照一個叫做ReAct的工作模式來操作。這個過程可以比作去圖書館做研究:首先,AI會坐下來思考"我應該查找什么資料",然后起身去書架找書,找到書后必須等圖書管理員幫忙取書,拿到書后再回到座位上閱讀,如果發現還需要更多資料,就得重復這個過程。

      這種工作方式的問題顯而易見:大量時間浪費在了等待上。特別是當AI需要進行多輪搜索時,這種等待時間會累積起來,就像排隊買票一樣,每個人都要等前面的人完全買完票才能輪到自己。研究數據顯示,在處理復雜的多步驟問題時,這種等待時間可能占到總處理時間的相當大比例。

      更糟糕的是,現有的擴散大語言模型雖然理論上具備并行處理的能力,但在實際應用中卻表現得像一個剛學會使用電話的人,經常無法正確撥號或者說出正確的話。研究團隊測試發現,原始的擴散模型在嘗試執行搜索任務時,失敗率接近100%。這些模型要么生成空白回應,要么無法產生正確的搜索指令格式,要么在思考過程中出現各種格式錯誤。

      二、讓AI學會"一心多用"的訓練過程

      為了解決這些問題,研究團隊設計了一套完整的訓練方案,就像為一個新員工制定詳細的培訓計劃。這個訓練過程分為兩個階段,每個階段都有明確的學習目標。

      第一個階段叫做"代理監督微調",就像給AI上基礎課程。研究團隊首先讓一個表現優秀的老師模型來生成大量的標準答案。這個過程類似于讓優秀的老師為學生制作標準作業本。老師模型會面對各種復雜問題,展示如何一步步思考,如何制定搜索策略,如何根據搜索結果進行推理。研究團隊從HotpotQA、2WikiMultiHopQA和Musique這三個數據集中各選取了2048個問題,讓老師模型完成后,再篩選出3977個高質量的完整解答軌跡。

      在這個階段,研究團隊還開發了一種特殊的"代理噪聲處理"技術。由于擴散模型的訓練需要在文本中添加"噪聲",就像在拼圖中故意隱藏一些拼圖塊讓模型去猜測,但普通的噪聲添加方法會讓模型學到錯誤的信息。研究團隊巧妙地設計了一種只對思考和搜索指令部分添加噪聲的方法,而對搜索返回的結果保持原樣,這樣模型就能學會正確的推理和搜索技能,而不會被無關信息干擾。

      第二個階段是"代理方差減少偏好優化",類似于讓AI進行實戰演練。研究團隊讓經過第一階段訓練的模型對同一個問題進行兩次獨立回答,然后比較哪個回答更好。就像讓學生做同一道題兩遍,然后老師挑出做得更好的答案作為標準。通過這種對比學習,模型逐漸學會了什么是更好的推理方式和搜索策略。這個階段使用了8000個訓練樣本,最終篩選出2237個有效的對比對,包含4474個回答軌跡。

      三、革命性的"并行推理行動"模式

      研究團隊的最大創新在于開發了一種叫做P-ReAct的新工作模式。如果說傳統的ReAct模式像是一個嚴格按照食譜做菜的廚師,那么P-ReAct就像是一個經驗豐富的大廚,可以同時處理多個烹飪步驟。

      這個新模式的核心思想是讓AI提前規劃好要執行的搜索操作。就像一個聰明的圖書管理員,在開始查找資料之前就先列出要查找的所有書籍清單,然后同時派發多個查找任務。具體來說,P-ReAct通過兩個關鍵技術實現了這個目標。

      第一個技術叫做"工具調用標記預填充"。研究團隊發現,可以在AI開始生成回答時就預先放置搜索指令的起始和結束標記,就像在空白紙上先畫出幾個框框,告訴AI要在這些框框里填入搜索命令。這種做法相當于給AI一個明確的結構模板,讓它知道應該在什么地方生成搜索指令。

      第二個技術是"置信度偏向"。由于擴散模型在生成文本時會給每個位置的每個可能字詞分配一個置信度分數,研究團隊巧妙地人為提高了搜索指令區域內字詞的置信度分數。這就像給重要任務貼上"優先處理"的標簽,確保AI優先完成搜索指令的生成,然后再處理思考內容。

      通過這兩個技術的結合,P-ReAct實現了近乎100%的搜索指令優先生成成功率。這意味著AI可以在開始復雜思考之前就先把搜索任務派發出去,然后在等待搜索結果返回的時間里繼續進行深入思考。

      四、實驗驗證:理論照進現實

      研究團隊在四個不同的數據集上測試了DLLM-Searcher的性能,這些測試就像讓一個學生參加不同科目的考試,全面檢驗學習成果。測試使用的數據集包括HotpotQA、2WikiMultiHopQA、Musique和Bamboogle,它們分別代表了不同類型的復雜多步推理任務。

      在性能比較方面,DLLM-Searcher表現出了令人印象深刻的能力。與傳統的檢索增強生成方法相比,它在準確率方面有了顯著提升。比如在HotpotQA數據集上,DLLM-Searcher達到了60.4%的準確率,而最好的傳統方法ReARTeR只有46.8%。更重要的是,DLLM-Searcher與基于傳統自回歸語言模型的搜索代理相比也毫不遜色,在某些數據集上甚至略有優勢。

      效率提升方面的結果更加令人興奮。使用P-ReAct模式的DLLM-Searcher在四個數據集上分別實現了14.77%、21.00%、22.08%和12.67%的推理時間減少,平均提速約15%。這種提速是在幾乎不損失準確性的前提下實現的,有些情況下準確率甚至還有小幅提升。

      研究團隊還進行了一個特別有意思的對比實驗。他們讓傳統的自回歸模型也嘗試先生成搜索指令再進行思考,結果發現這些模型的性能會顯著下降。這證明了擴散模型的獨特優勢:它們能夠利用全局信息來生成高質量的搜索指令,即使思考過程還沒有完全展開。

      五、真實案例:看AI如何"邊想邊搜"

      為了更直觀地展示DLLM-Searcher的工作過程,研究團隊提供了一個具體的案例分析。當面對問題"1973年NFL賽季,職業碗比賽在哪個足球場舉行,該足球場是杜魯門體育綜合體的一部分,還有什么其他體育場?"時,傳統模型和DLLM-Searcher展現出了截然不同的處理方式。

      傳統的擴散模型在嘗試回答這個問題時完全失敗了。它生成的搜索指令格式錯誤,使用了錯誤的特殊標記,無法被搜索系統正確解析和執行。這就像一個人想要打電話但是撥錯了號碼,根本無法接通。

      相比之下,經過訓練的DLLM-Searcher表現得像一個熟練的研究員。在處理過程的第32步時,搜索指令已經完全生成并可以立即執行,而思考部分仍然處于生成過程中。系統生成的搜索指令格式完全正確,包含了合適的查詢詞組,能夠被搜索引擎正確理解和處理。

      更令人印象深刻的是生成順序的可視化結果。傳統方法必須按照固定順序生成文本,而DLLM-Searcher的生成順序顯示了明顯的并行化特征。搜索指令部分的標記在早期就被填充完成,而思考部分的內容則在后續步驟中逐步完善。這種靈活的生成順序正是實現效率提升的關鍵。

      六、技術細節:在復雜中尋找簡單

      雖然DLLM-Searcher的實現涉及諸多技術細節,但其核心思想可以用一個簡單的烹飪比喻來理解。傳統的AI就像一個新手廚師,必須嚴格按照菜譜的每一步執行:先洗菜,洗完菜再切菜,切完菜再開火,開火后再熱鍋,熱鍋后再放油。每個步驟都要等前一步完全完成。

      而DLLM-Searcher就像一個經驗豐富的大廚,能夠合理安排工作流程。在洗菜的同時就可以讓鍋子預熱,在切菜的時候可以準備調料,在等水燒開的間隙可以處理其他食材。這種并行處理不僅節省了時間,還能保證最終菜品的質量。

      在技術實現層面,研究團隊使用了SDAR模型作為基礎架構,這是一個64塊大小的塊擴散語言模型。訓練過程使用了專門的注意力掩碼和學習率調度,確保模型能夠學會正確的并行生成模式。在推理階段,系統使用128個去噪步驟,塊大小為128,溫度參數設為1.0,這些參數的精心調整保證了生成質量和速度的最佳平衡。

      七、局限性與未來展望

      盡管DLLM-Searcher取得了顯著成果,但研究團隊也坦誠地指出了當前方法的一些局限性。就像任何新技術都有自己的適用范圍一樣,這項研究也存在需要進一步改進的地方。

      目前最主要的限制是訓練數據的規模。雖然研究團隊使用了近4000個高質量訓練樣本,但相比于一些大規模語言模型動輒使用數百萬甚至數十億訓練樣本的情況,這個規模還相對較小。這意味著模型在面對某些特殊類型的問題時可能還無法達到最優性能。

      另一個局限是當前系統主要針對搜索類任務進行了優化。雖然搜索是AI助手的一個重要功能,但實際應用中還需要處理計算、推理、創作等多種不同類型的任務。將P-ReAct模式擴展到其他類型的工具調用還需要進一步的研究。

      在某些復雜度極高的推理任務上,DLLM-Searcher與最先進的傳統模型相比仍有一定差距。特別是在Musique數據集上,系統的表現還有提升空間。這提示研究團隊需要進一步加強模型的復雜推理能力。

      盡管存在這些局限性,這項研究開啟了一個全新的研究方向。未來可能的發展包括擴大訓練規模、支持更多類型的工具調用、進一步優化并行化程度等。隨著計算資源的不斷增長和算法的持續改進,我們有理由期待這種"邊思考邊行動"的AI系統能夠在更多場景中發揮作用。

      說到底,DLLM-Searcher代表了人工智能向更加智能和高效方向發展的一個重要里程碑。它不僅解決了一個具體的技術問題,更重要的是展示了一種全新的思考方式:如何讓AI系統更像人類專家那樣工作,能夠靈活調配注意力和資源,在有限的時間內完成復雜的任務。這種能力對于構建真正實用的AI助手來說至關重要,也為未來的人工智能研究指出了一個有前景的方向。

      對于普通用戶而言,這項技術的成熟意味著未來的AI助手將能夠更快地回答復雜問題,提供更及時的幫助。無論是學生查找學習資料、工作者搜集業務信息,還是普通人尋求生活建議,都能從這種更高效的AI系統中獲益。這正是科技進步的真正意義所在:讓復雜的技術最終服務于每個人的日常生活。

      Q&A

      Q1:DLLM-Searcher與傳統AI搜索助手有什么區別?

      A:傳統AI搜索助手必須按順序工作,先思考再搜索,然后等待結果返回才能繼續。DLLM-Searcher可以同時進行思考和搜索,在等待搜索結果的時候繼續思考其他問題,就像經驗豐富的廚師可以同時處理多個烹飪步驟一樣,這使得整體處理速度提升了約15%。

      Q2:擴散大語言模型相比普通語言模型有什么優勢?

      A:普通語言模型像讀書一樣必須從左到右逐字處理,而擴散大語言模型更像拼圖游戲,可以同時在不同位置生成內容。這種并行處理能力讓AI可以優先生成搜索指令,然后在等待搜索結果時繼續完善思考內容,實現真正的多任務處理。

      Q3:P-ReAct技術如何確保AI優先處理搜索任務?

      A:P-ReAct使用兩個關鍵技術:首先預先在文本中放置搜索指令的框架標記,就像先畫好框框告訴AI在哪里填搜索命令;然后人為提高搜索區域內容的優先級分數,確保AI會優先完成這部分內容。通過這種方式,實現了近100%的搜索指令優先生成成功率。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克談Seedance 2.0:發展速度太快

      馬斯克談Seedance 2.0:發展速度太快

      財聯社
      2026-02-12 13:40:07
      鐘南山:會用證據讓全世界服氣

      鐘南山:會用證據讓全世界服氣

      第一財經資訊
      2026-02-12 18:13:00
      官方:U17亞洲杯中國隊分組出爐!

      官方:U17亞洲杯中國隊分組出爐!

      五星體育
      2026-02-12 17:32:54
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      今晚賽事:2月12日晚21點39,中央電視臺CCTV5、CCTV5+直播節目表

      今晚賽事:2月12日晚21點39,中央電視臺CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2026-02-12 12:50:12
      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      球童無忌
      2026-02-12 15:28:35
      美司法部提起訴狀,要求強制中國隨銳集團從收購的美國丘比特系統公司撤資

      美司法部提起訴狀,要求強制中國隨銳集團從收購的美國丘比特系統公司撤資

      俄羅斯衛星通訊社
      2026-02-12 15:07:34
      郭德綱沒想到,封箱演出這晚郭麒麟用9個字,讓德云社口碑翻盤了

      郭德綱沒想到,封箱演出這晚郭麒麟用9個字,讓德云社口碑翻盤了

      白面書誏
      2026-02-12 14:35:14
      中國已購買部分美國政府出售的委內瑞拉石油?外交部回應

      中國已購買部分美國政府出售的委內瑞拉石油?外交部回應

      北青網-北京青年報
      2026-02-12 19:44:01
      國際雪聯公開陰陽谷愛凌:無緣金牌是報應!遭投訴后只發郵件道歉

      國際雪聯公開陰陽谷愛凌:無緣金牌是報應!遭投訴后只發郵件道歉

      念洲
      2026-02-12 11:35:10
      中國人民銀行通告全國:2月1日起,人民幣現金收付新規正式施行

      中國人民銀行通告全國:2月1日起,人民幣現金收付新規正式施行

      縱擁千千晚星
      2026-02-12 17:01:18
      16GB+1TB!新機官宣:2月26日,正式全球首發!

      16GB+1TB!新機官宣:2月26日,正式全球首發!

      科技堡壘
      2026-02-12 12:24:27
      南丁格爾做了張“玫瑰圖”,結果把士兵的死亡率從42%降到2.2%

      南丁格爾做了張“玫瑰圖”,結果把士兵的死亡率從42%降到2.2%

      果殼
      2026-02-12 16:48:42
      影石公司年會送出5套房 員工:獲獎房者都是90后、無高管 背后是認可和期許

      影石公司年會送出5套房 員工:獲獎房者都是90后、無高管 背后是認可和期許

      紅星新聞
      2026-02-12 14:13:24
      鄭州“路虎大哥”開車撞倒持刀男子,被認定見義勇為,因歹徒家境普通未向其索賠;此前曾做多年公益捐贈十幾萬

      鄭州“路虎大哥”開車撞倒持刀男子,被認定見義勇為,因歹徒家境普通未向其索賠;此前曾做多年公益捐贈十幾萬

      大風新聞
      2026-02-11 21:09:26
      TCL Mini LED登頂全球,從618霸榜看中國品牌“價值戰”新范式

      TCL Mini LED登頂全球,從618霸榜看中國品牌“價值戰”新范式

      趣寫科技
      2025-06-23 20:33:24
      楊蘭蘭不認罪

      楊蘭蘭不認罪

      藍鉆故事
      2026-02-11 16:19:23
      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      金石隨筆
      2026-02-11 23:32:38
      教育部亮紅牌!這些專業的學生“畢業即失業”,985也在連夜撤銷

      教育部亮紅牌!這些專業的學生“畢業即失業”,985也在連夜撤銷

      離離言幾許
      2026-02-09 20:16:57
      全球最貴!10歲馬來西亞男孩100美元買下域名“AI.com”,33年后賣出7000萬美元

      全球最貴!10歲馬來西亞男孩100美元買下域名“AI.com”,33年后賣出7000萬美元

      臺州交通廣播
      2026-02-12 00:21:21
      2026-02-12 20:31:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      7245文章數 550關注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節前的暗戰

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      體育要聞

      31歲首次參加冬奧,10年前她是個水管工

      娛樂要聞

      體操運動員墜樓涉事教練被立案調查

      財經要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態度原創

      旅游
      藝術
      游戲
      親子
      本地

      旅游要聞

      燈已亮起,雙廊等你

      藝術要聞

      泰國學霸:身材好,顏值高!

      《大鏢客2》活過來了!新mod解鎖隱藏動態世界細節

      親子要聞

      2026年水解奶粉選購指南:平衡防敏需求與寶寶成長的科學之選

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      無障礙瀏覽 進入關懷版