![]()
以往的AI更像個“被動應答機”,只懂根據現有信息回復,不會主動追問補充,而近期美國南加州大學、微軟公司和加州大學戴維斯分校聯合開展的研究,恰恰解決了這個痛點,讓大模型學會了主動追問,大幅提升了人機協作的效果。
![]()
![]()
在以往的研究和應用中,大模型的定位更偏向“執行者”,要么是回答用戶的事實性問題,要么是根據明確指令生成內容,幾乎不參與創造性的信息挖掘過程,哪怕用戶的需求模糊、信息不全,它也只會基于現有信息勉強輸出,很難產出有深度的結果。
而這項研究最核心的突破,就是引入了主動信息收集的任務范式,讓大模型從“被動等待指令”變成了“主動探索信息”,簡單來說,就像面試時優秀的面試者會通過追問面試官來展現自身價值、明確崗位需求一樣,經過訓練的大模型也能在面對模糊提示時,主動識別信息缺口。
![]()
挖掘用戶沒說出來的隱含需求,這種轉變可不是簡單的功能升級,而是人機協作邏輯的重構,它讓AI不再是單純的工具,更像一個能平等互動的協作伙伴,這一點尤為重要,因為真正高效的協作從來不是單向的指令下達,而是雙向的信息同步。
![]()
要讓大模型學會主動追問,關鍵在于訓練方式的創新。研究團隊沒有采用傳統的針對性訓練,也就是直接教模型該提什么問題、該要什么答案,用強化學習的方式,培養它的主動思考能力,這種思路就是授人以漁而非授人以魚,核心是教給模型思考方式,而非具體答案。
![]()
在具體實現上,研究團隊做了兩個關鍵設計:一是選擇了涵蓋25個專業領域、1000多條數據的DOLOMITES數據集進行測試,并通過掩蓋關鍵信息的方式,模擬真實場景中的模糊需求,確保訓練的真實性和可學習性;二是設計了獨特的獎勵機制。
不關注模型提出問題的具體內容,而是獎勵提出創造性問題這一行為本身,鼓勵模型提出數據中不存在的新問題,為了獲取穩定的獎勵信號,研究團隊還設計了對話模擬引擎,讓兩個AI互動:一個提出澄清問題,另一個對問題質量和回答有效性打分,以此形成閉環訓練。
![]()
這樣的訓練方式帶來了很好的泛化性,在自動評估指標上比基線模型o3-mini提高了18%;在人類評估中,其生成的澄清問題和最終大綱的偏好率分別達到42%和28%,這組數據充分說明,這種訓練方式是有效的,模型真正學會了主動發現信息缺口的思考方式,而這種具備泛化性的能力,正是其能在多個領域落地的關鍵。
![]()
![]()
![]()
總的來說,這項讓大模型學會主動追問的研究,不僅實現了技術層面的突破,更重構了人機協作的邏輯,它讓我們看到,AI不再是冰冷的工具,而是能主動參與思考、助力創新的協作伙伴,從技術內核來看,“授人以漁”的訓練思路,讓模型具備了很強的泛化能力。
隨著技術的不斷完善,相信未來我們和AI的協作會越來越順暢,更多復雜的創造性任務也能在人機配合下高效完成,而對于我們普通人來說,學會適應這種新型的人機協作模式,也會成為提升自身競爭力的重要方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.