<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

      0
      分享至

      AntResearchNLP團隊 投稿
      量子位 | 公眾號 QbitAI

      相信大家都有這樣一個體驗。

      跟AI無論什么對話,感覺都是說空話套話。





      有時候為了讓AI懂自己,許多用戶甚至不得不學習復雜的“提示詞技巧”,手動編寫長長的指令,像是在給AI做“崗前培訓”。



      那么如何實現高情商AI?螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——

      通過強化學習,AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好,并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態更新。

      更有趣的是,當把歸納好的偏好描述遷移到一個下游對齊模型時,能夠讓這個模型的個性化對齊能力得到顯著提升。



      如何讓AI真正懂你?

      如何讓AI真正“懂”你?我們需要讓AI從一個“規則執行者”進化成一個“模式發現者”。

      這意味著,它要掌握一種被認為是人類智慧核心的能力——歸納推理(Inductive Reasoning)。


      △“千人一面”的對齊方式無法滿足用戶多樣的個性化需求,紅字藍

      事實上,AI早已對演繹推理(Deductive Reasoning)駕輕就熟,具備令人驚嘆的數學解題和代碼編寫能力。

      你給它一個確定的前提(如“求解二次方程 ax2+bx+c=0”)和一套不變的規則(求根公式),它就能通過一步步嚴密的邏輯推演,給出一個唯一、可驗證的正確答案。這是一個典型的“自上而下”(Top-Down)的過程:從普適的公理或規則出發,推導出一個具體的、必然的結論。 在這個世界里,沒有模糊地帶,只有對與錯。

      而歸納推理則完全相反,它是一個自下而上(Bottom-Up)的過程:它沒有預設的“個人說明書”。它的“線索”就是你的每一個行為: 你追問了什么問題,說明你關心什么;你跳過了哪個回答,說明你不喜歡什么風格;你對哪個笑話點了贊,暴露了你的幽默感。它的“任務”就是從這些海量的、碎片化的行為數據中,提煉出專屬于你的互動模式與偏好規律。通過歸納推理,AI有潛力成為你的“知心姐姐”,主動拼湊出一個完整的你。

      舉個例子,讓我們來扮演一次AI知心姐姐,看看它是如何通過兩次看似無關的對話,就精準捕捉到你的“潛臺詞”的:

      • 第一次交互:你問“什么是人工智能?它在商業和生活中是怎么用的?”。AI會立刻開始在幕后推理你的偏好:“你可能對AI技術有特別的興趣,但似乎更關心實際應用,也許是商業導向”。
      • 第二次交互:你想學習冥想,在兩個候選回答中,你選擇了提供具體步驟的那個,而不是闡述冥想哲學的回答。AI會立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務實的指導,而不是理論探討。”

      這種漸進式的學習和優化,讓AI的“記憶”不再短暫。隨著一次次的交互,它會不斷收集新的線索,驗證并修正之前的假設,對你的“人物畫像”進行一次又一次的精修。最終,它不再是被動回答問題的機器,而是在主動地、持續地學習和理解你是誰。

      這,就是我們通向真正個性化AI的第一步。

      AlignXplore

      AlignXplore的訓練包括兩個階段。



      第一階段:冷啟動訓練(Cold-start Training)——拜師學藝

      研究團隊首先引入一個更強大的AI作為“導師模型”



      。這個導師會生成大量高質量的“教學案例”。對于每個用戶的行為信號集合





      會生成多組候選的推理鏈r和相應的偏好描述d利用獎勵函數R(r,d)進行篩選來獲取高質量數據



      。通過在



      上進行SFT,實現偏好歸納模型的冷啟動。



      其中



      代表可能存在的歷史偏好,而G是為每個實例生成的候選樣本數量。這里獎勵函數定義為:



      其中,



      是下游大語言模型R對回復的偏好打分函數。這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數,用于模型的訓練與評估:

      1、



      (基于偏好判斷的獎勵)

      R作為一個偏好判斷模型,直接評估在給定推斷出的偏好d后 “





      更好”的概率,最大化與用戶真實偏好的一致性:





      提供了更穩定和有效的訓練信號,是AlignXplore在訓練和評估中采用的核心獎勵函數。

      2、



      (基于生成概率的獎勵)

      R作為一個回復生成模型,衡量在加入偏好描述d前后,模型生成較優回復



      與生成較差回復



      間的對數概率差值是否有提升:



      第二階段:強化學習(Reinforcement Learning)——實戰修行

      在這一階段,采用GRPO算法訓練,模型會針對用戶的行為,嘗試生成多種不同的推理路徑和偏好結論



      。隨后,系統會根據這些結論的準確性給予“獎勵”或“懲罰”。通過這種不斷的試錯和優化,模型學會了如何將初步的分析提煉成更精準、更具指導性的判斷。

      優化策略定義如下:



      流式偏好推斷機制

      AlignXplore模型支持流式偏好推斷機制,即不再需要反復回看用戶冗長的歷史記錄,而是像處理一條源源不斷的數據流一樣,實時、增量地更新對用戶的理解——就像它在之前的例子中發現用戶“務實導向”的風格一樣。

      這種“流式”設計帶來的好處是顯而易見的:

      首先,它大大提高了生成效率;

      其次,它極為靈活,當用戶從休閑模式切換到工作狀態時,它能迅速迭代出一個新的“工作版”偏好,而不是固執地用舊眼光看用戶。這才是真正能跟上用戶節奏的動態進化系統。

      實驗結果

      在域內測試集AlignX_test和域外測試集P-Soups上,AlignXplore模型在個性化對齊任務上取得了顯著的成功,相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。


      △AlignXplore與各種推理/非推理模型在域內外數據集上的表現

      更重要的是,它展現了強大的綜合能力:

      高效性: 即使互動歷史變得非常長,流式推理機制也能保持穩定的響應速度和準確率,不會像傳統方法那樣需要每次編碼所有行為信號致使越來越慢。


      △隨著互動的進行,流式推理機制下的響應速度和準確率都保持穩定

      泛化能力:它不僅能處理特定的反饋數據,還能從用戶發布的帖子user-generated content (UGC)等不同形式的內容中學習,并且其推斷出的偏好也能成功地應用于與訓練時不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。


      △泛化性實驗

      魯棒性:即使用戶的偏好發生改變甚至反轉,AlignXplore也能靈活適應,不會產生劇烈的效果波動。


      △即便反轉初始行為信號的偏好,流式推理機制也能讓模型靈活調整

      總結

      該工作第一作者為人大高瓴一年級博士生李嘉楠,目前在螞蟻實習;螞蟻通用人工智能研究中心自然語言處理實驗室關健、武威為共同第一作者、通訊作者。

      AlignXplore是大模型個性化路上的一個全新的嘗試。在SOTA結果的背后,這項研究其實有很多思考:

      • 在智力上限被一波又一波推高的當下,如何規模化訓練大模型“情商”是一個沒有得到足夠關注卻又十分重要的問題。畢竟誰會拒絕一個既聰明又有溫度的AI呢?
      • 深度思考下的長思維鏈是大模型智能能力的主要推動力。深度思考本身消耗巨大,那么如果只用來刷分,是不是有點浪費呢?相比于結果,推理過程中產生的知識是不是更有價值呢?AlignXplore可以看作是推理知識在用戶理解領域進行遷移應用的一個嘗試。畢竟相對于艱深的數學知識,用戶理解知識更容易被看懂,也更容易落地。
      • 如果客觀問題都很快會被AI解決,那么主觀問題該怎么辦呢?這個世界上到底是客觀問題多還是主觀問題多呢?無論如何,研究團隊認為個性化是通往主觀世界的一條重要通道,而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關研究能夠涌現。

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大滿貫400勝第一人!德約橫掃晉級澳網16強,一戰創多項紀錄

      大滿貫400勝第一人!德約橫掃晉級澳網16強,一戰創多項紀錄

      全景體育V
      2026-01-24 19:01:36
      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      勁爆體壇
      2026-01-23 13:18:04
      奪冠!溫瑞博4-3戰勝弗朗西斯,關鍵球大心臟,王皓收獲一員大將

      奪冠!溫瑞博4-3戰勝弗朗西斯,關鍵球大心臟,王皓收獲一員大將

      騎馬寺的少年
      2026-01-24 21:51:22
      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      牛鍋巴小釩
      2026-01-25 03:12:10
      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數人咋舌

      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數人咋舌

      曉艾故事匯
      2025-01-09 22:01:49
      多省份公布去年結婚登記數據

      多省份公布去年結婚登記數據

      第一財經資訊
      2026-01-24 16:02:10
      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      娛樂八卦木木子
      2026-01-23 12:39:27
      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      懂球帝
      2026-01-25 01:41:11
      浙江省文化產業投資集團有限公司黨委副書記、董事、總經理蔣國興接受審查調查

      浙江省文化產業投資集團有限公司黨委副書記、董事、總經理蔣國興接受審查調查

      界面新聞
      2026-01-24 20:05:31
      南部戰區新聞發言人發表談話

      南部戰區新聞發言人發表談話

      界面新聞
      2026-01-20 22:21:05
      寧德時代官宣:鈉電池量產!成本比鋰電低10% 車價還要降?

      寧德時代官宣:鈉電池量產!成本比鋰電低10% 車價還要降?

      網上車市
      2026-01-22 23:32:10
      早安太空 · 網羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰持久戰總體戰

      早安太空 · 網羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰持久戰總體戰

      我們的太空
      2026-01-25 05:59:13
      發現馬上扔!一家四口吃了被放倒!醫生:煮熟也沒用

      發現馬上扔!一家四口吃了被放倒!醫生:煮熟也沒用

      路醫生健康科普
      2025-12-12 14:56:15
      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      興趣知識
      2026-01-24 14:50:07
      委內瑞拉民眾示威要求釋放馬杜羅

      委內瑞拉民眾示威要求釋放馬杜羅

      參考消息
      2026-01-24 11:54:04
      一天之內,重磅政策罕見三連發…

      一天之內,重磅政策罕見三連發…

      大碗樓市
      2026-01-24 08:04:07
      撈金失敗!2個劣跡藝人下鄉商演被舉報,官媒發文,后路要斷了

      撈金失敗!2個劣跡藝人下鄉商演被舉報,官媒發文,后路要斷了

      不寫散文詩
      2026-01-24 19:37:52
      92年,成都軍區司令員張太恒去北京開會,卻被中央降職調去了南京

      92年,成都軍區司令員張太恒去北京開會,卻被中央降職調去了南京

      禾所思
      2024-12-30 11:39:32
      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      荷蘭豆愛健康
      2026-01-24 10:23:15
      醫生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      醫生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      荊醫生科普
      2026-01-25 05:55:05
      2026-01-25 06:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12058文章數 176362關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      房產
      游戲
      藝術
      本地
      公開課

      房產要聞

      正式官宣!三亞又一所名校要來了!

      《輪回之獸》的優化不會像《寶可夢》系列那樣差

      藝術要聞

      18位西方畫家筆下的女人,美得驚艷了時光!

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产欧美网站| 亚洲成人不卡| 国产 无码 国产精品视频| www内射国产在线观看| 四虎在线视频| 亚洲中文字幕久久无码精品A| 中文字幕精品久久久久人妻红杏1 人妻少妇精品中文字幕 | 91网站在线看| 无码伊人66久久大杳蕉网站谷歌| 亚洲超碰97无码中文字幕| 亚洲九九九| 国产成人av在线免播放观看新| 好吊色欧美一区二区三区视频| 大洼县| 久久久久中文字幕| 2022色婷婷综合久久久| 日本熟妇人妻xxxx| 97人妻精品一区二区三区免| 狠狠色综合tv久久久久久| 久久蜜臂| 果冻传媒18禁免费视频 | 黄色A片网| 亚洲一卡二卡精久久| 大香蕉一区二区三区| 亚洲精品无码aⅴ中文字幕蜜桃| 日韩丝袜亚洲国产欧美一区| 亚洲中文字幕无码天然素人| 亚洲精品乱码久久久久久蜜桃不卡| 99久久精品久久久久久婷婷| 国产成人无码一区二区在线播放| 精品国产亚洲av三区| 18禁裸体女免费观看| 亚韩精品中文字幕无码视频| 久久精品国产2020| 永胜县| 中文字幕va一区二区三区| 久久亚洲视频| 国产欧美日韩va另类在线播放| 波多野结衣无码视频一区二区三区| 免费一级A片久久精品| 丰满人妻被黑人猛烈进入|