<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

      0
      分享至

      AntResearchNLP團隊 投稿
      量子位 | 公眾號 QbitAI

      相信大家都有這樣一個體驗。

      跟AI無論什么對話,感覺都是說空話套話。





      有時候為了讓AI懂自己,許多用戶甚至不得不學習復雜的“提示詞技巧”,手動編寫長長的指令,像是在給AI做“崗前培訓”。



      那么如何實現高情商AI?螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——

      通過強化學習,AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好,并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態更新。

      更有趣的是,當把歸納好的偏好描述遷移到一個下游對齊模型時,能夠讓這個模型的個性化對齊能力得到顯著提升。



      如何讓AI真正懂你?

      如何讓AI真正“懂”你?我們需要讓AI從一個“規則執行者”進化成一個“模式發現者”。

      這意味著,它要掌握一種被認為是人類智慧核心的能力——歸納推理(Inductive Reasoning)。


      △“千人一面”的對齊方式無法滿足用戶多樣的個性化需求,紅字藍

      事實上,AI早已對演繹推理(Deductive Reasoning)駕輕就熟,具備令人驚嘆的數學解題和代碼編寫能力。

      你給它一個確定的前提(如“求解二次方程 ax2+bx+c=0”)和一套不變的規則(求根公式),它就能通過一步步嚴密的邏輯推演,給出一個唯一、可驗證的正確答案。這是一個典型的“自上而下”(Top-Down)的過程:從普適的公理或規則出發,推導出一個具體的、必然的結論。 在這個世界里,沒有模糊地帶,只有對與錯。

      而歸納推理則完全相反,它是一個自下而上(Bottom-Up)的過程:它沒有預設的“個人說明書”。它的“線索”就是你的每一個行為: 你追問了什么問題,說明你關心什么;你跳過了哪個回答,說明你不喜歡什么風格;你對哪個笑話點了贊,暴露了你的幽默感。它的“任務”就是從這些海量的、碎片化的行為數據中,提煉出專屬于你的互動模式與偏好規律。通過歸納推理,AI有潛力成為你的“知心姐姐”,主動拼湊出一個完整的你。

      舉個例子,讓我們來扮演一次AI知心姐姐,看看它是如何通過兩次看似無關的對話,就精準捕捉到你的“潛臺詞”的:

      • 第一次交互:你問“什么是人工智能?它在商業和生活中是怎么用的?”。AI會立刻開始在幕后推理你的偏好:“你可能對AI技術有特別的興趣,但似乎更關心實際應用,也許是商業導向”。
      • 第二次交互:你想學習冥想,在兩個候選回答中,你選擇了提供具體步驟的那個,而不是闡述冥想哲學的回答。AI會立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務實的指導,而不是理論探討。”

      這種漸進式的學習和優化,讓AI的“記憶”不再短暫。隨著一次次的交互,它會不斷收集新的線索,驗證并修正之前的假設,對你的“人物畫像”進行一次又一次的精修。最終,它不再是被動回答問題的機器,而是在主動地、持續地學習和理解你是誰。

      這,就是我們通向真正個性化AI的第一步。

      AlignXplore

      AlignXplore的訓練包括兩個階段。



      第一階段:冷啟動訓練(Cold-start Training)——拜師學藝

      研究團隊首先引入一個更強大的AI作為“導師模型”



      。這個導師會生成大量高質量的“教學案例”。對于每個用戶的行為信號集合





      會生成多組候選的推理鏈r和相應的偏好描述d利用獎勵函數R(r,d)進行篩選來獲取高質量數據



      。通過在



      上進行SFT,實現偏好歸納模型的冷啟動。



      其中



      代表可能存在的歷史偏好,而G是為每個實例生成的候選樣本數量。這里獎勵函數定義為:



      其中,



      是下游大語言模型R對回復的偏好打分函數。這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數,用于模型的訓練與評估:

      1、



      (基于偏好判斷的獎勵)

      R作為一個偏好判斷模型,直接評估在給定推斷出的偏好d后 “





      更好”的概率,最大化與用戶真實偏好的一致性:





      提供了更穩定和有效的訓練信號,是AlignXplore在訓練和評估中采用的核心獎勵函數。

      2、



      (基于生成概率的獎勵)

      R作為一個回復生成模型,衡量在加入偏好描述d前后,模型生成較優回復



      與生成較差回復



      間的對數概率差值是否有提升:



      第二階段:強化學習(Reinforcement Learning)——實戰修行

      在這一階段,采用GRPO算法訓練,模型會針對用戶的行為,嘗試生成多種不同的推理路徑和偏好結論



      。隨后,系統會根據這些結論的準確性給予“獎勵”或“懲罰”。通過這種不斷的試錯和優化,模型學會了如何將初步的分析提煉成更精準、更具指導性的判斷。

      優化策略定義如下:



      流式偏好推斷機制

      AlignXplore模型支持流式偏好推斷機制,即不再需要反復回看用戶冗長的歷史記錄,而是像處理一條源源不斷的數據流一樣,實時、增量地更新對用戶的理解——就像它在之前的例子中發現用戶“務實導向”的風格一樣。

      這種“流式”設計帶來的好處是顯而易見的:

      首先,它大大提高了生成效率;

      其次,它極為靈活,當用戶從休閑模式切換到工作狀態時,它能迅速迭代出一個新的“工作版”偏好,而不是固執地用舊眼光看用戶。這才是真正能跟上用戶節奏的動態進化系統。

      實驗結果

      在域內測試集AlignX_test和域外測試集P-Soups上,AlignXplore模型在個性化對齊任務上取得了顯著的成功,相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。


      △AlignXplore與各種推理/非推理模型在域內外數據集上的表現

      更重要的是,它展現了強大的綜合能力:

      高效性: 即使互動歷史變得非常長,流式推理機制也能保持穩定的響應速度和準確率,不會像傳統方法那樣需要每次編碼所有行為信號致使越來越慢。


      △隨著互動的進行,流式推理機制下的響應速度和準確率都保持穩定

      泛化能力:它不僅能處理特定的反饋數據,還能從用戶發布的帖子user-generated content (UGC)等不同形式的內容中學習,并且其推斷出的偏好也能成功地應用于與訓練時不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。


      △泛化性實驗

      魯棒性:即使用戶的偏好發生改變甚至反轉,AlignXplore也能靈活適應,不會產生劇烈的效果波動。


      △即便反轉初始行為信號的偏好,流式推理機制也能讓模型靈活調整

      總結

      該工作第一作者為人大高瓴一年級博士生李嘉楠,目前在螞蟻實習;螞蟻通用人工智能研究中心自然語言處理實驗室關健、武威為共同第一作者、通訊作者。

      AlignXplore是大模型個性化路上的一個全新的嘗試。在SOTA結果的背后,這項研究其實有很多思考:

      • 在智力上限被一波又一波推高的當下,如何規模化訓練大模型“情商”是一個沒有得到足夠關注卻又十分重要的問題。畢竟誰會拒絕一個既聰明又有溫度的AI呢?
      • 深度思考下的長思維鏈是大模型智能能力的主要推動力。深度思考本身消耗巨大,那么如果只用來刷分,是不是有點浪費呢?相比于結果,推理過程中產生的知識是不是更有價值呢?AlignXplore可以看作是推理知識在用戶理解領域進行遷移應用的一個嘗試。畢竟相對于艱深的數學知識,用戶理解知識更容易被看懂,也更容易落地。
      • 如果客觀問題都很快會被AI解決,那么主觀問題該怎么辦呢?這個世界上到底是客觀問題多還是主觀問題多呢?無論如何,研究團隊認為個性化是通往主觀世界的一條重要通道,而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關研究能夠涌現。

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      柬泰沖突細節披露 洪森要求部隊“克制”

      柬泰沖突細節披露 洪森要求部隊“克制”

      新華社
      2025-12-08 12:54:11
      國內多趟飛倫敦航班現100元低價票,在武漢中轉還能免費住一晚,系不含稅機票

      國內多趟飛倫敦航班現100元低價票,在武漢中轉還能免費住一晚,系不含稅機票

      極目新聞
      2025-12-08 13:06:02
      記者:雄鹿已告知各隊他們不會交易字母哥,但其他球隊均無視

      記者:雄鹿已告知各隊他們不會交易字母哥,但其他球隊均無視

      懂球帝
      2025-12-08 14:18:46
      一件“不會再發生”的事,又站到了普通人的門口!

      一件“不會再發生”的事,又站到了普通人的門口!

      走讀新生
      2025-11-30 18:50:02
      天妒英才!上海31歲一級教師諸倩蕓去世,獲獎無數,臨終僅剩82斤

      天妒英才!上海31歲一級教師諸倩蕓去世,獲獎無數,臨終僅剩82斤

      烈史
      2025-12-07 21:27:12
      湖人名宿沃西:當大家有困難需要大哥時,詹姆斯就挺身而出了

      湖人名宿沃西:當大家有困難需要大哥時,詹姆斯就挺身而出了

      懂球帝
      2025-12-08 15:01:06
      質疑聲超多,26歲閔某已任浙大馬院博士生導師,博士入學2年當博導?

      質疑聲超多,26歲閔某已任浙大馬院博士生導師,博士入學2年當博導?

      趣筆談
      2025-12-08 11:46:24
      林青霞崩潰了!12月7日,有媒體報道林青霞香港的豪宅被蟑螂入侵

      林青霞崩潰了!12月7日,有媒體報道林青霞香港的豪宅被蟑螂入侵

      小娛樂悠悠
      2025-12-08 10:12:09
      收到1.2億歐元罰單后,馬斯克的X平臺關閉了歐盟委員會的廣告賬戶

      收到1.2億歐元罰單后,馬斯克的X平臺關閉了歐盟委員會的廣告賬戶

      中國能源網
      2025-12-08 11:14:09
      交易倒計時?科爾DNP庫明加刻意保密,庫明加:這已不是第一次了

      交易倒計時?科爾DNP庫明加刻意保密,庫明加:這已不是第一次了

      體壇野秀才
      2025-12-08 14:29:55
      一輩子都寫不出的金句,為你整理了36句

      一輩子都寫不出的金句,為你整理了36句

      心智成長營
      2025-11-28 14:30:03
      火車員工用裝垃圾的簸箕接開水,12306回應:暫無規定不能用簸箕接水,會反饋改進

      火車員工用裝垃圾的簸箕接開水,12306回應:暫無規定不能用簸箕接水,會反饋改進

      極目新聞
      2025-12-07 16:35:20
      分走劉鑾雄資產,終成人生贏家,如今卻開賬號勾毛線 判若兩人

      分走劉鑾雄資產,終成人生贏家,如今卻開賬號勾毛線 判若兩人

      以茶帶書
      2025-11-19 23:13:35
      A股:不必等待了!明天(12月9日),股市或將迎來大級別的變化

      A股:不必等待了!明天(12月9日),股市或將迎來大級別的變化

      財經大拿
      2025-12-08 11:59:21
      戴眼鏡的微胖小姐姐,粉色吊帶搭配瑜伽褲,看上去溫柔可愛

      戴眼鏡的微胖小姐姐,粉色吊帶搭配瑜伽褲,看上去溫柔可愛

      小喬古裝漢服
      2025-12-06 16:15:45
      平價煙擺滿貨架!3 億煙民不用再買貴煙,這波民生轉向太實在

      平價煙擺滿貨架!3 億煙民不用再買貴煙,這波民生轉向太實在

      老特有話說
      2025-12-08 00:16:34
      李澤鉅近照變化巨大!滿頭白發,身材發福,帶兩位助理參加選舉!

      李澤鉅近照變化巨大!滿頭白發,身材發福,帶兩位助理參加選舉!

      阿纂看事
      2025-12-07 22:14:52
      回顧“91大神”秦先生落網:原本街頭擺攤,很多白富美被其偷拍

      回顧“91大神”秦先生落網:原本街頭擺攤,很多白富美被其偷拍

      就一點
      2025-11-24 16:34:08
      應被“開除”軍籍的三位明星,貪財穿和服,一個比一個丟臉

      應被“開除”軍籍的三位明星,貪財穿和服,一個比一個丟臉

      老謝談史
      2025-12-03 20:57:41
      2025-12-08 15:43:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11823文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      本地
      房產
      旅游
      公開課
      軍事航空

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      房產要聞

      碧桂園,開始甩賣海口家底!

      旅游要聞

      解鎖“蜀山暖雪”新體驗 演員岳紅邀你感受安逸四川的冬季玩法

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日产精品久久久久久久蜜臀| 精品国产免费人成在线观看 | 干日本少妇| 内射极品少妇xxxxxhd| 秋霞无码久久久精品| 亚洲午夜精品久久久久久app| 亚洲国产区男人本色| 久久精品人成免费| 南和县| 人妻人操| 厨房与子乱在线观看| 91视频免费看| 亚洲va国产va天堂va久久| 久久精品女人天堂av| 东京热无码av| 91精品导航| 国产精品美女一区二区视频| 强行交换配乱婬bd| а√在线中文网新版地址在线 | 国产精品久久国产三级国不卡顿| 久久久亚洲欧洲日产国码二区| 粗了大了 整进去好爽视频| 国产成人av性色在线影院| 色av永久无码影院av| 久久涩综合| 乌审旗| 亚洲精品熟女| 大色欧美| 婷婷五月麻豆| 中文字幕自拍| 丁香五月激情图片| 久久综合给合久久狠狠97色| 久久精品国产曰本波多野结衣| 最新精品国偷自产在线下载| 中文毛片无遮挡高潮免费| 肉色丝袜足j视频国产| 999国产精品999久久久久久| 日韩人妻一区二区三区蜜桃视频| 在线亚洲人成电影网站色www| 久久精品国产中国久久| 亚洲熟妇av午夜无码不卡|