<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI涌現能力的五個層級——AI訓練師的親筆記錄

      0
      分享至

      模型涌現現象遠非表面那么簡單,背后暗藏五層遞進邏輯。從臨界點亮的突變效應到組合能力的自發串聯,從差異化策略的自我進化到意圖識別的精準判斷,直至反思能力的若隱若現——每個層級的涌現都對應著不同的訓練策略與評測方法。本文將深入拆解這五個關鍵層級,為模型訓練者提供可落地的評測框架與標注優化方案。

      ———— / BEGIN / ————

      “涌現”這個詞被用得太泛了。模型多做對了一道數學題叫涌現,突然能寫詩了也叫涌現,好像只要出現一個訓練目標里沒顯式定義的能力,就統統往這個筐里扔。

      站在訓練者的角度,這些現象之間的差異是巨大的。有些涌現你提前能感知到——數據到位了,信號夠了,能力遲早會出來,它只是在等一個臨界點。有些涌現是真的意外——你翻遍訓練數據也找不到它學這個的來源。

      但我在模型訓練中觀察到的涌現現象,大致可以歸為五個層級。

      第一層:臨界點亮

      這是最基礎的涌現形式,也是最容易被低估的。

      說它基礎,是因為它本質上就是”從不會到會”的閾值突破。說它容易被低估,是因為大家習慣把它當成理所當然——數據夠了自然就會嘛。

      但在實際評測中,這個過程遠沒有那么平滑。

      模型在早期對長網頁的摘要能力一直很弱。評測集里有一類case是超過三千字的長文,模型的摘要要么漏掉核心論點,要么把次要信息當主要內容寫進去。連續幾輪評測,長文摘要的評分都卡在差不多的位置,上不去。

      我每次評測完都會整理badcase,發現一個有意思的現象:每次錯的具體case不太一樣,但整體評分幾乎沒變。這意味著模型不是在反復犯同一個錯誤,而是整體能力就差那么一口氣。

      然后某一輪評測,突然就好了。長文摘要的評分跳了一大截。

      我去問算法那邊改了什么,得到的回復是”這批加了一批經過嚴格質檢的長文摘要數據”。這批數據有什么特別的?標注員在標注時不只是寫摘要,還額外標注了文章的結構骨架——哪些是核心論點、哪些是支撐論據、哪些是背景信息。

      這就是臨界點亮的核心特征:不是漸進改善,是階躍函數。 在臨界點的這一側,什么都沒有;跨過去之后,能力幾乎是瞬間出現的。

      這個現象對做標注質檢工作的啟示很直接:你不知道你質檢的這批數據會不會就是壓死駱駝的最后一根稻草,所以每一批數據的質量都不能糊弄。

      我見過太多這種情況——標注團隊為了趕進度,對標注質量放松了標準,覺得”差不多就行”,摘要寫得粗糙一點、結構標注漏掉一些,影響不大吧?但如果你理解臨界點亮的機制,你就知道:差的那一點數據,可能恰恰是模型跨過臨界點需要的那一腳。你省下的那點質檢時間,可能讓整個團隊多等兩周。

      第二層:組合涌現

      模型分別學會了幾個基礎能力,然后在某個時刻,它開始把這些能力組合起來使用,產生了一個訓練目標里沒有顯式定義的新行為。

      網頁摘要Agent的基礎能力包括:理解網頁結構、提取關鍵信息、壓縮文本、組織語言。這些能力在評測中是分開考核的——信息提取準不準、壓縮比合不合理、語言通不通順,各有各的評測維度。

      但在某次評測中,我開始看到模型把這些能力串聯起來完成更復雜的任務了。

      有一類case是讓用戶對比兩篇同類文章——比如兩篇手機評測,用戶想知道它們的結論有什么不同。模型的處理方式是:分別閱讀兩篇文章→各自提取核心觀點→把兩篇文章的結論放在一起做對比分析→生成對比摘要。

      這條鏈路上的每一步,模型的單項能力都達標了。但把它們串成一個完整的對比分析流程,是評測集里沒有顯式覆蓋的。它自己”拼”出來了。

      我在做badcase分析時注意到,組合涌現的出現有一個很明顯的前提條件:單項能力的錯誤率必須低到一定程度。

      這個道理說起來像廢話,但實際影響很大。我在評測中見過很多次,模型在對比兩篇文章時,第一篇的信息提取做對了,第二篇漏掉了關鍵論點,整個對比分析就廢了。兩篇文章的摘要任務,每篇信息提取90%準確率,整體對比分析的有效性可能只有80%。串聯的環節越多,對單步準確率的要求越高。

      所以一個很現實的問題是:什么時候該去考核組合能力? 太早了,單項能力不夠,組合評測只會產出一堆毫無分析價值的失敗case,浪費評測資源。太晚了,你可能錯過了發現組合涌現的最佳窗口期。

      我的經驗是,當單項能力在評測集上的評分穩定在良好以上,就可以開始設計組合任務的評測了。不是等到滿分——事實上永遠不會有滿分——而是等到單項錯誤變得足夠稀疏,讓你在組合評測中能把注意力放在”能力銜接”上,而不是”單步出錯”上。

      第三層:策略涌現

      這是我覺得最有意思的一層,也是最容易讓人產生”這東西是不是有智能了”這種錯覺的一層。

      策略涌現指的是:模型發展出了某種應對特定情況的系統性行為模式,而這種模式在訓練數據中并沒有明確對應的范例。

      在摘要Agent的評測中,這個現象特別容易觀察到。

      模型在早期對所有類型的網頁都用差不多的方式處理——不管是一篇新聞報道還是一篇學術論文,摘要的風格和結構都差不多。這導致學術論文的摘要缺少方法論信息,新聞報道的摘要又太啰嗦。

      但在某次評測中,我發現模型開始”看人下菜碟”了。

      面對新聞類網頁,摘要會優先抓時間、地點、事件、結果,結構很緊湊。面對產品評測類網頁,摘要會突出優缺點對比和最終推薦意見。面對學術論文,摘要會包含研究方法和核心結論,甚至會提到數據來源。

      這種差異化策略不是評測集里定義的”標準答案”。我們的標注指南里也沒有”新聞用這種格式、論文用那種格式”的要求。它就是自己發展出了這種策略。

      另一個讓我印象深刻的例子:模型在處理特別短的網頁時——比如一個產品頁面只有一段簡介和幾個參數——早期會硬湊出一段冗長的摘要。后來它發展出了一個策略:對于信息密度本身就不高的短網頁,直接用一句話概括,不硬撐篇幅。

      我第一次在評測記錄里看到這個行為的時候,翻了好幾條確認不是偶然。后來統計了一下,在短網頁的case中,模型生成合理長度摘要的比例,從之前的六成漲到了將近九成。

      策略涌現最容易被誤讀的地方在于:你很容易把”有效的行為模式”等同于”模型理解了自己在做什么”。

      看到模型對新聞和論文用不同的摘要策略,就覺得它”理解”了兩種內容的差異。但更可能的解釋是:在訓練過程中,差異化策略恰好獲得了更高的評測分數,所以被強化了。模型可能并不”理解”新聞和論文有什么本質區別,但它確實發展出了對不同類型網頁的有效處理策略。

      這兩者的區別在學術上爭論很大。但在做評測的日常工作中,我的判斷標準很簡單:策略是否穩定?是否可復現?有沒有副作用? 只要這三個條件都滿足,我就把它標記為”有效策略”,不糾結它背后是不是”真的理解”。評測師的工作是準確描述模型的行為,不是替哲學家回答”什么是理解”。

      第四層:意圖涌現

      前三層的能力,說到底都還在”工具”的范疇內。模型在執行明確的任務——給你一篇文章,輸出一段摘要,只是輸出的方式越來越聰明。

      但意圖涌現不一樣。它指的是模型開始能夠推斷出用戶沒有明確說出來的摘要需求——讀懂言外之意。

      這個現象在評測中特別有意思。

      有一次做評測,用戶輸入是”幫我看看這篇論文講了什么”。模型的摘要不只是把論文內容壓縮了一遍,而是重點突出了論文的核心結論和創新點,對研究背景和相關工作部分做了大幅簡化。

      這條case的標注答案是一篇中規中矩的論文摘要,信息覆蓋全面,各部分比例均衡。如果按照標注答案來評分,模型的輸出其實”漏掉”了不少信息。但如果你站在用戶的角度想——一個人說”幫我看看這篇論文講了什么”,他大概率是想知道這篇論文值不值得細讀,而不是要一份完整的文獻綜述。

      模型推斷出了用戶的真實意圖,并據此調整了摘要的側重點。

      這種能力對評測標準提出了很大的挑戰。

      傳統的評測框架是”摘要是否準確、完整、簡潔”。但當模型開始推斷用戶意圖的時候,”完整”這個標準就變得模糊了。用戶說”幫我看看這篇論文”,模型只寫了核心結論——這算”不完整”還是”精準”?

      問題是:不完整,在這里是錯還是對?

      我的做法是在評測維度里加了一條”意圖匹配度”——不只看摘要是否覆蓋了文章的主要內容,還要看它是否回應了用戶可能的真實需求。這條維度很難標,標注員之間的標注一致性也不高,但它確實能捕捉到一些傳統評測框架遺漏的東西。

      另外有一個觀察:意圖涌現跟網頁類型和用戶query的組合關系很大。 同一篇論文,如果用戶說的是”幫我看看這篇論文講了什么”和”幫我總結一下這篇論文的方法論”,模型應該給出完全不同的摘要。模型能不能根據query的細微差異調整摘要策略,是意圖涌現的一個重要表現。

      這也是為什么我在設計評測集時,會刻意把同一篇網頁配上不同的用戶query,看模型能不能做出差異化響應。這個維度的區分度,往往比”摘要準不準”更能反映模型的真實能力水平。

      第五層:反思涌現

      這是最讓我糾結的一層。

      所謂反思涌現,是指模型展現出某種”自我監控”和”自我修正”的行為——它似乎能夠評估自己的摘要質量,并在發現問題時主動調整。

      在摘要Agent的評測中,我觀察到一個非常有意思的模式。

      模型在處理某些復雜網頁時,會在生成摘要的過程中輸出一段類似”自我檢查”的內容(Agent有chain-of-thought的機制),大意是:”這篇網頁的核心信息在第三段,但我剛才的摘要沒有充分體現這一點,我需要調整。”

      然后它真的調整了。最終輸出的摘要確實把第三段的核心信息放在了更突出的位置。

      第一次在評測記錄里看到這個行為的時候,我的第一反應不是興奮,而是懷疑。這是模型在”反思”嗎?還是它只是在復現訓練數據中某個類似的模式,恰好看起來像反思?

      老實說,我到現在也不能百分百確定。

      但有一些證據讓我傾向于認為,這至少是一種”功能性反思”——模型確實發展出了一種內部評估機制,能夠檢測到”當前摘要和網頁內容的匹配度不夠”并觸發修正行為。這種能力不是我能在訓練數據中找到明確來源的。它是模型在大量網頁摘要任務的訓練中,通過試錯和評測反饋,自發發展出來的。

      反思涌現的實踐價值很大——它直接決定了摘要的可靠性。 在評測中,能自我修正的Agent和不能自我修正的Agent,摘要質量的差距是肉眼可見的。前者偶爾抓錯重點但能自己調回來,后者抓錯了就一路錯到底,把錯誤信息堂而皇之地放在摘要里。

      但我要誠實地說:反思涌現也是五層中最不穩定的。它時有時無,受網頁長度、內容復雜度、甚至模型版本的影響都很大。同一個case,這次評測能看到反思行為,下次評測就看不到了。你不能指望它每次都出現,也不能把它當成一個可靠的”能力”寫進評測報告里。

      這恰恰是涌現的本質特征——它不是功能,它是傾向。 你不能像調API一樣調用它,你只能創造條件讓它更可能出現。

      把涌現分成五個層級,不是為了搞一個漂亮的分類學。它對日常的評測和標注工作有實際的指導意義。

      不同層級需要不同的評測設計。 臨界點亮靠對比評測——看同一個評測集在不同版本之間的表現差異。組合涌現靠組合任務評測——設計需要多步驟串聯的對比分析case。策略涌現靠人工審查——模型的摘要質量不錯,但它是怎么做到的?這個”怎么”需要人去看。意圖涌現靠同文不同query的評測——同一篇網頁配上不同的用戶需求,看模型能不能差異化響應。反思涌現目前還沒有靠譜的評測方法,這也是為什么它最不穩定。

      不同層級對標注質量的要求不同。 臨界點亮靠標注數量和質量的雙重突破;組合涌現靠任務級標注數據的建設;策略涌現靠多樣化的邊界case標注;意圖涌現靠高質量的query-摘要配對樣本。如果你在做標注質檢工作,理解這些差異能幫你把有限的精力花在刀刃上——不是所有標注都值得花同樣的時間去質檢。

      最后說一句可能不太受歡迎的話:我們對涌現的理解,還遠遠不夠。

      我上面寫的這些觀察,很多都是基于日常工作中的經驗和推測,不是嚴格的因果分析。模型內部到底發生了什么,為什么會出現這些行為,這些問題在學術界都還沒有定論。我一個做了兩年網頁摘要Agent評測和標注工作的訓練師,能看到的只是現象,看不到機制。

      但我覺得這恰恰是寫這篇文章的意義——不是給出權威答案,而是提供一個一線視角的觀察框架。如果你也在做模型評測或者標注相關的工作,你大概率見過類似的現象。你可以對照這五個層級,看看你的觀察和我的是否一致,哪些地方你有不同的判斷。

      涌現不是魔法,但它也還沒被完全理解。這兩件事可以同時為真。

      而我們能做的,就是把每一次評測中看到的異常行為記下來,把每一條需要質檢的標注數據標到位。理解涌現不是一天的事,但積累觀察是每一天的事。

      本文來自作者:周周粥粥

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      網友調侃陳都靈是搓衣板身材,胸前沒有二兩肉,瘦的離譜

      網友調侃陳都靈是搓衣板身材,胸前沒有二兩肉,瘦的離譜

      TVB的四小花
      2026-04-25 18:47:36
      男生省吃儉用送滿改鍵盤 女神轉手掛閑魚反罵"舔狗"

      男生省吃儉用送滿改鍵盤 女神轉手掛閑魚反罵"舔狗"

      游民星空
      2026-04-26 11:10:12
      對美元的重大誤判,正在深度誤導我們

      對美元的重大誤判,正在深度誤導我們

      世界靈敏度趙靈敏
      2026-04-26 18:36:10
      孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

      孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

      醫脈圈
      2026-04-25 20:04:06
      2859.2克黃金制品被警方扣押三十年:公安已約當事人面談

      2859.2克黃金制品被警方扣押三十年:公安已約當事人面談

      新京報
      2026-04-26 21:05:03
      回榜首!阿森納奪冠概率升至72.4% 曼城遭看衰:會輸2場+3分丟冠

      回榜首!阿森納奪冠概率升至72.4% 曼城遭看衰:會輸2場+3分丟冠

      我愛英超
      2026-04-26 07:40:23
      12分鐘,13投全中,NBA最不講理的得分表演,沒有之一

      12分鐘,13投全中,NBA最不講理的得分表演,沒有之一

      林子說事
      2026-04-26 15:22:42
      中國11人僅剩2人!趙心童回應淘汰丁俊暉:他狀態不好 給了我機會

      中國11人僅剩2人!趙心童回應淘汰丁俊暉:他狀態不好 給了我機會

      風過鄉
      2026-04-26 21:22:02
      英媒:前米蘭球員博列洛因私處藥膏遭禁賽,曾稱一天親熱37次

      英媒:前米蘭球員博列洛因私處藥膏遭禁賽,曾稱一天親熱37次

      懂球帝
      2026-04-26 18:37:16
      被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

      被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

      云舟史策
      2026-04-26 17:10:28
      集體發???北京車展成了嚼過的檳榔渣:沒感覺自己病了才完蛋

      集體發?。勘本┸囌钩闪私肋^的檳榔渣:沒感覺自己病了才完蛋

      道哥說車
      2026-04-26 18:58:56
      伊朗外長向巴基斯坦遞交停戰條件

      伊朗外長向巴基斯坦遞交停戰條件

      新華社
      2026-04-26 23:15:28
      中國民間向烏克蘭捐款至少6530萬美元

      中國民間向烏克蘭捐款至少6530萬美元

      紫京講談
      2026-04-26 16:22:17
      天涯神貼之東三省人口持續流出的真正原因

      天涯神貼之東三省人口持續流出的真正原因

      回旋鏢
      2026-04-26 13:42:15
      特朗普:伊朗戰爭很快結束 美國將取勝

      特朗普:伊朗戰爭很快結束 美國將取勝

      新華社
      2026-04-26 23:33:25
      網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

      網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

      極目新聞
      2026-04-26 17:45:26
      廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

      廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

      南方都市報
      2026-04-26 20:40:18
      世錦賽戰報:吳宜澤4-4,連爆大冷,3位80后大滿貫得主都被逼平了

      世錦賽戰報:吳宜澤4-4,連爆大冷,3位80后大滿貫得主都被逼平了

      求球不落諦
      2026-04-26 20:17:11
      她長這么漂亮,演技那么好,為啥這么多年一直火不起來呢?

      她長這么漂亮,演技那么好,為啥這么多年一直火不起來呢?

      草莓解說體育
      2026-04-26 14:16:31
      從能耗世界紀錄到越野新品類,傳祺北京車展的炮火與底氣

      從能耗世界紀錄到越野新品類,傳祺北京車展的炮火與底氣

      汽車觀察AUTO
      2026-04-25 18:08:20
      2026-04-27 01:19:00
      人人都是產品經理社區 incentive-icons
      人人都是產品經理社區
      想要成為大牛先從學做產品開始
      64661文章數 311590關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      健康
      教育
      本地
      公開課
      軍事航空

      干細胞如何讓燒燙傷皮膚"再生"?

      教育要聞

      超燃暴擊!孩子們為啥都樂翻天了?!這所人附系學校揭秘

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟女一区二区三区| 大肉大捧一进一出视频| ****亚洲成a人片第1集| 日本人妻中文字幕乱码系列| 国内老熟妇对白hdxxxx| 亚洲午夜视频| 亚洲乱亚洲乱妇50p| 亚洲综合乱| 国产精品三级在线专区1| 精品中文人妻在线不卡| 九九视频精品免费观看6 | 在线亚洲高清揄拍自拍一品区| 五月天成人社区| 亚洲欧美人成人让影院| 欧洲成人在线观看| 人妻精品久久久久中文字幕| 无遮挡边吃摸边吃奶边做| 根河市| 久久久久久久无码高潮| 无码无码无码| 国产精品久久久久三级| 乱60一70归性欧老妇| 欧美粗大猛烈进出| 亚洲色情网站| 国产一区国产二区高清无码| 青青草大香焦在线综合视频| 大丰市| 国产sm调教折磨视频| 国产黄拍| 国产乱子伦无套一区二区三区| 精东A片成人影视| 东京热av无码一区二区 | 乱色| 俺来也俺也啪www色| 亚洲小说区图片区| 粗长挺进新婚人妻小怡| 亚洲综合精品第一页| 国产精品偷伦视频免费观看了| 国产999精品成人网站| 国产成人久久精品二区三区| 精品人妻系列无码人妻免费视频|