<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Meta與華盛頓大學聯(lián)手打造"自我成長"的AI判官

      0
      分享至


      這項由Meta公司FAIR實驗室和華盛頓大學合作完成的研究,發(fā)表于2025年12月的arXiv預印本平臺(論文編號:2512.05145),為我們展示了一個顛覆性的發(fā)現(xiàn):AI評判官也能像人類一樣通過"自學成才"的方式不斷提升判斷能力,而且完全不需要人類手把手地教它什么是對什么是錯。

      要理解這項研究的意義,我們可以把視覺AI模型想象成剛學會畫畫的小朋友。這些小朋友每天都在畫各種圖畫,有些畫得很好,有些畫得不太好。但問題來了:誰來判斷這些畫的好壞呢?傳統(tǒng)做法就像請一群專業(yè)美術(shù)老師來逐一評判,告訴我們哪幅畫更好。但這樣做成本極高,而且當小朋友們的畫技越來越高超時,這些評判標準很快就過時了。

      研究團隊中的林茵娜(Inna Wanyin Lin)、胡雨時(Yushi Hu)等科學家們提出了一個巧妙的解決方案:既然我們需要一個評判官來評判AI的作品,為什么不讓AI自己來培養(yǎng)這個評判官呢?這就好比讓一個聰明的學生既當運動員又當裁判,通過不斷練習比賽來提升自己的判斷水平。

      這個"自我成長"的AI評判官基于Llama-3.2-11B視覺指令模型構(gòu)建。雖然它的"身材"相對小巧(只有110億個參數(shù)),但經(jīng)過特殊訓練后,它的表現(xiàn)竟然能夠媲美甚至超越那些體積龐大的模型,比如擁有900億參數(shù)的Llama-3.2-90B,以及知名的GPT-4o和Claude 3.5 Sonnet。這就像是一個普通身材的運動員通過科學訓練,最終在比賽中擊敗了那些天生體格更強壯的對手。

      研究的核心創(chuàng)新在于設計了一套"三步循環(huán)"的自我訓練方法。第一步是"制造對比",AI會生成各種質(zhì)量層次的回答,就像一個學生故意寫出一些好答案和一些有明顯錯誤的答案。對于那些有標準答案的問題(比如數(shù)學題或選擇題),它會生成多個答案然后選擇大多數(shù)都認同的那個作為"正確答案",再隨機選擇一個不同的答案作為"錯誤答案"。對于那些沒有標準答案的開放性問題(比如圖片描述),它會先寫一個正常的回答,然后故意在另一個版本中加入一些錯誤信息,比如把"紅色巴士"說成"藍色巴士",或者把"40層建筑"說成"10層建筑"。

      第二步是"自我判斷",當前版本的AI評判官會對這些成對的答案進行評判,并且詳細解釋自己的判斷理由。研究團隊只保留那些判斷正確的案例和相應的推理過程。這就像是一個學生在練習判斷題時,只有當他選對答案并且給出了合理解釋的時候,這道題才會被記錄下來供后續(xù)學習使用。

      第三步是"反思成長",AI評判官會基于這些篩選出來的正確判斷和推理過程進行學習,就像學生通過復習自己做對的題目來鞏固判斷標準。然后整個過程會重新開始,形成一個持續(xù)改進的循環(huán)。

      在實際測試中,這個方法展現(xiàn)出了令人印象深刻的效果。研究團隊使用了兩個權(quán)威的評估基準:VL-RewardBench和Multimodal RewardBench,這些就像是AI界的"標準化考試"。在VL-RewardBench上,AI評判官的整體準確率從初始的0.38提升到了0.51,相當于從38分進步到51分,這是一個相當顯著的提升。更令人驚訝的是,在某些特定任務上,這個小巧的AI評判官竟然超過了那些大型模型的表現(xiàn)。

      具體來說,在常規(guī)指令跟隨任務中,它的得分達到了0.503,明顯超過了90B參數(shù)的大型模型(0.426)以及Claude-3.5-Sonnet(0.434)和GPT-4o(0.491)。在幻覺檢測(即識別AI是否編造了不存在的內(nèi)容)方面,它的表現(xiàn)也有了40.9%的相對提升。在視覺問答任務中,改進幅度達到了18%。

      這種進步模式就像是一個學生的成績單:第一次考試得38分,經(jīng)過一輪學習后得45分,再學習一輪得52分,如此反復,最終達到了54分的好成績。有趣的是,研究發(fā)現(xiàn)不同類型的任務改進速度是不同的。有些技能(比如基礎的指令理解)改進得很快很穩(wěn)定,而有些技能(比如復雜推理)的改進則比較緩慢甚至會出現(xiàn)波動。

      研究團隊深入分析了為什么"多數(shù)投票"策略比使用標準答案效果更好。他們發(fā)現(xiàn),即使AI選擇了正確答案,它的推理過程也可能有問題。比如在一個文本識別任務中,AI雖然最終選擇了含有正確數(shù)字的回答,但它的理由卻是"回答B(yǎng)更詳細,描述了字體顏色和布局",完全沒有注意到回答A其實把數(shù)字寫錯了。這就像是一個學生在數(shù)學考試中蒙對了答案,但解題思路完全錯誤。

      相比之下,多數(shù)投票策略要求AI在多個不同的合成對比中都能給出正確判斷,這樣就更可能篩選出那些真正理解判斷標準的推理過程,而不是僅僅靠運氣或表面特征做出判斷。

      這項研究的意義遠遠超出了技術(shù)層面。從成本角度看,傳統(tǒng)的人工標注方法可能需要50萬到100萬美元來創(chuàng)建等量的訓練數(shù)據(jù),而這種自我訓練方法只需要大約400個GPU小時,成本僅為幾千到一萬美元。這就像是用業(yè)余愛好者的成本達到了專業(yè)團隊的效果。

      更重要的是,這種方法具有很強的適應性。當AI模型不斷進步、新的視覺任務不斷涌現(xiàn)時,傳統(tǒng)的人工標注很難及時跟上。而這種自我訓練的評判官可以隨時適應新的場景和任務,不需要等待人類專家重新制定評判標準。

      研究也坦誠地指出了當前方法的局限性。在安全性評估方面,改進效果并不明顯,因為這種訓練方法并沒有專門教AI識別有害或有偏見的內(nèi)容。這就像是培養(yǎng)了一個優(yōu)秀的文學評論家,但他在識別政治敏感內(nèi)容方面可能還需要額外的專門訓練。

      另外,不同類型的任務對這種自我訓練的響應程度也不同。一些需要深度推理或微妙判斷的任務改進相對有限,這提示我們可能需要更加精細化的訓練策略,或者針對不同類型的任務培養(yǎng)專門的評判官。

      從更廣闊的視角來看,這項研究代表了AI發(fā)展的一個重要方向:從依賴人類監(jiān)督轉(zhuǎn)向自主學習能力。這不僅僅是技術(shù)的進步,更是AI系統(tǒng)走向真正智能的重要一步。當AI能夠自主評判和改進時,它就具備了持續(xù)學習和適應的能力,這對于構(gòu)建更加靈活和強大的AI系統(tǒng)具有重要意義。

      這種技術(shù)的應用前景也相當廣泛。在教育領(lǐng)域,可以用來自動評判學生的作業(yè)和考試;在內(nèi)容創(chuàng)作領(lǐng)域,可以幫助評估AI生成的圖像、視頻或文章質(zhì)量;在產(chǎn)品開發(fā)中,可以用來評估用戶界面設計或產(chǎn)品描述的質(zhì)量。

      說到底,這項研究向我們展示了AI的一個重要特質(zhì):像人類一樣,AI也可以通過反思和練習來不斷提升自己的判斷能力。雖然目前還有一些局限性,但這種"自我成長"的能力為AI的未來發(fā)展開辟了新的可能性。隨著技術(shù)的進一步完善,我們可能會看到更多能夠自主學習和改進的AI系統(tǒng),它們不再需要人類的手把手指導,而是能夠像成熟的專家一樣獨立工作和成長。

      Q&A

      Q1:這種自我訓練的AI評判官是如何工作的?

      A:這種AI評判官采用"三步循環(huán)"的訓練方式。首先,AI會生成質(zhì)量不同的答案對比,比如一個正確答案和一個有錯誤的答案。然后,當前版本的評判官會對這些答案進行判斷并解釋理由,研究團隊只保留判斷正確的案例。最后,AI會基于這些正確的判斷案例進行學習,提升自己的評判能力,然后重復整個過程。

      Q2:這種方法比傳統(tǒng)的人工標注有什么優(yōu)勢?

      A:主要有三個優(yōu)勢:成本更低,傳統(tǒng)人工標注需要50萬到100萬美元,而這種方法只需幾千到一萬美元;適應性更強,可以隨時適應新的AI模型和任務,不需要等待人類重新制定標準;效果更好,在某些任務上甚至超過了大型模型的表現(xiàn),比如在指令跟隨任務中超過了GPT-4o和Claude等模型。

      Q3:這種AI評判官在實際應用中表現(xiàn)如何?

      A:在權(quán)威測試中表現(xiàn)相當出色。整體準確率從38%提升到51%,在常規(guī)指令跟隨任務中得分0.503,超過了90B參數(shù)的大型模型。在幻覺檢測方面有40.9%的提升,視覺問答任務改進了18%。雖然在安全性評估和某些復雜推理任務上還有改進空間,但整體表現(xiàn)已經(jīng)達到甚至超越了許多知名的大型AI模型。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      WOC!楊瀚森排在NBA聯(lián)盟第3...

      WOC!楊瀚森排在NBA聯(lián)盟第3...

      左右為籃
      2025-12-12 12:29:32
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網(wǎng)友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網(wǎng)友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      華人在國內(nèi)的錢,想?yún)R出來難了!

      華人在國內(nèi)的錢,想?yún)R出來難了!

      以希臘之名
      2025-12-09 18:10:47
      因中國游客減少,日本一溫泉12月?lián)p失超1800萬,現(xiàn)已停業(yè)

      因中國游客減少,日本一溫泉12月?lián)p失超1800萬,現(xiàn)已停業(yè)

      隨波蕩漾的漂流瓶
      2025-12-12 18:30:08
      解放軍進入臺海,美航母早已跑路,統(tǒng)一已成定局,鄭麗文開始追責

      解放軍進入臺海,美航母早已跑路,統(tǒng)一已成定局,鄭麗文開始追責

      朝子亥
      2025-12-12 12:00:03
      特朗普和克林頓等在列!美國民主黨陸續(xù)公開愛潑斯坦的相關(guān)照片!

      特朗普和克林頓等在列!美國民主黨陸續(xù)公開愛潑斯坦的相關(guān)照片!

      AI商業(yè)論
      2025-12-13 10:35:59
      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      葉青足球世界
      2025-12-10 21:18:51
      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      小魚愛魚樂
      2025-12-12 08:39:41
      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      新時代的兩性情感
      2025-12-03 12:59:07
      柬埔寨是世界最貧窮的國家之一,但統(tǒng)治該國的洪森家族卻富可敵國

      柬埔寨是世界最貧窮的國家之一,但統(tǒng)治該國的洪森家族卻富可敵國

      大道無形我有型
      2025-09-05 11:31:52
      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      寒律
      2025-12-13 10:53:35
      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      好乒乓
      2025-12-13 11:27:55
      放棄中國國籍投靠日本,結(jié)果日本不收中國不要,成為夾縫中的黑戶

      放棄中國國籍投靠日本,結(jié)果日本不收中國不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      明月光
      2025-12-11 22:04:44
      被拐30年兒子認親14小時就走,全程冷臉,網(wǎng)友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網(wǎng)友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      中國政府已經(jīng)暫停大型粒子加速器計劃!

      中國政府已經(jīng)暫停大型粒子加速器計劃!

      達文西看世界
      2025-12-11 17:05:23
      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      果殼
      2025-12-10 16:09:31
      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      查爾菲的筆記
      2025-12-10 18:11:47
      蘋果iOS 26.2正式版發(fā)布:負一屏終于不卡頓 動效Q彈絲滑

      蘋果iOS 26.2正式版發(fā)布:負一屏終于不卡頓 動效Q彈絲滑

      快科技
      2025-12-13 08:16:07
      2025-12-13 12:07:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      6531文章數(shù) 542關(guān)注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態(tài)

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應爭議,否認出軌贈送香水

      財經(jīng)要聞

      鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

      汽車要聞

      表面風平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

      態(tài)度原創(chuàng)

      教育
      時尚
      親子
      本地
      軍事航空

      教育要聞

      最新,山東這地中小學寒假時間公布!

      導演們,該有危機意識了!野生創(chuàng)作正在崛起

      親子要聞

      打卡得能湖才懂為何家長繞道周末都要來(附上實用遛娃攻略)

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲欧美成人一区二区三区| 亚洲色图另类| a在线视频| 人妻少妇久久中文字幕一区二区 | 中文人妻无码一区二区三区在线 | 视频一区二区不中文字幕| 日本色导航| 3751色视频| 亚洲精品久久国产高清| 少妇被粗大的猛烈进出免费视频 | 少妇人妻邻居| 90后极品粉嫩小泬20p| 熟女中文字幕| 久久精品中文闷骚内射| 久久久久久国产精品美女| 樱花草在线社区www| 熟女91| 91n在线观看| 国产欧美日韩精品a在线观看| 亚洲偷| 一本色道久久88加勒比中文字幕| 徐汇区| 国产精品久久久久免费观看| 成人乱人伦精品小说| 久久综合综合久久综合| 91视频导航| 国产无码免费| 欧美?级毛片一进一出夜本色| 艳妇乳肉豪妇荡乳xxx| 国产精品免费久久久久影院 | 日韩成人社区| 狠狠色综合网站久久久久久久| 欧美日韩精品一区二区三区在线| 亚洲欧洲av| 午夜三级福利| 99tr在线观看| 99999久久久久久亚洲| 色综合天天综合天天综| 中文字幕久荜| 亚洲国产精品久久久久久久| 国产亚洲精品日韩香蕉网|