<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      10小時測完DeepSeek-V4!北大團隊終結工程師噩夢?深扒大模型評測的“千億生意”

      0
      分享至


      DeepSeek-V4發布僅僅10小時后,一份全量自動化評測報告就出爐了。

      操刀的是北京大學DCAI團隊。

      他們剛剛開源了一個面向大模型評測的新框架——One-Eval。

      很多人可能會問:10個小時,很快嗎?

      在真實的AI工程界,這一效率提升堪稱行業范式級突破。


      過去,當老板扔來一個需求:“幫我測測這個新模型在代碼、數學和長文本上的能力。”工程師往往面臨繁重且低效的人工操作流程。


      你要自己去海量開源資源中篩選適配評測基準集(Benchmark)。

      你要自己寫下載腳本、耗費精力做字段適配、調試各類復雜配置參數。

      跑完之后還沒完,你還得在繁雜運行日志中排查解析異常問題。

      簡單來說:真正用來讓模型跑分的時間,還不如搭測試管道花的時間多。


      10小時通關的背后,其實隱匿著一個長期被大眾忽視,卻估值高達數百億美元的專業產業鏈。

      真實的商業世界里,評測絕不僅僅是一份吃瓜群眾愛看的跑分排行榜。

      它是一門關于標準定義、數據壁壘與行業需求的頂級生意。

      算力時代的評測痛點:傳統評測行業積弊已久

      為什么要拼了命地評測大模型?

      因為千億參數的模型訓練太燒錢了。

      對于底層模型廠商來說,評測分數是企業融資、獲取算力資源的重要依據。

      對于B端企業客戶來說,分數就是決定要不要把核心業務(比如金融風控、醫療診斷)交給這個AI來處理的重要決策依據。

      這催生了OpenCompass等一批優秀的傳統評測框架。但隨著模型越來越復雜,傳統評測的靜態模式弊端被徹底暴露了。


      太難用。傳統評測就像靜態流水線,你需要逐項手動配置各類參數。一旦遇到模型輸出的格式不那么規矩,程序就會直接中斷,造成測評結果誤判。

      太黑盒。跑完只丟給你一個單一的量化分數。至于提示詞是怎么拼的?評分規則、模型打分依據均無透明可查記錄。一旦出了Bug,排查起來難度極大、無從溯源。


      最致命的一點是:行業榜單公信力持續下滑。

      模型在訓練時“偷看”了考卷,這叫數據污染。

      當所有的AI在基礎測試里都能考出95分的高分時,榜單就失去了公信力。為了對抗這種污染,行業內甚至被迫引入檢測模型對特定數據的置信度等手段,來甄別數據污染行為。


      降維突圍:北大One-Eval到底做對了什么?

      當傳統框架還停留在高度人工依賴的老舊模式時,北大團隊開源的One-Eval,直接推出了 “智能體化” 的全新解法。

      它完成了一次徹底的交互降維:不再是“寫配置跑腳本”,而是自然語言驅動。

      你只需要在對話框里敲一句大白話:“我想測試我的模型在金融、法律、醫療領域的表現,并看看幻覺情況如何。”


      接下來,One-Eval的底層調度引擎會像專業調度引擎一樣,自主開展工作。

      它會自動識別你的意圖,并匹配工具:指令跟隨用IFEval,醫療用MedQA,法律用LegalBench,金融用FinanceQA。

      選好之后,結構解析、參數配置、底層數據拉取,全部由系統后臺靜默完成。

      一行配置都不用寫。


      更有意思的是,它打破了黑盒。

      One-Eval引入了基于全局狀態(Global State)的數據總線架構。評測的完整生命周期都被記錄下來,一旦報錯,斷點清晰可見,全鏈路可追溯。


      同時,它又展現出了嚴謹合理的系統設計思路——保留了“人工在環”(Human-in-the-Loop)。

      在系統給出評測方案時,它會主動停下來,把上下文展示給你,等待人工審核確認后,再繼續執行。


      在復雜的主觀評判場景下,這種人機協同遠比盲目的全自動更讓人安心。

      當然,作為一款新生的開源工具,它也有當前的能力邊界與適配局限。

      根據其文檔與架構特征,目前One-Eval內置的基準主要覆蓋純文本能力。

      如果你需要測試非常復雜的真實軟件工程能力(比如需要獨立Docker沙盒環境的代碼執行測試),目前依然是它的能力盲區。

      行業深層收益:評測賽道的商業邏輯

      如果說One-Eval是鋪設鐵路的修路大軍,那么在鐵路上建立行業服務壁壘、提供專業商業化服務,則是深諳行業商業化與資本運作邏輯。

      這絕不僅是一個“賣軟件授權”的單純工具授權生意。


      這門生意的買單方,是被 AI 升級需求倒逼的 B 端企業。

      一邊是持續融資布局的大模型研發企業,一邊是急于把AI接入業務的《財富》500強企業。


      在這個千億規模的賽道里,頭部公司的盈利邏輯被極其精密地設計為三個層層聯動的盈利體系:

      第一重:收取基礎的企業服務費用

      對于企業內部日常的自動化評測需求,商業平臺切入了合規剛需。提供企業級的審計日志、權限管理等服務,按API調用量或席位收取合理的商業化服務費用。這構成了他們極其穩定的現金流底座。


      第二重:壟斷定義權,提供私有化專業評測認證服務

      既然開源考卷被污染了,高分沒人信了,商業公司順勢就接管了重新定義行業評測標準體系。

      比如行業巨頭Scale AI,他們推出了全新的SEAL排行榜。

      這個榜單不玩靜態代碼謎題,直接引入真實人類專家進行盲測比對,從機制上規避數據泄露與刻意刷榜行為。

      邏輯瞬間質變:基礎模型公司如果想向投資人證明自己比競品強,就必須花重金購買這種不可篡改的私有評測認證。

      這就如同在開展商業化落地與資本市場估值前,你必須采購專業機構的權威評測認證。


      第三重:“診斷+賣藥”的數據引擎終極閉環

      這是這門生意最核心的護城河,也是最具核心壁壘的商業閉環。

      首先,評測系統通過大規模并發,精準定位模型在細分場景的能力短板與邏輯缺陷。

      緊接著,它輸出專業評測診斷報告向客戶輸出針對性改進指導。

      最后,平臺順理成章地亮出底牌:若要針對性優化模型能力?買我們獨家的高質量人工微調數據集吧。

      你不僅要為它指出你的弱點付費,還要采購對應的專業微調數據集。


      正是依托這套系統,Scale AI在2024年實現約 8.7 億美元可觀營收,毛利率穩定在50%左右。

      資本給予了較高市場估值:Meta在2025年出資143億美元,拿下了Scale AI 49%的股份,直接將其估值推向了290億美元的巔峰。


      大模型開發商融來的巨額資金中,有相當大一部分,就這樣以購買數據和評測服務的形式,悄無聲息地流進了這些“賣水人”的口袋。


      大模型時代的淘金熱遠未結束。

      無論是北大團隊試圖用自然語言交互打破繁文縟節的開源破局,還是商業巨擘用數據服務閉環構建商業壁壘的資本布局。

      都在印證商業發展中一個恒久不變的規律:

      在巨頭林立、競爭激烈的新興技術賽道中,掌握最終定價權的,往往不是技術迭代最快、投入最高的企業。

      而是牢牢扼住底層度量衡、負責制定游戲規則的那個“裁判”。(本文首發鈦媒體App,作者| AGI-Signal,編輯|林深)

      聲明:

      本文分析基于開源庫(如OpenDCAI/One-Eval)、公開財務數據及行業報告梳理。投資與創業存在極大不確定性,需留意大模型技術快速迭代及估值波動帶來的行業不確定性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      又一歐洲小國硬剛俄羅斯,俄軍被下逐客令,紹伊古:不排除動武

      又一歐洲小國硬剛俄羅斯,俄軍被下逐客令,紹伊古:不排除動武

      面包夾知識
      2026-04-25 15:24:52
      有一種蠢,叫自洽到刀槍不入

      有一種蠢,叫自洽到刀槍不入

      洞見
      2026-04-27 09:09:21
      鄭麗文和家人的一張合影,時間是1971年,地點是眷村。

      鄭麗文和家人的一張合影,時間是1971年,地點是眷村。

      葉老四
      2026-04-15 09:44:36
      八十歲不管存款有多少,建議提前給自己準備3樣東西,要當回事

      八十歲不管存款有多少,建議提前給自己準備3樣東西,要當回事

      小談食刻美食
      2026-04-28 07:42:38
      世界第1又崩盤!特魯姆普12-13出局,暴露3大致命隱患!

      世界第1又崩盤!特魯姆普12-13出局,暴露3大致命隱患!

      銜春信
      2026-04-28 10:18:31
      蒲松齡的《野狗》恐怖在哪里?為何說是最駭人的一篇小說

      蒲松齡的《野狗》恐怖在哪里?為何說是最駭人的一篇小說

      南書房
      2026-04-27 06:00:11
      2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補時絕平,曼聯險勝

      2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補時絕平,曼聯險勝

      足球狗說
      2026-04-28 05:07:09
      NBA選秀改革即將落地:戰績墊底的10支球隊,獲得狀元簽的概率統一為8%

      NBA選秀改革即將落地:戰績墊底的10支球隊,獲得狀元簽的概率統一為8%

      林子說事
      2026-04-28 03:21:58
      主權易手!阿拉格齊遞交停戰條件,伊朗終究走到了這一步

      主權易手!阿拉格齊遞交停戰條件,伊朗終究走到了這一步

      飄逸語人
      2026-04-27 23:46:42
      戰略性放水!老詹創3大最差紀錄,火箭大勝,湖人輸球仍有4大收獲

      戰略性放水!老詹創3大最差紀錄,火箭大勝,湖人輸球仍有4大收獲

      毒舌NBA
      2026-04-27 12:26:25
      裁員裁到大動脈后果嚴重嗎?網友:還真以為老板都是紗布嗎

      裁員裁到大動脈后果嚴重嗎?網友:還真以為老板都是紗布嗎

      帶你感受人間冷暖
      2026-04-22 23:18:22
      豆包上了車,字節還沒想好怎么收錢

      豆包上了車,字節還沒想好怎么收錢

      藍鯨新聞
      2026-04-27 10:57:22
      中方代表嚴厲駁斥日方

      中方代表嚴厲駁斥日方

      第一財經資訊
      2026-04-28 10:20:13
      戰斗打到一半,司令說:我累了,你指揮!結果此人一天解決戰斗!

      戰斗打到一半,司令說:我累了,你指揮!結果此人一天解決戰斗!

      云霄紀史觀
      2026-04-26 20:25:17
      經常午睡,中風風險漲24%?最新研究:每周午睡1-2次,每次30分鐘,心血管疾病風險降近50%;且老年人減少午睡,認知衰退顯著延緩

      經常午睡,中風風險漲24%?最新研究:每周午睡1-2次,每次30分鐘,心血管疾病風險降近50%;且老年人減少午睡,認知衰退顯著延緩

      梅斯醫學
      2026-04-27 07:55:20
      13-11!世錦賽8強全部出爐:中國球員2人晉級 趙心童比賽時間如下

      13-11!世錦賽8強全部出爐:中國球員2人晉級 趙心童比賽時間如下

      侃球熊弟
      2026-04-28 00:13:39
      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      譚老師地理大課堂
      2026-04-22 00:03:57
      單位按最低基數交社保,為什么員工不敢舉報?2個原因最戳心

      單位按最低基數交社保,為什么員工不敢舉報?2個原因最戳心

      細說職場
      2026-04-28 10:47:17
      火箭全隊可交易!兩年季后賽已認清現實,杜蘭特或加盟東部兩豪強

      火箭全隊可交易!兩年季后賽已認清現實,杜蘭特或加盟東部兩豪強

      你的籃球頻道
      2026-04-28 08:16:20
      欽州暴雨讓不少車輛淪為泡水車!網友:全損機會來了,卻沒達標準

      欽州暴雨讓不少車輛淪為泡水車!網友:全損機會來了,卻沒達標準

      火山詩話
      2026-04-28 06:34:25
      2026-04-28 11:44:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      132856文章數 862119關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      美軍事資產被指"損失慘重" 修復費用可能高達50億美元

      頭條要聞

      美軍事資產被指"損失慘重" 修復費用可能高達50億美元

      體育要聞

      人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

      娛樂要聞

      楊冪險遭蒸汽眼罩毀容!傷照曝光…

      財經要聞

      俞敏洪再遭重擊

      汽車要聞

      上汽大眾“攻山頭” ID.ERA 9X劍指細分前三

      態度原創

      時尚
      藝術
      旅游
      游戲
      手機

      T恤+闊腿褲、襯衫+闊腿褲,今年夏天最火的搭配,誰穿誰時髦!

      藝術要聞

      靜·觀--第二屆全國靜物油畫作品展 作品選刊

      旅游要聞

      蒙山、云岡石窟、北岳恒山、懸空寺景區最新公告

      唯美末日劇情向冒險游戲《ARIE:月詠》公布售價,5月13日上線!

      手機要聞

      消息稱iQOO 15T / iQOO Pad 6 Pro暫定5月發布

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻无码中文久久久久专区| 日韩成人无码影院| 婷婷丁香社区| 亚洲日韩AV在线| 清纯小美女主播流白浆| 熟女视频一区二区在线观看| 国产97色在线 | 免| 国产大片黄在线观看私人影院| 国产乱视频在线观看| 午夜免费视频国产在线| 525f| 亚州脚交| 九九国产视频| 天天躁日日躁狠狠躁中文字幕| 曾医生mp4| 少妇私密会所按摩到高潮呻吟| 日韩美女乱淫试看视频多人| 麻豆人妻| 亚洲第一成人会所| 一本加勒比hezyo无码人妻| 少妇真人直播免费视频| 91乱子伦国产乱子伦无码| 亚洲国产精品久久青草无码| 国产免费极品av吧在线观看| 五原县| 亚洲av中文一区二区| 欧美一区二区三区成人久久片 | 国产成人无码一区二区三区在线| 欧美精品在线观看视频| 日韩精品毛片人妻AV不卡| 亚洲国产精品久久一线不卡| 大色欧美| 中文字幕在线观看亚洲| 狠狠做五月深爱婷婷天天综合| 亚洲1区二区三区麻豆 | ,丰满少妇A级毛片| 亚洲精品乱码久久久久久按摩| 国产九九九九九九九a片| 一本本月无码-| 最近中文字幕在线中文视频| 亚洲老熟女@TubeumTv|