<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      給大模型排名次,兩個博士一年干出120億獨角獸

      0
      分享至



      作者丨漫地

      編輯丨關雎

      頭圖丨Angelopoulos(右)Chiang(左)

      最近,美國加州大學伯克利分校(UC Berkeley)學術研究項目孵化出的創業公司LMArena,成為了估值17億美元(約人民幣120億元)的獨角獸。而它僅僅成立一年。

      其憑借構建的全球最大規模的用戶偏好大模型實時數據集,來滿足市場對AI可靠性評估的迫切需求,而這也讓LMArena在資本市場上獲得高度認可。

      在短短一年時間內,LMArena完成了由Andreessen Horowitz(a16z)、Felicis Ventures等頂尖風投領投的兩輪融資,包括種子輪1億美元,A輪1.5億美元的資金。

      然而,其商業模式的可靠性正面臨爭議。一個搞AI測評的初創公司,憑什么躍升成為獨角獸?





      學術機構里跑出來的創業公司

      LMArena脫胎于大型模型系統組織(Large Model Systems,LMSYS )。該組織起源于2023年,由加州大學伯克利分校、斯坦福大學、加州大學圣地亞哥分校、卡內基梅隆大學等多所大學合作發起。它于2024年9月注冊為非營利性公司,旨在孵化早期開源和研究項目。

      也是在2023年,一起在加州大學伯克利分校電子工程與計算機科學系攻讀博士學位的Anastasios N. Angelopoulos和Wei?Lin Chiang,受LMSYS資助,創立了Chatbot Arena,這即為LMArena的前身。

      作為一個學術附屬項目,Chatbot Arena擁有一個較為純粹的初心:構建一個公開透明的評估平臺,它能夠真正地反映大型語言模型在現實世界中的應用情況。

      大家都知道,我們日常使用的生成式人工智能所依托的大模型需要不斷地被訓練,而人們在使用過程中真實的使用體驗和建議,可以最大程度地幫助大模型提升回答質量。“哪些人工智能模型對我來說最好用?” 作為用戶,你也許也有這樣的疑惑。

      2023年5月,Chatbot Arena被正式推出。Chatbot Arena平臺上會展示不同人工智能對同一問題的回答,每個用戶都可以通過匿名的方式選擇自己更喜歡的答案,對不同的人工智能模型進行投票。

      2025年1月,Chatbot Arena注冊為商業化實體LMArena,由Anastasios N. Angelopoulos任首席執行官、Wei?Lin Chiang任首席技術官,Ion Stoica是聯合創始人兼顧問。



      Ion Stoica(左)Angelopoulos(中)Chiang(右)

      三個人可謂強強聯合。

      Ion Stoica是UC伯克利大學的計算機系教授,同時領導著該校的天空計算實驗室((SkyLab)。他還是位連續創業者,先后參與創辦了Anyscale、Databricks、Conviva Networks等公司。

      Angelopoulos 對于可信賴的人工智能系統、黑箱決策和醫療機器學習方面的研究頗深,他曾在谷歌 DeepMind 擔任學生研究員,并計劃在Stoica 那里開始博士后研究,專注于在高風險環境下評估人工智能。

      Chiang則同樣是在 Stoica 領導的天空計算實驗室研究分布式系統和深度學習框架,此前曾在谷歌研究、亞馬遜和微軟從事研究工作。

      目前,LMArena已經吸引了數百萬參與者,截至2025年4月,已記錄超過300萬次比較,評估了400多個模型,其中包括商業化的GPT-4、Gemini、Bard以及開放權重的Llama和Mistral模型,很大程度幫助了用戶以及企業理解這些模型的能力和局限性。

      通常而言,大模型是基于互聯網上開放的可用數據進行訓練的,而大多數大模型基準測試也都是靜態的。如果模型通過“記憶”污染數據就能在基準測試上獲得高分,那么大模型的研發團隊可能會過度優化模型以擬合這些有缺陷的指標,而非提升其實用性和解決真實世界問題的能力。這就像學生為了應付考試而死記硬背,卻忽略了真正理解知識。

      所以,LMArena利用實時評估來緩解這個問題,通過持續不斷地收到來自真實用戶的新反饋來進行修正。這些反饋會被梳理成開放的排行榜和技術文章,為大模型的性能提供重要意見,指導LLM的改進和持續開發。此外,LMArena還與開源和商業模型供應商合作,將他們的最新模型投放到平臺社區進行預測試,使得這些模型在正式發布前可以進行調整。

      具體來看,其運作流程是通過用戶在LMArena上操作,就像是在一個類似豆包、Chatgpt等生成式人工智能平臺。用戶可以提出問題,平臺則通過大模型生成兩個不同風格或者版本的答案,用戶可以在答案下方的反饋區對更偏好的答案進行選擇“左邊更好”、“右邊更好”、“平局”、“都不好”。



      圖:Chatbot Arena界面

      但是這樣的一個平臺,在人工智能領域似乎“技術含量”并不高。它靠什么一年內完成兩輪融資躍升為估值17億美元的獨角獸?



      做人工智能領域的評估者

      在人工智能應用滲透進日常生活的時代里,如果說AI本身的運行性能決定了它能跑多快,那它生產出來的內容是否值得被信賴,則決定了它能走多遠。

      “這就是我們為什么投LMArena的理由”,位于硅谷的著名風險投資基金 a16z合伙人Anjney Midha說到。LMArena的兩輪融資中都有a16z的身影。

      在Anjney Midha看來,當模型變得足夠可靠,無疑會給各行各業帶來顛覆性的效果。比如醫院可以信任大模型的診斷結果、法院也可以信任大模型的分析裁判結果。而目前政府機構也已經開始參與到可靠性的人工智能領域中來,受監管的行業也在試點部署。

      所以,行業的需求信號已然很清晰——對于要運行重要領域內容的人工智能而言,中立客觀的評估必不可少。

      而這樣的需求便是一個巨大的機會。如果大模型的“實戰檢驗”未來可以成為人工智能領域的權威認證,那么LMArena目前已經構建的規模最大、基于人工智能輸出的人類偏好實時數據集,則無疑將成為其在人工智能評估領域的先發優勢。

      投資人的錢總會流向更可能帶來更大回報的項目。LMArena最近的A輪融資,由知名的風投機構Felicis Venture和UC Investments(加州大學投資部門)共同牽頭,a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners和Laude Ventures也參與其中。

      而在去年5月份的種子輪融資中,該公司籌集了1億美元,由a16z和UC Investments領投。





      “AI測評生意”夠可靠嗎?

      目前,市場上對大模型做測評的企業數量并不少。從測評榜單這種形式來看,AI大模型排行榜呈現出“各司其職”的多元格局,每家有自身的特色。

      LMArena被譽為業內的“黃金標準”或“人氣榜”,其核心在于利用用戶參與這種眾包形式,人類主觀偏好明顯。它采用匿名雙盲測試,讓用戶在不知模型身份的情況下對話并投票,再通過類似國際象棋的Elo系統進行排名。這種方法最直接地反映了各個模型的綜合用戶體驗和對話流暢度,但可能更偏愛回答風格“討喜”的模型。

      與之形成鮮明對比的是由學術界推動的LiveBench,其背后平臺由圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun) 聯合Abacus.AI、紐約大學等機構共同推出的。Abacus.AI 是一家人工智能及機器學習研究商,它幫助LiveBench成長為一個每月更新的“防作弊系統”。其排名依據全部來自最新的數學競賽、Kaggle數據集或arXiv論文,且有標準答案,旨在從根本上杜絕模型通過記憶舊數據“刷分”,專門檢驗模型在陌生問題上的真實推理和泛化能力,因此被視作衡量LLM模型“硬實力”的試金石。

      此外, OpenRouter Rankings直接基于平臺上的實際API調用量進行排名。OpenRouter的商業模式可以概括為“聚合調度+增值服務”。它本身不研發模型,而是作為一個中間層,整合了來自60多家供應商的400多個AI大模型(包括OpenAI、Google、Anthropic等主流廠商以及眾多開源模型),然后通過統一的API向開發者提供服務,收取5%-5.5%的服務費 。其發布的模型用量排行榜在開發者和投資圈內也備受關注。



      除了這些美國企業開發運營的國際榜單,還有像OpenCompass(上海人工智能實驗室2023年12月開源)、SuperCLUE這樣的國內榜單,它們重點關注模型在中文理解、文化背景及符合國內法規方面的能力,為本土化應用提供了關鍵參考。但是這些榜單大多是由政府研究機構和高校和在線社區主導,相對而言,中國在對LLM大模型評測方面的商業化程度較為空白。

      回到LMArena本身的運作模式來看,其測評內容的可靠性其實本身也有諸多爭議。

      美國的數據標注公司Surge AI質疑LMArena的運作,稱其完全依賴于不受控制的志愿者在平臺上進行的游戲化勞動——隨機的互聯網用戶花兩秒鐘快速瀏覽一下,然后點擊他們最喜歡的答案。而實際上,這些用戶自身并沒有任何動力去認真思考作答。沒有質量控制下的大模型系統打分能做到準確有效嗎?

      比如,針對一個關于蛋糕模具的數學問題,LMArena生成了兩個答案供用戶選擇。但最后,用戶投票支持了一個數學上不正確的答案,因為這個答案看起來似乎“更合理”。



      圖:LMArena的投票者獎勵錯誤的數學計算

      而LMArena的領導層也曾在公開場合談到,他們采用了各種方法來克服用戶輸入數據質量低下的問題。他們承認,用戶更喜歡大模型生成的帶有表情符號和冗長的內容,而不是實質性高質量的內容。所以這種測評模式很可能無法真正篩選出能生產高質答案的大模型。

      LMArena此輪融資雖猛,但是當潮水褪去,是否能留在牌桌上,還有待時間觀察。

      本文為創業邦原創,未經授權不得轉載,否則創業邦將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯系editor@cyzone.cn。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國股市:如果接下來迎來牛市,就買這種股票,幾乎吃掉所有利潤

      中國股市:如果接下來迎來牛市,就買這種股票,幾乎吃掉所有利潤

      股經縱橫談
      2026-01-12 16:17:21
      特朗普要強搶格陵蘭,中國安心當個好觀眾,誰輸誰贏對咱都是好事

      特朗普要強搶格陵蘭,中國安心當個好觀眾,誰輸誰贏對咱都是好事

      這班我上夠了
      2026-01-12 19:40:03
      事件升級!閆學晶徹底涼涼,官媒下場、資本表態,趙本山沒說錯

      事件升級!閆學晶徹底涼涼,官媒下場、資本表態,趙本山沒說錯

      民間平哥
      2026-01-12 20:18:45
      她長得漂亮,演技好,父母卻一個癱瘓,一個截肢,丈夫將她寵成寶

      她長得漂亮,演技好,父母卻一個癱瘓,一個截肢,丈夫將她寵成寶

      阿訊說天下
      2026-01-02 12:50:06
      皇馬9000萬紅星破防 目睹巴薩奪冠怒踢水瓶泄憤 狼狽滑倒看呆隊友

      皇馬9000萬紅星破防 目睹巴薩奪冠怒踢水瓶泄憤 狼狽滑倒看呆隊友

      我愛英超
      2026-01-12 07:53:47
      日本發現海量稀土,部分稀土儲量可供全球使用700多年,今日試采

      日本發現海量稀土,部分稀土儲量可供全球使用700多年,今日試采

      藍色海邊
      2026-01-12 01:18:11
      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      查爾菲的筆記
      2026-01-09 22:17:44
      不踢傳控的安東尼奧絕對肚里有貨,中國U23丑陋贏球背后其實是“看菜下飯”

      不踢傳控的安東尼奧絕對肚里有貨,中國U23丑陋贏球背后其實是“看菜下飯”

      上觀新聞
      2026-01-11 22:14:10
      曝庫皮揚斯克數百俄軍被包圍后投降!烏軍摧毀俄羅斯軍船

      曝庫皮揚斯克數百俄軍被包圍后投降!烏軍摧毀俄羅斯軍船

      項鵬飛
      2026-01-10 20:46:46
      今天股市相當不對勁!不出意外的話,2020年行情或將會再次重演?

      今天股市相當不對勁!不出意外的話,2020年行情或將會再次重演?

      股市皆大事
      2026-01-12 17:18:46
      不顧央視警告頂風作案,與劉濤傳出緋聞的楊爍,如今又被央視點名

      不顧央視警告頂風作案,與劉濤傳出緋聞的楊爍,如今又被央視點名

      付老師種植技術團隊
      2026-01-12 20:08:51
      抗癌歸來的馮提莫,力挺“直播禁美顏”,素顏后惡心的一幕上演了

      抗癌歸來的馮提莫,力挺“直播禁美顏”,素顏后惡心的一幕上演了

      跳跳歷史
      2026-01-09 11:32:07
      鮑姆格特納失蹤次日 俄駐塞外交官辦公室身亡 使館拒警方調查

      鮑姆格特納失蹤次日 俄駐塞外交官辦公室身亡 使館拒警方調查

      老馬拉車莫少裝
      2026-01-12 20:12:31
      以前沒人要,現在越來越香!盤點CBA本賽季3大CUBA球員

      以前沒人要,現在越來越香!盤點CBA本賽季3大CUBA球員

      男足的小球童
      2026-01-12 20:04:54
      特斯拉一員工建議員工加班,被全票通過立即開除,終身拉黑

      特斯拉一員工建議員工加班,被全票通過立即開除,終身拉黑

      歷史總在押韻
      2026-01-11 15:12:47
      1979年泰國的街頭,25歲的成龍和24歲的林青霞留下了珍貴的合照

      1979年泰國的街頭,25歲的成龍和24歲的林青霞留下了珍貴的合照

      動物奇奇怪怪
      2025-12-30 05:01:40
      男子向碗里放腋毛“碰瓷”餐館被行拘罰款,市監局上門調查順便查出其他小問題店方被罰200元,店主打算轉讓門店

      男子向碗里放腋毛“碰瓷”餐館被行拘罰款,市監局上門調查順便查出其他小問題店方被罰200元,店主打算轉讓門店

      極目新聞
      2025-11-23 13:50:59
      閆學晶兒子道歉:“娘的錯,兒子擔!感謝大家的監督批評!我們錯了”

      閆學晶兒子道歉:“娘的錯,兒子擔!感謝大家的監督批評!我們錯了”

      極目新聞
      2026-01-12 13:54:18
      慈禧人生最后一天:上午處理光緒的后事,下午刪改遺詔穿上了壽衣

      慈禧人生最后一天:上午處理光緒的后事,下午刪改遺詔穿上了壽衣

      銘記歷史呀
      2026-01-12 15:12:59
      CBA最新消息!曝上海男籃裁掉弗格,趙繼偉正式復出

      CBA最新消息!曝上海男籃裁掉弗格,趙繼偉正式復出

      體壇瞎白話
      2026-01-12 10:32:51
      2026-01-12 20:59:00
      創業邦 incentive-icons
      創業邦
      關注創新經濟及其推動者。
      15728文章數 112000關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

      頭條要聞

      女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

      體育要聞

      聰明的球員,不是教練教出來的

      娛樂要聞

      蔡少芬結婚18周年,與張晉過二人世界

      財經要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      本地
      健康
      房產
      數碼
      公開課

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      血常規3項異常,是身體警報!

      房產要聞

      重磅調規!417畝商改住+教育地塊!海口西海岸又要爆發!

      數碼要聞

      2026年全球顯示器預計出貨約1.28億臺 100Hz成主流

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色道| 国产第一区二区三区精品| 亚洲成亚洲成网| 黄页网站视频| 国产成人午夜在线视频极速观看| 国产95在线 | 欧美| 久久久久青草线蕉亚洲| 成人超碰最大网站| 亚州成人在线| 色婷婷AV一区二区三区软件| 5月丁香,6月综合| 南昌市| 国产成人av免费观看| 日本午夜精品一区二区三区电影 | 亚洲国产韩国欧美在线| 91资源在线| 亚洲日韩AV无码专区影院| h国产小视频福利在线观看| 亚州色综合| 精品人妻午夜一区二区三区四区| 55夜色66夜色国产精品视频| 狠狠?亚洲?一区| 国产av一区二区三区日韩| 欧美亚洲另类制服卡通动漫| 久久国模| 黄又色又污又爽又高潮| 亚洲精品成人久久久| 日韩人妻无码精品无码中文字幕 | 雅江县| 18禁网站在线| 久久无码精品精品古装毛片| 一本久久伊人热热精品中文字幕| 精品无码人妻一区二区三区| 91久久性奴调教国产免费| 91精彩视频| 精品成人毛片一区二区| 九九久久自然熟的香蕉图片| 激情人妻综合| 一女被多男玩喷潮视频| 毛片内射久久久一区| 成人精品三级在线观看|