<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      給大模型排名次,兩個博士一年干出120億獨角獸

      0
      分享至



      作者丨漫地

      編輯丨關雎

      頭圖丨Angelopoulos(右)Chiang(左)

      最近,美國加州大學伯克利分校(UC Berkeley)學術研究項目孵化出的創業公司LMArena,成為了估值17億美元(約人民幣120億元)的獨角獸。而它僅僅成立一年。

      其憑借構建的全球最大規模的用戶偏好大模型實時數據集,來滿足市場對AI可靠性評估的迫切需求,而這也讓LMArena在資本市場上獲得高度認可。

      在短短一年時間內,LMArena完成了由Andreessen Horowitz(a16z)、Felicis Ventures等頂尖風投領投的兩輪融資,包括種子輪1億美元,A輪1.5億美元的資金。

      然而,其商業模式的可靠性正面臨爭議。一個搞AI測評的初創公司,憑什么躍升成為獨角獸?





      學術機構里跑出來的創業公司

      LMArena脫胎于大型模型系統組織(Large Model Systems,LMSYS )。該組織起源于2023年,由加州大學伯克利分校、斯坦福大學、加州大學圣地亞哥分校、卡內基梅隆大學等多所大學合作發起。它于2024年9月注冊為非營利性公司,旨在孵化早期開源和研究項目。

      也是在2023年,一起在加州大學伯克利分校電子工程與計算機科學系攻讀博士學位的Anastasios N. Angelopoulos和Wei?Lin Chiang,受LMSYS資助,創立了Chatbot Arena,這即為LMArena的前身。

      作為一個學術附屬項目,Chatbot Arena擁有一個較為純粹的初心:構建一個公開透明的評估平臺,它能夠真正地反映大型語言模型在現實世界中的應用情況。

      大家都知道,我們日常使用的生成式人工智能所依托的大模型需要不斷地被訓練,而人們在使用過程中真實的使用體驗和建議,可以最大程度地幫助大模型提升回答質量?!澳男┤斯ぶ悄苣P蛯ξ襾碚f最好用?” 作為用戶,你也許也有這樣的疑惑。

      2023年5月,Chatbot Arena被正式推出。Chatbot Arena平臺上會展示不同人工智能對同一問題的回答,每個用戶都可以通過匿名的方式選擇自己更喜歡的答案,對不同的人工智能模型進行投票。

      2025年1月,Chatbot Arena注冊為商業化實體LMArena,由Anastasios N. Angelopoulos任首席執行官、Wei?Lin Chiang任首席技術官,Ion Stoica是聯合創始人兼顧問。



      Ion Stoica(左)Angelopoulos(中)Chiang(右)

      三個人可謂強強聯合。

      Ion Stoica是UC伯克利大學的計算機系教授,同時領導著該校的天空計算實驗室((SkyLab)。他還是位連續創業者,先后參與創辦了Anyscale、Databricks、Conviva Networks等公司。

      Angelopoulos 對于可信賴的人工智能系統、黑箱決策和醫療機器學習方面的研究頗深,他曾在谷歌 DeepMind 擔任學生研究員,并計劃在Stoica 那里開始博士后研究,專注于在高風險環境下評估人工智能。

      Chiang則同樣是在 Stoica 領導的天空計算實驗室研究分布式系統和深度學習框架,此前曾在谷歌研究、亞馬遜和微軟從事研究工作。

      目前,LMArena已經吸引了數百萬參與者,截至2025年4月,已記錄超過300萬次比較,評估了400多個模型,其中包括商業化的GPT-4、Gemini、Bard以及開放權重的Llama和Mistral模型,很大程度幫助了用戶以及企業理解這些模型的能力和局限性。

      通常而言,大模型是基于互聯網上開放的可用數據進行訓練的,而大多數大模型基準測試也都是靜態的。如果模型通過“記憶”污染數據就能在基準測試上獲得高分,那么大模型的研發團隊可能會過度優化模型以擬合這些有缺陷的指標,而非提升其實用性和解決真實世界問題的能力。這就像學生為了應付考試而死記硬背,卻忽略了真正理解知識。

      所以,LMArena利用實時評估來緩解這個問題,通過持續不斷地收到來自真實用戶的新反饋來進行修正。這些反饋會被梳理成開放的排行榜和技術文章,為大模型的性能提供重要意見,指導LLM的改進和持續開發。此外,LMArena還與開源和商業模型供應商合作,將他們的最新模型投放到平臺社區進行預測試,使得這些模型在正式發布前可以進行調整。

      具體來看,其運作流程是通過用戶在LMArena上操作,就像是在一個類似豆包、Chatgpt等生成式人工智能平臺。用戶可以提出問題,平臺則通過大模型生成兩個不同風格或者版本的答案,用戶可以在答案下方的反饋區對更偏好的答案進行選擇“左邊更好”、“右邊更好”、“平局”、“都不好”。



      圖:Chatbot Arena界面

      但是這樣的一個平臺,在人工智能領域似乎“技術含量”并不高。它靠什么一年內完成兩輪融資躍升為估值17億美元的獨角獸?



      做人工智能領域的評估者

      在人工智能應用滲透進日常生活的時代里,如果說AI本身的運行性能決定了它能跑多快,那它生產出來的內容是否值得被信賴,則決定了它能走多遠。

      “這就是我們為什么投LMArena的理由”,位于硅谷的著名風險投資基金 a16z合伙人Anjney Midha說到。LMArena的兩輪融資中都有a16z的身影。

      在Anjney Midha看來,當模型變得足夠可靠,無疑會給各行各業帶來顛覆性的效果。比如醫院可以信任大模型的診斷結果、法院也可以信任大模型的分析裁判結果。而目前政府機構也已經開始參與到可靠性的人工智能領域中來,受監管的行業也在試點部署。

      所以,行業的需求信號已然很清晰——對于要運行重要領域內容的人工智能而言,中立客觀的評估必不可少。

      而這樣的需求便是一個巨大的機會。如果大模型的“實戰檢驗”未來可以成為人工智能領域的權威認證,那么LMArena目前已經構建的規模最大、基于人工智能輸出的人類偏好實時數據集,則無疑將成為其在人工智能評估領域的先發優勢。

      投資人的錢總會流向更可能帶來更大回報的項目。LMArena最近的A輪融資,由知名的風投機構Felicis Venture和UC Investments(加州大學投資部門)共同牽頭,a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners和Laude Ventures也參與其中。

      而在去年5月份的種子輪融資中,該公司籌集了1億美元,由a16z和UC Investments領投。





      “AI測評生意”夠可靠嗎?

      目前,市場上對大模型做測評的企業數量并不少。從測評榜單這種形式來看,AI大模型排行榜呈現出“各司其職”的多元格局,每家有自身的特色。

      LMArena被譽為業內的“黃金標準”或“人氣榜”,其核心在于利用用戶參與這種眾包形式,人類主觀偏好明顯。它采用匿名雙盲測試,讓用戶在不知模型身份的情況下對話并投票,再通過類似國際象棋的Elo系統進行排名。這種方法最直接地反映了各個模型的綜合用戶體驗和對話流暢度,但可能更偏愛回答風格“討喜”的模型。

      與之形成鮮明對比的是由學術界推動的LiveBench,其背后平臺由圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun) 聯合Abacus.AI、紐約大學等機構共同推出的。Abacus.AI 是一家人工智能及機器學習研究商,它幫助LiveBench成長為一個每月更新的“防作弊系統”。其排名依據全部來自最新的數學競賽、Kaggle數據集或arXiv論文,且有標準答案,旨在從根本上杜絕模型通過記憶舊數據“刷分”,專門檢驗模型在陌生問題上的真實推理和泛化能力,因此被視作衡量LLM模型“硬實力”的試金石。

      此外, OpenRouter Rankings直接基于平臺上的實際API調用量進行排名。OpenRouter的商業模式可以概括為“聚合調度+增值服務”。它本身不研發模型,而是作為一個中間層,整合了來自60多家供應商的400多個AI大模型(包括OpenAI、Google、Anthropic等主流廠商以及眾多開源模型),然后通過統一的API向開發者提供服務,收取5%-5.5%的服務費 。其發布的模型用量排行榜在開發者和投資圈內也備受關注。



      除了這些美國企業開發運營的國際榜單,還有像OpenCompass(上海人工智能實驗室2023年12月開源)、SuperCLUE這樣的國內榜單,它們重點關注模型在中文理解、文化背景及符合國內法規方面的能力,為本土化應用提供了關鍵參考。但是這些榜單大多是由政府研究機構和高校和在線社區主導,相對而言,中國在對LLM大模型評測方面的商業化程度較為空白。

      回到LMArena本身的運作模式來看,其測評內容的可靠性其實本身也有諸多爭議。

      美國的數據標注公司Surge AI質疑LMArena的運作,稱其完全依賴于不受控制的志愿者在平臺上進行的游戲化勞動——隨機的互聯網用戶花兩秒鐘快速瀏覽一下,然后點擊他們最喜歡的答案。而實際上,這些用戶自身并沒有任何動力去認真思考作答。沒有質量控制下的大模型系統打分能做到準確有效嗎?

      比如,針對一個關于蛋糕模具的數學問題,LMArena生成了兩個答案供用戶選擇。但最后,用戶投票支持了一個數學上不正確的答案,因為這個答案看起來似乎“更合理”。



      圖:LMArena的投票者獎勵錯誤的數學計算

      而LMArena的領導層也曾在公開場合談到,他們采用了各種方法來克服用戶輸入數據質量低下的問題。他們承認,用戶更喜歡大模型生成的帶有表情符號和冗長的內容,而不是實質性高質量的內容。所以這種測評模式很可能無法真正篩選出能生產高質答案的大模型。

      LMArena此輪融資雖猛,但是當潮水褪去,是否能留在牌桌上,還有待時間觀察。

      本文為創業邦原創,未經授權不得轉載,否則創業邦將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯系editor@cyzone.cn。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人到中年,什么讓你平靜,你就靠近什么

      人到中年,什么讓你平靜,你就靠近什么

      洞見
      2026-01-26 20:26:47
      2026年,殯葬迎來大改革,“死不起”將成歷史,這些費用全取消!

      2026年,殯葬迎來大改革,“死不起”將成歷史,這些費用全取消!

      夜深愛雜談
      2026-01-25 19:33:27
      航班大量取消!超市貨架被搶空!約7000人滯留機場,日本北海道遇罕見暴雪,數百名游客在地下通道過夜

      航班大量取消!超市貨架被搶空!約7000人滯留機場,日本北海道遇罕見暴雪,數百名游客在地下通道過夜

      每日經濟新聞
      2026-01-27 13:59:08
      做完手術人就廢了,這5種手術不需要做,別讓無知害了自己

      做完手術人就廢了,這5種手術不需要做,別讓無知害了自己

      華庭講美食
      2026-01-19 14:27:13
      騰訊宣布:春節發10億元現金!單個紅包最高達1萬元,可直接提現到微信

      騰訊宣布:春節發10億元現金!單個紅包最高達1萬元,可直接提現到微信

      每日經濟新聞
      2026-01-25 19:55:05
      太殘酷了!宇樹機器人春晚“下課”,成立不到3年的企業橫空出世

      太殘酷了!宇樹機器人春晚“下課”,成立不到3年的企業橫空出世

      火山詩話
      2026-01-27 10:54:08
      印度爆發尼帕病毒疫情,我們安全嗎?

      印度爆發尼帕病毒疫情,我們安全嗎?

      封面新聞
      2026-01-26 21:55:06
      武漢病毒研究所:發現對尼帕病毒有效藥物!印度暴發“人傳人”疫情,張文宏發聲;專家提醒:春節出行非必要不前往疫區

      武漢病毒研究所:發現對尼帕病毒有效藥物!印度暴發“人傳人”疫情,張文宏發聲;專家提醒:春節出行非必要不前往疫區

      每日經濟新聞
      2026-01-27 16:15:23
      一涉刑資產勞斯萊斯庫里南拍出528.6萬,高出評估價57.6萬元

      一涉刑資產勞斯萊斯庫里南拍出528.6萬,高出評估價57.6萬元

      極目新聞
      2026-01-27 17:24:56
      回國僅1天!中國隊功勛助練就離任,原因曝光,將聯手鄭智戰中超

      回國僅1天!中國隊功勛助練就離任,原因曝光,將聯手鄭智戰中超

      何老師呀
      2026-01-27 12:27:03
      總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

      總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

      小光侃娛樂
      2025-12-10 22:10:04
      伊朗平定內亂,中國電子戰設備幫了大忙,全球算是看明白了

      伊朗平定內亂,中國電子戰設備幫了大忙,全球算是看明白了

      胖福的小木屋
      2026-01-26 23:56:33
      訪華前,他為何說前幾任首相不去中國是失職?

      訪華前,他為何說前幾任首相不去中國是失職?

      新民周刊
      2026-01-27 09:08:46
      離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現實

      離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現實

      李健政觀察
      2026-01-25 19:40:23
      男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認識英文”

      男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認識英文”

      觀威海
      2026-01-27 17:18:20
      7家公司預警可能將被“*ST” 華夏幸福、億晶光電連續三個跌停

      7家公司預警可能將被“*ST” 華夏幸福、億晶光電連續三個跌停

      每日經濟新聞
      2026-01-27 19:17:39
      退臟衣女記者全網社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

      退臟衣女記者全網社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

      李健政觀察
      2026-01-26 09:33:07
      驚天大瓜,全民都在吃

      驚天大瓜,全民都在吃

      我是歷史其實挺有趣
      2026-01-27 18:21:33
      “殘障人士輪椅車隊”強闖西雙版納原始森林公園?景區:輪椅車系改裝,已安排車輛接送游玩

      “殘障人士輪椅車隊”強闖西雙版納原始森林公園?景區:輪椅車系改裝,已安排車輛接送游玩

      揚子晚報
      2026-01-27 20:06:30
      白銀瘋漲超150%,郎咸平熱評:只是一場針對中國的金融圍獵

      白銀瘋漲超150%,郎咸平熱評:只是一場針對中國的金融圍獵

      凡知
      2026-01-27 18:12:39
      2026-01-27 22:44:49
      創業邦 incentive-icons
      創業邦
      關注創新經濟及其推動者。
      15764文章數 112003關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      體大畢業生收費教人騎自行車800元1次 網友直呼"離譜"

      頭條要聞

      體大畢業生收費教人騎自行車800元1次 網友直呼"離譜"

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      時尚
      藝術
      房產
      手機
      公開課

      這些韓系穿搭最適合普通人!多穿深色、衣服基礎,簡潔耐看

      藝術要聞

      日本東京國立博物館中的100幅宋畫

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      手機要聞

      消息稱三星Galaxy S26 Ultra手機確認將采用真10bit屏幕

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版