首個由投資機構打造的 AI 基準測試
01
紅杉中國推出全新AI基準測試xbench
5 月 26 日,據媒體報道,紅杉中國宣布推出全新的 AI 基準測試 xbench,并發布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。據悉,這是首個由投資機構發起,聯合國內外十余家頂尖高校和研究機構的數十位博士研究生,采用雙軌評估體系和長青評估機制的 AI 基準測試。xbench 將在評估和推動 AI 系統能力提升上限與技術邊界的同時,重點量化 AI 系統在真實場景的效用價值,并長期捕捉 Agent 產品的關鍵突破。
xbench 基準測試具有以下特點:采用雙軌評估體系,構建多維度測評數據集,旨在同時追蹤模型的理論能力上限與 Agent 的實際落地價值。該體系創新性地將評測任務分為兩條互補的主線:一是評估 AI 系統的能力上限與技術邊界;二是量化 AI 系統在真實場景的效用價值。其中,后者需要動態對齊現實世界的應用需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業務價值的測評標準。
同時,xbench 采用長青評估機制,通過持續維護并動態更新測試內容,以確保時效性和相關性。紅杉中國將定期測評市場主流 Agent 產品,跟蹤模型能力演進,捕捉 Agent 產品迭代過程中的關鍵突破,進而預測下一個 Agent 應用的技術 - 市場契合點。作為獨立第三方,其致力于為每類產品設計公允的評估環境,提供客觀且可復現的評價結果。
首期發布包含兩個核心評估集:科學問題解答測評集(xbench-ScienceQA)與中文互聯網深度搜索測評集(xbench-DeepSearch),并對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論,并構建了面向招聘和營銷領域的垂類 Agent 評測框架。
在過去兩年多的時間里,xbench 一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具,如今紅杉中國將其公開并貢獻給整個 AI 社區。無論是基礎模型和 Agent 的開發者,還是相關領域的專家和企業,抑或是對 AI 評測具有濃厚興趣的研究者,都可加入,成為使用并完善 xbench 的一份子,共同打造評估 AI 能力的新范式。
02
海光信息擬合并中科曙光
5月25日晚間,中科曙光(603019)與海光信息(688041)同時發布《關于籌劃重大資產重組的停牌公告》,宣布為搶抓信息技術產業新機遇,促進產業鏈整合和高質量發展,海光信息正籌劃通過向中科曙光全體A股股東發行股票的方式,實施換股吸收合并中科曙光,并同步募集配套資金。
根據公告,5月25日,海光信息與中科曙光簽署《吸收合并意向協議》,就此次重組作出若干原則性約定。此次重組及正式交易文件需提交雙方各自董事會、股東會審議,并經有權監管機構批準后方可正式實施。
截至2025年一季度末,中科曙光為海光信息的第一大股東,持股比例達27.96%。截至5月23日,兩家公司市值合計超4000億元。其中,中科曙光市值為905.72億元,海光信息市值為3164.12億元。2021年至2024年,兩公司凈利潤均保持持續增長,2024年凈利潤均突破19億元。
公開資料顯示,中科曙光隸屬計算機行業,海光信息隸屬電子行業(申萬二級半導體行業),根據公告,兩家公司股票于5月26日開市起停牌。
03
BOSS直聘2025年Q1財報:收入、利潤穩健增長
5月22日美股盤前,BOSS直聘(NASDAQ:BZ,HK:2076)公布了2025年第一季度財報。報告期內,公司積極開拓增量市場,服務用戶規模持續擴大,營收與盈利均實現穩健增長,經營效率顯著提升,同時AI技術在多場景落地應用,進一步鞏固了其在人力資源服務領域的領先地位。
財報數據顯示,2025年第一季度,BOSS直聘營收達19.23億元,同比增長12.9%;凈利潤為5.12億元,同比大幅上漲111.9%。不考慮理財等其他收益,公司第一季度經調整后營業利潤為6.9億元。截至2025年3月31日止的十二個月內,公司付費企業客戶數達到640萬,同比上漲12.3%。
在用戶規模方面,2025年第一季度,BOSS直聘平均月活躍用戶數(MAU)為5760萬,同比上漲23.6%;2025年1 - 4月公司累計新增完善用戶超過1500萬。春節后至今,單個用戶的達成數量(即求職招聘收獲)同環比均保持上漲態勢。
![]()
BOSS直聘的收入增長主要得益于用戶增長和滲透率的提升。第一季度,新增用戶中藍領群體占比超過45%,帶動藍領收入占比提升至超過39%;三線及以下城市收入貢獻同比提升3個百分點至超過23%;小微企業(雇員規模在100人以下企業)收入占比創同期歷史新高。
從企業端招聘需求來看,春節以來企業招聘需求保持恢復態勢,1 - 4月平均新增發布職位數同比增長17%。其中,以餐飲、零售等為代表的服務業藍領招聘需求四月以來環比持續回暖,制造業招聘四月在線職位數同比保持增長;白領招聘需求也呈現企穩回升的態勢,廣告、專業服務、互聯網、金融、汽車等行業同比增速領跑。
在成本優化方面,公司在保障用戶服務水平、保持用戶規模持續增長的前提下,積極控制各項費用支出。2025年第一季度,公司銷售和營銷費用同比下降15%,市場投放效率持續提高,這得益于品牌效應與雙邊網絡效應的雙重作用。同時,研發費用同比下降9%,一般和行政費用同比下降2%,相關費用的控制不僅源于公司自身的努力,還得益于AI大模型應用在內部管理、安全審核等多個環節帶來的提質提效。
近期,納斯達克中國金龍指數較4月低點回調超過20%,而BOSS直聘同期上漲幅度超過35%,跑贏中概大盤。這反映出資本市場對中國人力資源服務市場以及AI大模型在人力資源服務行業應用的樂觀預期。
多個機構研報指出,人力資源服務市場在中長期仍有充足的動能。2025年招聘市場延續了2024年底以來的復蘇態勢,且AI技術能夠提供“低成本、高質量定制服務”,在招聘流程的各個環節具有廣闊的應用價值。
值得一提的是,大摩發布的“中國AI 60”榜單中,BOSS直聘作為“互聯網/軟件”類型代表上榜,凸顯了其在AI應用方面的領先地位。此外,高盛、巴克萊、杰富瑞集團等券商對BOSS直聘持買入/增持評級。2025年年初至今,多家知名資金繼續增持/建倉BOSS直聘,其中Capital Group(資本集團)增持逾4000萬股,Ballie Gifford(柏基投資)建倉并持有700余萬股,Schroders(施羅德投資)、BlackRock(貝萊德集團)、T. Rowe(普信集團)繼續增持,頭部科技類基金Ward Fery和CoreView也繼續加倉。
2025年第一季度,BOSS直聘繼續以DeepSeek - R1與自研“南北閣”模型為基礎,深化AI技術在業務場景下的應用,擴大AI用戶測試規模和滲透率。
在招聘端,結合雇主個性化訴求,平臺主動向雇主推薦合適候選人的AI agent服務有效提升了匹配精準度,使用了該功能的招聘者達成效率提升25%。管理層在電話會中表示,在招聘機器人的能力建設上沒有設限,但在使用時間、范圍和條件上保持謹慎。
在求職端,AI工具能夠結合求職者具體情況和求職期望,在搜索、模擬面試等場景為求職者提供個性化服務。目前,AI模擬面試工具已對學生用戶和工作三年內的求職者全量開放,提供的問題會根據用戶背景與求職期望針對性設置。
同期,BOSS直聘南北閣實驗室科研團隊在大模型知識融合、多Agent智能體協作等方向的科研工作被人工智能及數據挖掘領域的KDD2025、ACL2025、ICLR2025等國際頂級學術會議接收,進一步彰顯了公司在AI技術研發方面的實力。
另外,第一季度,BOSS直聘持續投入優化藍領、學生等重點人群的找工作體驗。
在藍領方面,公司繼續擴大“朋友圈”,讓真實誠信的招聘方獲得更多收獲。第一季度,“海螺優選”入駐企業數、在線職位數、覆蓋求職者數等指標繼續保持同環比穩健增長。產品團隊還持續優化“地圖找工作”功能,服務好以藍領為代表更關注通勤時間的求職者。該功能當前每日覆蓋百萬級求職者,使用功能的求職者可以清晰了解家附近崗位、薪資待遇及不同交通方式所需時間。此外,“極速約面”功能的上線,使服務業、生產制造業行業的求職者從開聊到接到面試的時間縮短到秒級。
在學生方面,剛剛過去的春招季,BOSS直聘昂揚春招節開設含18場區域及行業校招專場,累計為學生提供數十萬校招崗位。產運團隊還升級了求職“探照燈”計劃,從求職途徑、機會、策略等方面為同學們提供切實有效的支持。值得一提的是,AI工具在學生就業服務上已展現價值,春招期間為學生推薦了超過10萬個崗位,還會為用戶生成涵蓋適配度分析、優化建議、溝通策略等維度的“定制化求職報告”,并針對學生簡歷修改、面試問答中的具體問題開展解答。
04
百度Q1總營收325億元超預期
5月21日晚間,百度發布2025年第一季度財報,顯示一季度總營收達325億元,百度核心營收255億元,同比增長7%,均超市場預期。一季度,百度核心凈利潤同比增48%至76.3億元,智能云持續強勁增長,同比增速達42%。
![]()
“智能云業務表現強勁,凸顯市場對我們提供高性價比全棧AI產品及解決方案這一獨特優勢的認可度與日俱增。我們的無人駕駛出行服務也取得關鍵進展,蘿卜快跑已拓展全球市場,進入迪拜和阿布扎比,彰顯了我們為全球市場提供安全、舒適和便捷無人駕駛出行服務的決心。”百度創始人李彥宏表示,“我們相信,AI-first戰略使我們能保持領先地位,在AI時代抓住長期增長機會。”
近期,百度連續發布多款性能強大的文心大模型。3月,百度首個多模態基礎大模型文心4.5,及首個推理模型文心X1正式上線;4月,百度推出增強版文心4.5 Turbo和文心X1 Turbo,性能更強、價格更低。
據悉,文心4.5 Turbo速度更快,價格相比文心4.5下降80%,每百萬token的輸入價格僅為0.8元,輸出價格3.2元;文心大模型X1 Turbo具備更先進的思維鏈,問答、創作、邏輯推理、工具調用和多模態能力進一步增強,相比文心X1,性能提升的同時價格下降50%,每百萬token輸入價格1元,輸出價格4元。
季度內,百度智能云千帆大模型平臺升級,增加擴展的模型庫和更全面的工具鏈,支持多模態模型和深度思考模型的訓練、精調,進一步促進AI應用的開發。
無人駕駛方面,截至2025年5月,蘿卜快跑在全球累計提供超1100萬次的出行服務。今年一季度,蘿卜快跑在全球提供超140萬次出行服務,同比增長75%。
一季度,蘿卜快跑全球化加速,進入迪拜和阿布扎比。目前,蘿卜快跑已在迪拜開啟公開道路驗證測試;在香港的測試區域也得到進一步擴大。此外,Apollo與神州租車達成戰略合作,將共同打造全球首個自動駕駛汽車租賃服務。
財報顯示,3月,百度APP月活用戶達7.24億,同比增長7%。4月28日,百度發布年度ESG報告,詳細介紹了百度最新的ESG政策和可持續發展舉措(
https://esg.baidu.com/Uploads/Baidu_
)。
05
叮咚買菜啟動變革:聚焦“4G”戰略,借AI重構健康消費生態
近日,叮咚買菜創始人兼CEO梁昌霖在Q1財報電話會上透露,公司已開啟自內而外的變革,并取得階段性成果。自2025年年初起,叮咚買菜圍繞“好用戶、好商品、好服務、好心智”(4G)核心戰略,推動一系列調整,系統性提升站內商品品質與差異化,在激烈的市場競爭中探尋新的增長路徑。
為落實“4G”戰略,叮咚買菜在內部啟動組織架構調整,將業務重心聚焦于打造好商品。公司自上而下解構原有商品開發中心,重組為10個獨立事業部,涵蓋商品開發、運營、品控等核心部門,由10位核心高管分別牽頭負責。這一調整旨在打破經驗主義束縛,促使商品開發人員深入理解商品,開發出更具差異化的優質產品。
與此同時,叮咚買菜計劃于今年5月完成APP端的全面改版。首頁新增“品質之愛”專區,并上線“AI飲食管家”、AI大模型搜索等新功能。此次改版旨在通過產品端引導品質消費趨勢,強化叮咚買菜在高品質飲食領域的用戶心智。
叮咚買菜始終將食品品質與安全視為行業核心需求,認為純低價競爭會損害消費者信任,影響全產業鏈健康發展。基于此,公司于年初正式進入“4G”時代,并在內部進行深度調整。
目前,“品質之愛”專區已設置7大板塊,包括尋味中國、有機匯、低GI、寶媽嚴選、配料干凈、減脂、澳洲直達。其中,寶媽嚴選、有機匯、配料干凈三個板塊為叮咚買菜自2021年起針對兒童食品、有機食品和清潔標簽食品需求打造的成熟專區,擁有完善的商品篩選與開發機制。以“配料干凈”板塊為例,經過多年積累,在架商品數量已達550余款,圍繞“配料表革命”建立起的行業話語權,正成為叮咚買菜獨特的心智壁壘。
尋味中國、低GI、減脂、澳洲直達為新增板塊,叮咚買菜將根據時令、風味、特色、健康化等需求進行全方位商品開發,力求在每個品類做到“一寸窄,一公里深”,深度滿足多樣化消費需求。針對低GI這一細分健康消費趨勢,公司新成立低GI項目組,計劃年內推出超100款低GI健康食品,并積極參與低GI標準制定及生活方式推廣,推動行業發展。
值得注意的是,在新的APP版本中,數字化與AI技術發揮更為重要的作用。長期以來,叮咚買菜重視數字化能力建設,通過算法驅動業務。此次升級中,AI從供應鏈效率工具轉變為重塑消費生態的關鍵因素。
5月初,叮咚買菜上線AI智能飲食管家,構建起健康消費閉環。用戶查詢商品時,AI不僅能推薦菜譜,還能根據體檢數據提供營養建議;語音交互系統方便父母在帶娃時定制健康餐;商品過期提醒功能延伸至售后服務場景。AI智能管家支持全屏和浮層雙模式,首頁全屏模式可沉浸式體驗定制飲食計劃,詳情頁浮層模式可快速答疑,不打斷購物流程。
在新版APP上,低GI食品推薦與“AI飲食管家”的控糖方案相結合,澳洲直達的牛排配有烹飪教程視頻,每個品質專區形成“商品+服務+內容”的多重體驗。目前,相關功能尚在摸索與測試階段,未來叮咚買菜將不斷優化AI功能應用細節,推出更多實用性更強的APP內容。這種潛移默化的健康引導,將平臺從單純的購買渠道升級為飲食管理助手,引導用戶養成健康生活方式。
此外,為筑牢品質護城河,增強用戶信任,叮咚買菜正在開發“求真溯源智能系統”。該系統不僅能展示商品全鏈路信息,還將用于商品認證存證。未來,消費者掃描一顆云南藍莓,即可查看其生長期間的施肥記錄、質檢報告,甚至分揀車間的工作視頻。在食品安全備受關注的當下,這種極致透明化將有助于企業加強與用戶的信任關系。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.