文 | 智能紀元AGI,作者|林志佳
如果你經常關注AI領域新聞,可能已經感到信息過載:AI是淘金熱,AI是泡沫,AI會搶走你的工作,AI甚至連時間都看不懂等。
但就在4月14日凌晨,一年一度的美國斯坦福大學以人為本人工智能研究所《2026年人工智能指數》正式發布,全文共計423頁。這份報告將為你撥開迷霧,尋找新的方向。
![]()
報告封面圖
報告指出,AI技術的普及速度空前。過去三年,生成式AI滲透率已經達53%,快于個人電腦與互聯網;企業采用率88%,超80%大學生使用生成式AI。
同時,全球處于AI產業主導模型研發。2025年,行業產出超90%頂尖模型,OpenAI、谷歌、阿里為主要貢獻者,學術僅占1%。
對于中美AI技術差距,報告認為“基本抹平”,頂尖模型性能交替領先,截至2026年3月,美國模型僅比DeepSeek等中國模型領先2.7%。其中,中國在論文、專利、工業機器人裝機量領先,美國在頂級模型、高價值專利、投資領先。
![]()
算力層面,全球AI算力自2022年每年增長3.3倍,英偉達占60%以上份額。從訓練角度,美國擁有5427個數據中心,依然排名全球第一。
速度的提升并非沒有代價。如今,全球AI數據中心耗電量高達29.6吉瓦,足以滿足紐約州高峰期的用電需求。僅運行OpenAI的GPT-4o一年的用水量就可能超過1200萬人的飲用水需求。
數據顯示,AI技術的發展速度已經超過了我們的應對能力。
以下是今年報告中的一些要點:
美國和中國模型技術幾乎勢均力敵
這場曠日持久、競爭激烈的AI模型競賽中,中美兩國在AI模型性能方面幾乎不分伯仲。
斯坦福AI指數報告引述基準排名平臺Arena的數據顯示,2023年初,OpenAI的ChatGPT領先,但隨著谷歌和Anthropic發布各自的模型,這一差距在2024年逐漸縮小。
2025年2月,DeepSeek開發的AI模型R1一度與美國頂級模型ChatGPT 并駕齊驅。
截至2026年3月,Anthropic領先,xAI、谷歌和OpenAI緊隨其后。DeepSeek和阿里巴巴等中國模型僅略遜一籌,但美國模型僅領先2.7%。由于排名靠前的AI模型之間的差距微乎其微,它們現在的競爭主要集中在成本、可靠性和實際應用價值上。
![]()
該指數報告指出,美國和中國在AI領域擁有不同的優勢。
雖然美國擁有更強大的AI模型、更雄厚的資金以及約5427個數據中心(是其他任何國家的10倍以上),但中國在AI研究論文發表數量、專利數量和機器人技術方面均領先。
其中,在投資方面,2025年全球AI領域私人(風險)投資增速最快,達到127.5%,目前占總額的60%;而當中,生成式AI引領了這波增長,增速超過200%,占據了近一半的AI風險融資。新獲融資的AI公司數量增長了71%,十億美元級融資事件的數量幾乎翻了一番。
![]()
從地區角度看,預計到2025年,美國AI風險投資將達到2859億美元,是中國124億美元投資額的23倍多——盡管考慮到政府的指導性資金,僅看私人投資數據可能低估了中國在AI領域的總支出。
而且,美國在AI創業活動方面也處于領先地位,預計到2025年將有1953家新成立的AI公司獲得融資,是排名第二國家的10倍以上。
然而,自2017年以來的10年間,移居美國的頂尖AI人才(研究與開發人員)數量下降了89%,僅去年一年就下降了80%。
同時,中國在論文發表量、引用量和專利授權方面領先,授予的AI專利數(占世界總數百分比)高達74.24%;美國則擁有更高影響力的專利,并在2025年產生了50個值得關注的模型,而中國只有30個。
此外,韓國在人均AI專利方面領先,中國在引用量最高的100篇AI論文中的份額從2021年的33%增長到2024年的41%。
![]()
機器人技術層面,中國占全球工業機器人裝機量的54%,高于2023年的51.1%。全球同比增速持平,包括美國、德國和意大利在內的幾個主要市場出現下滑。
排名前5位的國家新安裝的工業機器人數量中,中國機器人企業以295項排名第一,遠超過日本、美國、韓國等。
![]()
隨著競爭加劇,OpenAI、Anthropic和谷歌等公司不再公開其訓練代碼、參數數量或數據集大小。
報告顯示,在2023年至2024年間,基礎模型透明度指數從37上升至58,但2025年平均得分下降至40。在訓練數據、計算資源和部署后影響等方面的披露仍然存在重大差距。
![]()
“我們對預測模型行為知之甚少,”南加州大學計算機科學家、該報告的合著者吉爾(Yolanda Gil)指出,這種缺乏透明度使得獨立研究人員難以研究如何使AI模型更安全。
不過,報告認為,頂尖AI模型參數數量三年來一直維持在1萬億左右,盡管前沿實驗室已停止發布相關數據。而訓練計算量(可以獨立估算)則持續增長。
其中,OLMo 3.1 Think 32B 的參數比 Grok 4 少了近 90 倍,僅通過修剪、去重和整理就在多個基準測試中取得了可比的結果。
![]()
另外,AI模型正在擴展到專業領域,在稅務、抵押貸款處理、公司財務和法律推理的評估中,其性能表現從60%到90%不等。而排名前15的模型在各項基準測試中性能差距僅為3個百分點。
![]()
其中在TaxEval v2準確率當中,國內的Kimi K2.5排名第一,達74.2%的準確率,高于OpenAI和Anthropic研發的一眾模型。
這類對性能和可靠性要求極高的領域,對AI模型而言仍然是巨大的挑戰。
AI模型發展速度極快,但測試AI基準的錯誤率高達42%
盡管有人預測AI模型的發展將會停滯不前,但它們卻不斷進步。在某些方面,它們在旨在衡量博士級科學、數學和語言理解能力的測試中,其表現已經達到甚至超過了人類專家。
報告顯示,SWE-bench Verified是一個針對AI模型的軟件工程基準測試,其最高得分從2024年的約60%躍升至2025年的近100%。2025 年,一個AI系統能夠獨立生成天氣預報。
吉爾說:“令我驚訝的是,這項技術還在不斷進步,而且絲毫沒有停滯不前的意思。”
![]()
然而,AI在許多其他領域仍然面臨挑戰。
由于人工智能模型是通過處理海量文本和圖像而非體驗物理世界來學習的,因此人工智能表現出“鋸齒狀智能”。機器人仍處于早期階段,僅能成功完成12%的家務任務;AI也在向法律和金融等專業領域拓展,但目前還沒有任何一種模型能夠完全主導這些領域。
自動駕駛汽車的發展則更為迅速:Waymo的自動駕駛汽車目前已在美國五個城市投入使用,百度的Apollo Go自動駕駛汽車也在中國為乘客提供出行服務。
而且,我們測試AI大模型技術的方式存在缺陷。
斯坦福大學的報告指出,用于追蹤AI進展的基準測試難以跟上模型快速突破極限的步伐。有些基準測試設計得很差——例如,一個常用的測試模型數學能力的基準測試,錯誤率高達42%。還有一些基準測試可以被操縱:例如,當模型使用基準測試數據進行訓練時,它們無需變得更聰明就能獲得高分。
如今,幾乎所有領先的前沿模型開發商都會報告其在MMLU和SWE-bench等能力基準測試中的結果,但關于負責任的 AI 基準測試的報告仍然很少。有記錄的AI事故持續上升,AI事故數據庫顯示,2025年的事故數量為362起,高于2024年的233起。
![]()
導致的后果之一是,在一項新的準確率基準測試中,26個頂級模型的幻覺率介于22%到94%之間。GPT-4o的準確率從98.2%下降到 64.4%,DeepSeek R1的準確率則從90%以上,下降到14.4%。
當錯誤陳述被呈現為他人所相信的內容時,模型能夠很好地處理。但當同樣的錯誤陳述被呈現為用戶所相信的內容時,模型的性能就會急劇下降。
![]()
由于AI的實際應用方式很少與測試方式相同,因此強大的基準測試性能并不總是能轉化為實際應用性能。而對于AI Agent和機器人等復雜的交互式技術,目前幾乎沒有相應的基準測試。
AI公司也越來越少地公開其模型的訓練方法,而獨立測試的結果有時與他們公布的信息截然不同。
“很多公司沒有公布其模型在某些基準測試中的表現,尤其是負責任AI基準測試,”吉爾說。“模型在基準測試中的表現缺失,或許說明了一些問題。”
AI開始影響就業
報告指出,生成式AI普及僅三年,全球已有超過半數人口使用生成式AI,其普及速度甚至超過了個人電腦和互聯網。
據估算,目前約有88%的機構和80%的大學生都在使用AI。
不過,AI的部署尚處于早期階段,其對就業的影響難以衡量。但一些研究表明,人工智能已經開始影響某些行業的年輕從業者。
斯坦福大學經濟學家在2025年的一項研究中指出,自2022年以來,22至25歲軟件開發人員的就業率下降了近20%。
雖然這種下降可能并非完全由AI造成,更廣泛的宏觀經濟環境也可能是原因之一,但AI似乎確實發揮了一定作用。
![]()
此外,隨著AI進展加速,招聘可能會持續收緊。
麥肯錫公司2025年的一項調查顯示,三分之一的企業預計人工智能將在未來一年縮減員工規模,尤其是在服務和供應鏈運營以及軟件工程領域。該指數引用的研究表明,AI在客戶服務領域將生產力提高了14%,在軟件開發領域提高了26%。
但在需要更多判斷的任務中,這種提升并不明顯。
總而言之,現在判斷AI更廣泛的經濟影響還為時尚早。
人們對AI抱有復雜情緒
對于AI的快速發展,世界各地的人們都表現出既樂觀又焦慮。
根據該指數報告引用的益普索調查,59%的人認為AI帶來的好處大于弊端,而52%的人表示AI讓他們感到緊張。
值得注意的是,皮尤研究中心的一項調查顯示,專家和公眾對人工智能的未來看法截然不同。
最大的分歧在于未來工作:73%的專家認為人工智能將對人們的工作方式產生積極影響,而只有23%的美國公眾認同這一觀點。
專家對AI在教育和醫療保健領域的影響也比公眾更為樂觀,但他們一致認為AI會對人際關系等一系列場景造成不利影響。
![]()
益普索的另一項調查顯示,在所有受訪國家中,美國對本國政府在AI監管方面的信任度最低。更多美國人擔心AI的監管力度不夠,而不是擔心監管力度過大。
對于青少年,報告顯示,超過80%的美國高中生和大學生現在使用AI完成與學習相關的任務,但只有一半的中學制定了AI政策,而且只有6%的教師認為這些政策清晰明確。
在課堂之外,阿聯酋、智利和南非的AI工程技能發展速度最快。2022年至2024年,美國和加拿大新增AI博士的數量增長了22%,而這些新增博士大多選擇在學術界而非工業界就業。
各國政府正努力監管AI
世界各國政府都在努力監管AI,去年也取得了一些小小的進展。
據悉,2025年,歐盟《人工智能法案》的首批禁令生效,禁止將AI用于預測性警務和情緒識別;日本、韓國和意大利也通過了各自的AI法律法規;與此同時,美國聯邦政府卻朝著放松管制的方向發展,特朗普總統簽署了一項行政命令,試圖限制各州對AI的監管。
盡管美國采取了上述行動,但美國各州議會仍通過了創紀錄的150項人工智能相關法案。
其中,加利福尼亞州頒布了具有里程碑意義的立法,其中包括SB 53法案,該法案強制要求AI模型開發者披露安全信息并提供舉報人保護;紐約州通過了《RAISE法案》,要求AI公司公布安全規程并報告重大安全事件。
![]()
報告中的折線圖顯示了2016年至2025年美國各州通過的與人工智能相關的法案數量,該數量在2023年急劇增加,并在2025年達到峰值150項法案。
但吉爾表示,盡管立法活動不斷,監管仍然落后于AI技術發展,因為我們并不真正了解它的運作方式,尤其各國在AI方面持謹慎態度,“我們對這些AI系統缺乏有效的掌控。”
![]()
報告指出,在受訪國家中,美國民眾對其政府監管AI能力的信任度最低,僅為31%。在全球范圍內,歐盟在有效監管AI方面,比美國或中國更高一些。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.