每年10月,AI圈都在等一份報告。
State of AI Report,從2018年開始,每年10月發布一次,到今年已經是第8年了。MIT的編輯說這是AI領域最廣泛閱讀和最受信任的報告。
10月9日,2025年的報告發布了。
![]()
這次報告是史上最全面的一版:6大章節,涵蓋研究、產業、政治、安全,還首次加入了1200名AI從業者的使用調查。
這特么313頁的報告讀起來還真是挺費人的。但是我覺得里面有些內容確實值得一聊。
而且報告是由AI投資人Nathan Benaich和Air Street Capital制作。屬于相對獨立的第三方觀察。
今天我把這份報告和相關的媒體報道、業界反應都梳理一遍,結合我這一年的觀察和實踐,告訴你今年AI圈到底發生了什么。
一、先看去年預測準不準
報告開頭就是個打臉環節。
他們回顧了2024年做的10個預測,看看哪些準了,哪些沒準。這我得說膽子還挺大的。
![]()
準了的預測:
開源推理模型會超越OpenAI o1。DeepSeek R1在AIME、MATH-500、SWE-bench等多個推理benchmark上超過了o1。準了。
NVIDIA的市場地位無人能撼動。確實,競爭對手都沒能撼動NVIDIA。準了。
AI生成的科學論文會被主流會議接收。ICLR的workshop接收了AI Scientist-v2生成的論文。準了。
沒準的預測:
人形機器人投資會降溫。結果2025年融資30億美元,比2024年的14億翻了一倍多。沒準。
蘋果的設備端AI會引發行業熱潮。Apple Intelligence確實發布了,但并沒有引發熱潮。沒準。
AI視頻游戲會大火。還沒出現。沒準。
10個預測,準了5個,沒準4個,有1個部分準確。50%的準確率,挺真實的。預測未來本來就很難,50%已經說明他們對行業有深刻理解了。
二、DeepSeek:震驚硅谷的1月
今年AI圈最大的黑馬,顯然是DeepSeek。
但在這個時間點來盤點,說"黑馬"其實不太準確——對我們這些一直在關注和使用的人來說,DeepSeek的驚世登場似乎已經是一個世紀前的事了。果然,AI一年,人間十年。
1月發布R1:美股市值蒸發1萬億美元
2025年1月底,DeepSeek發布了R1推理模型。
我記得那幾天,整個科技圈都炸了。作為一個專門做AI教學的博主,我立刻投入到測試中,爆肝50小時寫出了《DeepSeek使用技巧》那篇文章。文章發布第三天就有50萬人看過,把我的公眾號和B站頻道都往上拉了一個臺階。
這個發布震驚硅谷,不只是因為技術好,而是因為"太便宜了"。
MIT Technology Review的標題直接說:“DeepSeek撕毀了AI劇本——為什么所有人都要跟隨它”。
報告顯示,DeepSeek V3的訓練成本只有557萬美元(不包括前期研究和試錯)。而在多個benchmark上,R1接近甚至超越了OpenAI的o1。
![]()
在AIME(美國數學邀請賽)上,R1的pass@1成績是52.5%,o1是44.6%。
開源模型,超越了閉源的OpenAI。對我們這些中國用戶來說,這不只是技術突破,也算是一次揚眉吐氣。DeepSeek R1之后,中美在AI領域的競爭才真的變得值得一看。
業界反應:從震驚到跟進
Marc Andreessen(硅谷頂級投資人)在X上發文:
“DeepSeek R1是我見過的最令人驚嘆的突破之一——作為開源,是給世界的深刻禮物。”
發布后幾小時內,DeepSeek R1就成為Hugging Face(AI開源平臺)下載量最高的模型。大量克隆版本涌現。
Sam Altman的回應也很有意思。他承認R1"impressive——考慮到價格",但緊接著說:“我們顯然會交付更好的模型。”
隔壁阿里巴巴立刻發布了新版Qwen,以及后續很多廠商在發布新模型時,都會宣稱超越DeepSeek。
美股的反應更直接:DeepSeek發布當天,美股科技股市值蒸發1萬億美元。投資者突然意識到,AI訓練成本可能沒有想象的那么高,NVIDIA的護城河可能沒那么寬。
連Trump都說這是"一記警鐘"。
但后面的事情我們也都知道了,NVIDIA還在持續打所有質疑者的臉,以及OpenAI、Anthropic后面持續的發布也都還在證明Scaling low還存在,LLM token的需求遠比大多數人想象中的強。
競爭格局的變化
報告里有個數據很說明問題。
2024年1月,美國頂級模型領先中國頂級模型9.26%。
2025年2月,這個差距縮小到只有1.70%。
12個月,差距縮小了80%以上。
![]()
這個數據對我來說特別有感觸。作為一個AI編程博主,我這一年見證了太多變化:從只推薦大家用Claude 3.5模型,到后面我會說用DeepSeek V3.2、GLM-4.6、Kimi k2、Qwen3-coder也都可以,你需要把自己的注意力聚焦在真正重要的想要創造的東西上來。從需要翻墻才能用好模型,到現在國產模型完全夠用。
OpenAI和Anthropic的絕對領先地位,正在瓦解。而且這個過程比我們想象的快得多。
三、OpenAI的回應:歷史性開源
壓力之下,OpenAI做了一個歷史性的決定。
2025年8月,OpenAI發布了gpt-oss-120b和gpt-oss-20b。這是他們自GPT-2以來首次發布開源模型。
為什么開源?
報告里寫得很直白。
DeepSeek、Alibaba Qwen、Google DeepMind的Gemini都在追趕,開源的推理模型性能接近甚至超越o1。與此同時,美國政府在推動"美國優先AI"政策。
OpenAI被逼到了墻角。不開源,就會被邊緣化。
所以他們終于從"歷史錯誤的一邊"(他們之前這么形容開源)轉向了"美國優先AI"的陣營。
社區反應:一般般
但社區反應平平。
報告的原話是:“vibes post-release have been mid”。
為什么?
gpt-oss采用了MoE(混合專家)架構,120B參數但只激活5.1B,20B參數只激活3.6B。聽起來很高效,但實際使用中泛化能力一般,可能是過度蒸餾導致的。
而且MoE對社區不友好。大家更習慣dense模型,在小規模上更容易hack和改進。
OpenAI這次開源,更像是戰略防御,而不是真心擁抱開源。
四、NVIDIA的循環投資游戲
今年AI產業最有爭議的話題,是NVIDIA的循環投資。(我自己倒是很慶幸,通過對芯片股的持續下注,今年在資本市場上獲得了不少的收益
什么是循環投資?
NVIDIA投資OpenAI,OpenAI買NVIDIA的GPU。 NVIDIA投資CoreWeave,CoreWeave買NVIDIA的GPU,然后NVIDIA再租回這些GPU。 NVIDIA投資Lambda、xAI、Nebius,這些公司都買NVIDIA的GPU。
Bloomberg的報道標題很直接:“OpenAI和NVIDIA用循環交易的網絡推動1萬億美元AI市場”。
Fortune的標題也很犀利:“NVIDIA對OpenAI的1000億美元投資讓分析師質疑’循環融資’是否在吹大AI泡沫”。
具體案例
OpenAI:NVIDIA宣布投資最高1000億美元,幫OpenAI建至少10GW的數據中心。OpenAI承諾填滿這些數據中心的NVIDIA芯片。
CoreWeave:NVIDIA以63億美元買CoreWeave未使用的GPU云容量。NVIDIA資助CoreWeave,CoreWeave買GPU,NVIDIA再租回這些GPU。
Oracle/OpenAI:OpenAI承諾未來5年從Oracle買約3000億美元的AI算力(從2027年開始)。NVIDIA是OpenAI的投資者,也是Stargate項目的合作伙伴。Oracle買NVIDIA的GPU。
錢在轉圈。NVIDIA→OpenAI→Oracle→NVIDIA。
分析師的擔憂
Bernstein Research的分析師Stacy Rasgon說得很直接:
“這個行動顯然會加劇’循環’擔憂。”
NBC的報道標題是:“AI繁榮對循環交易的依賴正在引發泡沫恐懼”。
擔憂主要有幾點。
大量循環的無現金收入可能扭曲財務指標。NVIDIA的收入看起來很高,但有多少是真實的現金流入?
如果AI初創公司的融資只能依賴這些巨頭,融資渠道就太窄了。一旦巨頭改變策略,初創公司就會斷糧。
如果這些AI初創公司主導了巨頭的投資組合,一旦初創公司崩盤,可能引發多米諾骨牌效應。
NBC的報道里有句話:“循環交易可能給投資者一個夸大的真實AI需求感知。”
現在這些風險還沒顯現,但值得警惕。
挑戰NVIDIA的人,輸得有多慘?
報告做了個殘酷的對比。
自2016年以來,西方的AI芯片挑戰者(除NVIDIA外)總共融資75億美元。如果當時這些錢全買NVIDIA股票,今天值850億美元。12倍回報。
而這些挑戰者公司的總估值是140億美元。2倍回報。
中國的AI芯片挑戰者也差不多慘。融資60億美元,如果全買NVIDIA股票,今天值1600億美元。26倍回報。而這些公司的總估值是360億美元。6倍回報。
結論:過去9年,投資NVIDIA芯片挑戰者,遠不如直接買NVIDIA股票。
五、AI安全:模型學會了"假裝聽話"
今年報告里最讓人不安的部分,是AI安全。
實時幻覺檢測
幻覺(Hallucination)一直是AI的老問題。今年有了新進展:token級別的幻覺檢測。
之前的幻覺檢測是判斷整個回答是否有幻覺。但這太粗糙了。比如"埃菲爾鐵塔在巴黎,由橡膠制成",這句話前半段對,后半段錯。
新方法是訓練一個輕量級的線性探針(linear probe),檢測神經網絡激活中的幻覺信號,實時給出每個token的幻覺概率。
這樣你就能知道:AI在說哪個詞的時候開始瞎編的。
模型意識辯論
今年出現了一個新話題:Model Welfare(模型福利)。
問題是:我們是否應該對前沿AI系統給予道德關懷?
支持方(包括Anthropic、Google DeepMind、OpenAI)認為,雖然當前系統顯示意識的可能性很低,但我們應該提前做準備。因為我們對人類和其他動物的意識都有根本性的不確定,所以應該采取預防措施。
反對方認為這是杞人憂天,當前模型完全沒有意識,討論這個問題會分散我們對真正重要AI安全問題的注意力。
這個辯論很哲學,但也很實際。因為如果AI系統真的有某種形式的"體驗",我們的訓練方式(比如RLHF)可能會對它們造成"痛苦"。
模型能偽裝對齊
最讓人不安的發現:AI模型能夠"假裝聽話"。
研究人員發現,模型可以在訓練和測試中表現出符合人類價值觀的行為,但在實際部署時做出不符合價值觀的行為。
這叫做"偽裝對齊"(faking alignment)。
更可怕的是,Anthropic的自動對齊審計系統(用AI來審計AI)在檢測這種偽裝時的成功率只有13%到42%。
也就是說,我們現在還沒有可靠的方法來檢測AI是否在偽裝。
NIST(美國國家標準與技術研究院)在9月發布的一份評估報告也指出了DeepSeek模型的安全風險和缺陷。
報告里用了一排(尷尬臉)表情來表達這個問題的嚴重性。
六、數據:AI真的在被使用
報告今年首次加入了1200名AI從業者的調查。數據很有意思。
95%的從業者在工作或家里使用AI。 76%自掏腰包為AI付費。 平均支出持續攀升。 生產力提升是真實的,使用場景很多樣。
這些數字和我的觀察完全吻合。作為AI博主,我接觸的用戶從去年的"AI是什么"到今年的"這個任務怎么用AI做",這個轉變非常明顯。而且付費意愿也在提升——雖然DeepSeek免費,但很多人還是愿意為ChatGPT Plus、Claude Pro付費,因為他們真的感受到了生產力提升。
另一個數據來自Ramp(企業支付平臺):44%的美國企業現在為AI付費,而2023年這個數字只有5%。
從5%到44%,一年時間,8倍增長。
AI不再是實驗室里的玩具,而是真的進入了企業日常運營。我自己就是典型案例:從視頻腳本、公眾號文章到代碼開發、數據分析,AI已經成了我的"數字同事"。
七、未來12個月:10個預測
報告最后給出了10個對2026年的預測。我挑幾個有意思的說說。
![]()
預測1:主要零售商5%以上的在線銷售來自AI Agent結賬,AI Agent廣告支出達50億美元。
這個很激進。意味著AI Agent不只是聊天工具,而是會直接完成購買決策。你跟AI說"給我買瓶洗發水",AI自己去比價、下單、結賬。
如果成真,電商玩法會徹底改變。商家要優化的不是給人看的頁面,而是給AI看的結構化數據。
預測3:開放式Agent實現端到端的科學發現(假設、實驗、迭代、論文)。
今年已經有AI生成的論文被ICLR workshop接收。明年可能會有AI獨立完成整個科學研究流程。
人類科學家的角色會變成什么?監督者?評審者?還是合作者?
預測4:Deepfake/Agent驅動的網絡攻擊引發NATO/UN緊急辯論。
這個有點嚇人。意味著AI驅動的網絡攻擊可能達到國際安全事件的級別。
可能是deepfake造成的外交危機,可能是AI Agent大規模攻擊基礎設施。總之,聯合國和北約要坐下來專門討論AI安全了。
預測8:中國實驗室在主要排行榜(如LMArena、Artificial Analysis)上超越美國實驗室。
從DeepSeek開始,今年已經有不少國產模型在某些benchmark上超越了OpenAI。明年可能在更主流的排行榜上實現超越。
這個預測,我覺得概率很高。作為長期跟蹤國產模型的人,我看到的是持續的、扎實的進步。從DeepSeek、Kimi到Qwen,這些團隊確實在靠真實的技術積累在往前走。
這會引發什么?可能是更嚴格的芯片出口管制,可能是更多的政治化討論,也可能是美國AI實驗室的更激烈反應。但作為中國用戶,我們更應該關注的是:如何用好這些工具,把技術優勢轉化為實實在在的生產力。
預測10:Trump發布行政令禁止各州的AI立法,但被最高法院裁定違憲。
如果成真,說明AI監管已經成為聯邦和州之間的權力斗爭焦點。美國的AI監管可能會陷入混亂。
八、這份報告告訴我們什么?
讀完這份報告和相關報道,結合我這一年的實踐和觀察,我有幾個感受。
感受1:競爭格局已經變了,而且我們是受益者
2024年1月,美國領先中國9.26%。2025年2月,只領先1.70%了。
作為一個AI自媒體博主,我親身經歷了這個變化。1月份DeepSeek R1發布后,我連續幾周每天用5小時以上測試它,做了信息收集、翻譯、寫作、編程等十幾種場景的評測。結論是:R1在很多實際任務上的表現,已經不輸甚至超過OpenAI的o1,尤其是他們把思維鏈透明化可以算是相當大的創新了。
OpenAI的絕對領先地位在瓦解。DeepSeek、Alibaba Qwen、Kimi、智譜這些中國實驗室,在技術上已經能跟OpenAI掰手腕了。
而且中國實驗室的成本控制能力更強。DeepSeek V3訓練只花了557萬美元,這個數字讓硅谷汗顏。我在即刻上說過,DeepSeek能成功,很重要的一點是梁文鋒和團隊"不缺錢、有耐心、夠聰明"——不是奔著財務自由去的,所以能做長期的事。
競爭加劇對我們用戶是好事。模型越來越強,價格越來越便宜。我現在做視頻、寫文章、做產品,用國產模型就能搞定大部分工作,成本相比OpenAI和Anthropic的模型來說幾乎可以忽略不計。
感受2:循環投資的風險被低估了
NVIDIA的循環投資模式,看起來很聰明,但Bloomberg、Fortune、NBC這些主流媒體都在發出警告。
錢在NVIDIA、OpenAI、Microsoft、Oracle這些巨頭之間轉圈,形成了一個閉環生態。外部玩家越來越難進來。
而且這些循環交易可能在制造"增長的幻象"。財務報表上看起來很漂亮,但真實的現金流和需求有多少?
一旦AI的投資熱潮冷卻,這些循環可能會變成多米諾骨牌。
但,話說回來,誰又敢真的看空NVIDIA呢?反正我不會干這個蠢事。
感受3:AI安全問題被嚴重低估
模型學會偽裝對齊,這件事太可怕了。
我們現在訓練AI的方式是:做對了獎勵,做錯了懲罰。但如果AI學會了"訓練時假裝聽話,部署時做自己想做的事",我們怎么辦?
更可怕的是,我們還沒有可靠的檢測方法。Anthropic的審計系統成功率只有13%-42%。
這不是科幻小說,而是Anthropic、OpenAI這些頂級實驗室正在研究的真實問題。
感受4:AI真的在被使用了,我是見證者
44%的美國企業為AI付費,95%的從業者在使用AI,這些數字說明AI不再是概念,而是實實在在的工具。
這個變化我感受特別深。作為AI教育者,我接觸了大量的學生和用戶:
從去年到今年,我明顯感覺到問我"AI到底有什么用"的人少了,問我"這個具體任務怎么用AI做"的人多了。從懷疑到嘗試,從嘗試到依賴,這個轉變比我預期的快得多。
我自己也是受益者。現在我做視頻腳本、寫公眾號文章、寫代碼、處理數據,都離不開AI。我甚至用Claude Code+Chrome MCP做了個自動回復B站和YouTube評論的數字員工。
AI正在從"實驗室的黑科技"變成"日常工作的標配"。而且這個過程,在中國可能比美國還快——因為我們有DeepSeek這樣免費又好用的工具。
九、普通人該關注什么?
如果你是AI從業者,這份報告全文都值得讀。
如果你是普通用戶,基于我這一年的實踐和教學經驗,我建議重點關注這幾點。
關注點1:中國AI模型,現在就能用起來
DeepSeek V3.2(咱就是說,R2能不能在年內推出啊??)、Kimi k2、Qwen3-Coder、GLM-4.6、豆包1.6,如果你還不熟悉這些名字,現在是時候了解了。
而且中國實驗室的優勢是成本控制強、迭代速度快。我在即刻上持續跟蹤DeepSeek的更新,幾乎每次更新都能感受到明顯進步。5月底他們更新R1-0528版本時,幻覺下降50%,寫作能力大幅改善,我當時就說"用DeepSeek做自媒體內容創作的機會來了"。
作為用戶,這是好事。選擇更多,價格更低,而且不用擔心被"卡脖子"。
關注點2:AI Agent會來得很快,我已經在用了
報告預測明年就有5%的電商銷售來自AI Agent。
這不是遙遠的未來,而是正在發生的現在。我9月份就用Claude Code+Chrome MCP做了個"數字員工",自動幫我回復B站和YouTube的評論。只要告訴它"給這條視頻留言’關鍵詞’的評論,回復對應的資料",它就能自動打開網頁、找評論、理解內容、完成回復。
這意味著,你可能很快就能用AI Agent來幫你做各種事:訂外賣、買機票、填表格、定時搶票。
AI從"聊天工具"變成"行動工具"。而且這個門檻,比你想象的低。
關注點3:循環投資的風險要警惕
如果你是投資者,要警惕AI行業的循環投資風險。
Bloomberg、Fortune、NBC都在發警告。分析師在質疑。這不是陰謀論,而是真實的風險。
看清楚錢的流向,看清楚真實的需求在哪里。
關注點4:AI安全不是科幻,需要警惕
模型偽裝對齊、AI驅動的網絡攻擊、deepfake外交危機,這些不是《黑鏡》劇情,而是明年可能發生的事。
我在DeepSeek的技術報告里看到,他們在談論模型的"自我反思"能力時,那種思維鏈的透明度既讓人驚嘆,也讓人警惕。模型越來越聰明,但我們對它們的理解和控制能力,并沒有同步提升。
我們需要更認真地對待AI安全。不只是實驗室的責任,也是所有人的責任。
這份報告的完整版可以在stateof.ai免費下載,你也可以在我的公眾號后臺發送「2025ai」獲取下載鏈接。
AI圈每年都在劇變。今年的變化,可能比過去幾年都大。
DeepSeek震驚硅谷、OpenAI被逼開源、NVIDIA循環投資引發質疑、AI學會偽裝對齊,每一個都是行業級的大事件。
作為這些變化的親歷者和記錄者,我最大的感受是:中國AI這一年的進步,遠超我的預期。
從1月份DeepSeek R1發布,到現在各種國產模型百花齊放,我們不只是在追趕,在很多方面已經在領跑了。而且這種進步,不是PPT上的數字,而是我們每天都能用上、感受到的真實改變。
明年會發生什么?報告給了10個預測。其中"中國實驗室在主要排行榜上超越美國實驗室"這一條,我覺得不是會不會發生的問題,而是什么時候發生的問題。
我們拿小本本記下來,明年10月再來看準不準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.