網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2025年AI回顧，短期高估，會(huì)讓你失望嗎

2025-11-28 22:01:43　來源: 未盡研究

上海舉報(bào)

分享至

2025年的AI，讓你失望了嗎？

臨近收尾，DeepSeek開源了數(shù)學(xué)推理模型DeepSeek-Math-V2。它成為繼OpenAI與谷歌之后，第三個(gè)達(dá)到 IMO金牌水平的模型，也是一個(gè)頗具象征意義的句號(hào)。

也許，它同樣預(yù)示著一個(gè)新的開端。DeepSeek-Math-V2并不僅僅是一次性能突破。它依靠生成器—驗(yàn)證器—元驗(yàn)證器的多輪協(xié)同驗(yàn)證，使模型幾乎在推理鏈條的每一步都能收到反饋、獲得糾偏。它回答了2025年最重要的幾個(gè)問題之一。近期，伊萊亞和卡帕西各自提出簡(jiǎn)單的。

2025年，市場(chǎng)對(duì)AI的興奮與焦慮交織。市場(chǎng)積極探索新的擴(kuò)展范式，并通過智能體的深度進(jìn)化，在搜索等多個(gè)領(lǐng)域，尋找殺手級(jí)應(yīng)用的機(jī)會(huì)。但是，測(cè)試基準(zhǔn)已經(jīng)飽和，充滿了噪音，而且AI應(yīng)用層收入的增長(zhǎng)，趕不上token消耗的激增。這恰與未盡研究去年底《看DAO 2025》中提出的“十大 AI 展望”高度吻合。

這一輪AI熱潮是，還是。回顧2025，有助于更好地展望2026。下面是我們?nèi)ツ甑讓?duì)2025年的，還有我們看下它們到年底是否都應(yīng)驗(yàn)了。

1 中國(guó)企業(yè)加入基礎(chǔ)模型創(chuàng)新，擴(kuò)展定律重新定義。

年初，DeepSeek R1的發(fā)布將，從兩三年縮短至兩三個(gè)月。它也激活了整個(gè)，以極致性價(jià)比，向美國(guó)閉源陣營(yíng)施壓。中國(guó)的基礎(chǔ)模型創(chuàng)新集中于對(duì)傳統(tǒng)與改造，同時(shí)也推動(dòng)了。在放緩對(duì)預(yù)訓(xùn)練擴(kuò)展的預(yù)期后，業(yè)界重心側(cè)重于后訓(xùn)練與測(cè)試時(shí)擴(kuò)展，強(qiáng)化學(xué)習(xí)與并行思考成為提升模型性能的重要路徑。不過，年底谷歌Gemini 3證明，后訓(xùn)練同樣是全新領(lǐng)域，為基礎(chǔ)模型創(chuàng)新提供確定性。與此同時(shí)，卡帕西與伊萊亞相繼質(zhì)疑傳統(tǒng)范式擴(kuò)展上限，業(yè)內(nèi)重新審視那些可以追溯到Transformer之前的想法。

2 測(cè)試 AGI，基準(zhǔn)難度增加。

大模型的真實(shí)進(jìn)步越來越難被基準(zhǔn)捕捉。Llama 4在競(jìng)技場(chǎng)的“作弊”，更讓社區(qū)對(duì)基準(zhǔn)有效性產(chǎn)生沖擊；而Meta也并非制造營(yíng)銷噪音的特例。行業(yè)推出了更難、更嚴(yán)密的評(píng)估體系，以及結(jié)構(gòu)化對(duì)抗元素，包括人類最后的考試（HLE）和ARC-AGI-2，這讓主流旗艦?zāi)Ｐ驮谙喈?dāng)一段時(shí)間內(nèi)難以取得跨越式的成績(jī)，直至年底Gemini 3與Claude-Opus-4.5再次改寫趨勢(shì)。隨著AI向應(yīng)用落地，基準(zhǔn)也從學(xué)術(shù)能力走向工作實(shí)踐等場(chǎng)景，圍繞的xBench，以及圍繞社會(huì)經(jīng)濟(jì)價(jià)值的GDPval等新基準(zhǔn)涌現(xiàn)。不過，評(píng)估模型與物理世界交互的基準(zhǔn)仍然相對(duì)匱乏。

3 AI加快用于科學(xué)發(fā)現(xiàn)和企業(yè)研發(fā)

AI是對(duì)創(chuàng)新方式的創(chuàng)新。無論是美國(guó)的AI，還是中國(guó)的“人工智能+”行動(dòng)，都將AI賦能科學(xué)研究置于顯要位置。美國(guó)與英國(guó)開始探索用AI替代臨床前動(dòng)物實(shí)驗(yàn)。伴隨基礎(chǔ)模型擴(kuò)展放緩，大模型實(shí)驗(yàn)室重新回歸AI for Science賽道。谷歌推出了多智能體系統(tǒng)AI co-scientist；扎克伯格回購了兩年前裁掉的蛋白質(zhì)研究團(tuán)隊(duì)；OpenAI for Science試圖打造下一個(gè)偉大的科學(xué)儀器；上海人工智能實(shí)驗(yàn)室開源了多模態(tài)科學(xué)模型Intern-S1。這場(chǎng)AI驅(qū)動(dòng)的創(chuàng)新范式革命仍處于早期階段。OpenAI、DeepMind與DeepSeek達(dá)到了IMO，但做題距離試錯(cuò)尚遠(yuǎn)；AI讓新材料發(fā)現(xiàn)暴增44%的。

4 Agent（智能體）更高級(jí)精密，多智能體加強(qiáng)協(xié)作與互動(dòng)

越來越多的大模型具備智能體特征，深度任務(wù)執(zhí)行與多輪交互能力正在成為行業(yè)標(biāo)配。年初，有全球首款通用智能體之稱的Manus，在，展示了智能體在實(shí)際工作流中的潛力。圍繞智能體的基礎(chǔ)設(shè)施也因此快速發(fā)展，（MCP）、（A2A）以及（AP2），蓬勃發(fā)展為行業(yè)的開放標(biāo)準(zhǔn)，為智能體之間的互操作性與價(jià)值實(shí)現(xiàn)提供支撐。納德拉提出“”概念，探索用智能體重塑SaaS運(yùn)營(yíng)模式；谷歌發(fā)現(xiàn)智能體交互正在催生AI商務(wù)等“”。智能體經(jīng)濟(jì)的高頻與可驗(yàn)證需求，也推動(dòng)AI與區(qū)塊鏈等技術(shù)的融合。

5 推理的高token消耗，支撐算力經(jīng)濟(jì)持續(xù)繁榮

多模態(tài)應(yīng)用與智能體交互正顯著推動(dòng)高token消耗。Sora 2、Veo3與Seedance 1.0等視頻生成模型，加劇了AI，推動(dòng)谷歌與字節(jié)跳動(dòng)每個(gè)月消耗token；ChatGPT智能體正養(yǎng)出。由此，AI基建熱潮在2025年。硅谷巨頭即將建成GW級(jí)數(shù)據(jù)中心；阿里巴巴承認(rèn)年初“三年3800億”。英偉達(dá)投資了OpenAI、Anthropic與xAI，；谷歌TPU也開始對(duì)外銷售。算力經(jīng)濟(jì)的繁榮蔓延至建筑、電力等領(lǐng)域，為美國(guó)制造業(yè)復(fù)蘇提供機(jī)會(huì)，但也因?yàn)檠h(huán)交易等問題，引發(fā)了市場(chǎng)對(duì)“泡沫”的質(zhì)疑。

6 卷出AI搜索

面對(duì)Bing等進(jìn)攻，谷歌繼續(xù)。它的AI Overviews搜索月活用戶迅速突破了20億，新發(fā)布的Generative UI能實(shí)時(shí)動(dòng)態(tài)生成可視化可交互的界面，增強(qiáng)用戶體驗(yàn)，支撐流量增長(zhǎng)。AI搜索的競(jìng)爭(zhēng)，已經(jīng)擴(kuò)展到了整個(gè)瀏覽器生態(tài)，OpenAI推出了Atlas，Perplexity推出了Comet，阿里巴巴為夸克投放流量。盡管AI搜索帶來了問詢?cè)隽浚呺H成本仍大于邊際收入，商業(yè)變現(xiàn)壓力影響著行業(yè)格局。谷歌現(xiàn)階段更傾向于擴(kuò)大市場(chǎng)份額；OpenAI已經(jīng)開始迫切嘗試電商與廣告變現(xiàn)；Perplexity則。在中國(guó)，AI搜索的競(jìng)爭(zhēng)更多地落在垂直領(lǐng)域、封閉生態(tài)與端側(cè)入口上。

7 智能體讓AI應(yīng)用產(chǎn)生差異性，以原生和賦能的方式，在既有平臺(tái)和新的領(lǐng)域開始產(chǎn)生殺手級(jí)應(yīng)用

AI應(yīng)用的差異化價(jià)值，來自模型、產(chǎn)品與數(shù)據(jù)的結(jié)合。然而，擴(kuò)展定律邊際放緩，模型能力趨同，使得每一次差異化創(chuàng)新的窗口期都相當(dāng)短暫，這也引發(fā)了模型能力商品化的爭(zhēng)議。Gemini與Grok不斷提升編程能力，在OpenRouter調(diào)用token上追平甚至超越了Claude。Gemini 3緊隨GPT-5之后，大幅降低在醫(yī)療等。GPT-4o“”風(fēng)格走紅，Nano Banana迅速接力，Sora與Veo3同樣如此。中國(guó)開源模型加劇了模型商品化程度。要成長(zhǎng)為真正的殺手級(jí)應(yīng)用，智能體不僅需要龐大的算力資源，還必須打通從生成、傳播到留存的生態(tài)閉環(huán)，并將上下文工程提升為核心能力。在中國(guó)，阿里巴巴千問已與字節(jié)跳動(dòng)豆包。

8 AI企業(yè)創(chuàng)新和應(yīng)用出現(xiàn)中國(guó)范式

中國(guó)正在AI競(jìng)賽中逐步實(shí)現(xiàn)對(duì)美國(guó)技術(shù)棧的解耦。在至介于英偉達(dá)A100與H100之間的基礎(chǔ)上，華為昇騰384、阿里磐久128、曙光ScaleX640等，單柜算力密度與整體算力規(guī)模顯著提升。芯片、算力基礎(chǔ)設(shè)施與模型之間，建立起全棧協(xié)同創(chuàng)新機(jī)制，甚至外溢至。伴隨全國(guó)多地啟動(dòng)國(guó)家AI應(yīng)用中試基地建設(shè)，“工業(yè)AI數(shù)據(jù)聯(lián)盟”成立，本土AI生態(tài)已經(jīng)在賦能工業(yè)高價(jià)值場(chǎng)景中獲得驗(yàn)證，這也是中國(guó)范式的典型體現(xiàn)。已為其帶來超千萬元的經(jīng)濟(jì)效益，并有望進(jìn)一步在工藝優(yōu)化、設(shè)備診斷、新材料研發(fā)等領(lǐng)域拓展新的應(yīng)用。

（來源，華為《工業(yè)與AI融合應(yīng)用指南》）

9 軟件公司新代碼的一半先由AI生成

AI編碼正從傳統(tǒng)的代碼補(bǔ)全逐步拓展至軟件生產(chǎn)流水線的全環(huán)節(jié)。到年底，谷歌AntiGravity已能讓多智能體在長(zhǎng)周期內(nèi)主動(dòng)規(guī)劃、并行執(zhí)行，自主驗(yàn)證。由AI生成的新代碼占比逐步提升，騰訊宣稱內(nèi)部團(tuán)隊(duì)這一比例已經(jīng)達(dá)到50%，而微軟與阿里巴巴等則將AI編程功能，視為智能云服務(wù)的高價(jià)值領(lǐng)域。AI編碼的token消耗持續(xù)上升，在OpenAI的萬億token客戶中，開發(fā)者AI工具的。部分企業(yè)已將AI編碼能力納入招聘考量或KPI指標(biāo)。但是，代碼占比并非衡量生產(chǎn)力的最佳指標(biāo)，“氛圍編碼”開始退潮。同時(shí)，Anthropic數(shù)次封禁Windsurf調(diào)用API權(quán)限，使得模型的自主可控成為競(jìng)爭(zhēng)優(yōu)勢(shì)；業(yè)內(nèi)傳聞稱硅谷部分自研模型可能依托中國(guó)開源模型二次開發(fā)。

10 科技企業(yè)開始利用智能體精益運(yùn)營(yíng)

AI正在美國(guó)引發(fā)。硅谷繼續(xù)裁員，谷歌、Meta、亞馬遜、微軟和一批AI初創(chuàng)都在瘦身，年內(nèi)累計(jì)10萬人下崗；AI正讓。風(fēng)險(xiǎn)投資機(jī)構(gòu)已經(jīng)開出AI工具清單，鼓勵(lì)創(chuàng)始人組建智能體團(tuán)隊(duì)，。然而，智能體對(duì)實(shí)際工作流的滲透廣度與深度仍低于預(yù)期，95%企業(yè)。失敗原因既包括智能體能力局限，也涉及嵌入現(xiàn)實(shí)工作流的復(fù)雜工況。目前智能體只能以50%準(zhǔn)確率完成相當(dāng)于人類2個(gè)多小時(shí)的任務(wù)；即使最強(qiáng)智能體也僅能完成約2.5%的任務(wù)。卡帕西建議業(yè)內(nèi)“現(xiàn)實(shí)地匹配當(dāng)前能力和行業(yè)需求”。

One More Thing，物理AI。

物理AI是智能在現(xiàn)實(shí)世界的映射，也是交互界面與生產(chǎn)力杠桿。楊立昆從Meta離職創(chuàng)業(yè)，聚焦高級(jí)機(jī)器智能（AMI）；李飛飛世界模型Marble嘗試隱式編碼物理定律。AI硬件已經(jīng)搶跑，核心AI體驗(yàn)源自構(gòu)建物理AI的子技術(shù)。自動(dòng)駕駛、人形機(jī)器人與智能眼鏡開始走向規(guī)模化，其物理載體屬性仍對(duì)用戶體驗(yàn)至關(guān)重要。Waymo車輛已上高速運(yùn)營(yíng)，小馬智行車隊(duì)年內(nèi)擴(kuò)展4倍至近千輛，小鵬宣布明年推出三款robotaxi車型；亞馬遜首款人形機(jī)器人，優(yōu)必選Walker系列全年訂單超10億元；扎克伯格宣布，眼鏡是AI理想終端，小米與阿里巴巴緊隨其后。全新的AI原生硬件也進(jìn)入驗(yàn)證階段，OpenAI收購io，嘗試?yán)^PC與智能手機(jī)后的“”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.