2025年的AI,讓你失望了嗎?
臨近收尾,DeepSeek開源了數(shù)學(xué)推理模型DeepSeek-Math-V2。它成為繼OpenAI與谷歌之后,第三個(gè)達(dá)到 IMO金牌水平的模型,也是一個(gè)頗具象征意義的句號(hào)。
也許,它同樣預(yù)示著一個(gè)新的開端。DeepSeek-Math-V2并不僅僅是一次性能突破。它依靠生成器—驗(yàn)證器—元驗(yàn)證器的多輪協(xié)同驗(yàn)證,使模型幾乎在推理鏈條的每一步都能收到反饋、獲得糾偏。它回答了2025年最重要的幾個(gè)問題之一。近期,伊萊亞和卡帕西各自提出簡(jiǎn)單的。
2025年,市場(chǎng)對(duì)AI的興奮與焦慮交織。市場(chǎng)積極探索新的擴(kuò)展范式,并通過智能體的深度進(jìn)化,在搜索等多個(gè)領(lǐng)域,尋找殺手級(jí)應(yīng)用的機(jī)會(huì)。但是,測(cè)試基準(zhǔn)已經(jīng)飽和,充滿了噪音,而且AI應(yīng)用層收入的增長(zhǎng),趕不上token消耗的激增。這恰與未盡研究去年底《看DAO 2025》中提出的“十大 AI 展望”高度吻合。
這一輪AI熱潮是,還是。回顧2025,有助于更好地展望2026。下面是我們?nèi)ツ甑讓?duì)2025年的,還有我們看下它們到年底是否都應(yīng)驗(yàn)了。
![]()
1 中國(guó)企業(yè)加入基礎(chǔ)模型創(chuàng)新,擴(kuò)展定律重新定義。
年初,DeepSeek R1的發(fā)布將,從兩三年縮短至兩三個(gè)月。它也激活了整個(gè),以極致性價(jià)比,向美國(guó)閉源陣營(yíng)施壓。中國(guó)的基礎(chǔ)模型創(chuàng)新集中于對(duì)傳統(tǒng)與改造,同時(shí)也推動(dòng)了。在放緩對(duì)預(yù)訓(xùn)練擴(kuò)展的預(yù)期后,業(yè)界重心側(cè)重于后訓(xùn)練與測(cè)試時(shí)擴(kuò)展,強(qiáng)化學(xué)習(xí)與并行思考成為提升模型性能的重要路徑。不過,年底谷歌Gemini 3證明,后訓(xùn)練同樣是全新領(lǐng)域,為基礎(chǔ)模型創(chuàng)新提供確定性。與此同時(shí),卡帕西與伊萊亞相繼質(zhì)疑傳統(tǒng)范式擴(kuò)展上限,業(yè)內(nèi)重新審視那些可以追溯到Transformer之前的想法。
2 測(cè)試 AGI,基準(zhǔn)難度增加。
大模型的真實(shí)進(jìn)步越來越難被基準(zhǔn)捕捉。Llama 4在競(jìng)技場(chǎng)的“作弊”,更讓社區(qū)對(duì)基準(zhǔn)有效性產(chǎn)生沖擊;而Meta也并非制造營(yíng)銷噪音的特例。行業(yè)推出了更難、更嚴(yán)密的評(píng)估體系,以及結(jié)構(gòu)化對(duì)抗元素,包括人類最后的考試(HLE)和ARC-AGI-2,這讓主流旗艦?zāi)P驮谙喈?dāng)一段時(shí)間內(nèi)難以取得跨越式的成績(jī),直至年底Gemini 3與Claude-Opus-4.5再次改寫趨勢(shì)。隨著AI向應(yīng)用落地,基準(zhǔn)也從學(xué)術(shù)能力走向工作實(shí)踐等場(chǎng)景,圍繞的xBench,以及圍繞社會(huì)經(jīng)濟(jì)價(jià)值的GDPval等新基準(zhǔn)涌現(xiàn)。不過,評(píng)估模型與物理世界交互的基準(zhǔn)仍然相對(duì)匱乏。
![]()
3 AI加快用于科學(xué)發(fā)現(xiàn)和企業(yè)研發(fā)
AI是對(duì)創(chuàng)新方式的創(chuàng)新。無論是美國(guó)的AI,還是中國(guó)的“人工智能+”行動(dòng),都將AI賦能科學(xué)研究置于顯要位置。美國(guó)與英國(guó)開始探索用AI替代臨床前動(dòng)物實(shí)驗(yàn)。伴隨基礎(chǔ)模型擴(kuò)展放緩,大模型實(shí)驗(yàn)室重新回歸AI for Science賽道。谷歌推出了多智能體系統(tǒng)AI co-scientist;扎克伯格回購了兩年前裁掉的蛋白質(zhì)研究團(tuán)隊(duì);OpenAI for Science試圖打造下一個(gè)偉大的科學(xué)儀器;上海人工智能實(shí)驗(yàn)室開源了多模態(tài)科學(xué)模型Intern-S1。這場(chǎng)AI驅(qū)動(dòng)的創(chuàng)新范式革命仍處于早期階段。OpenAI、DeepMind與DeepSeek達(dá)到了IMO,但做題距離試錯(cuò)尚遠(yuǎn);AI讓新材料發(fā)現(xiàn)暴增44%的。
4 Agent(智能體)更高級(jí)精密,多智能體加強(qiáng)協(xié)作與互動(dòng)
越來越多的大模型具備智能體特征,深度任務(wù)執(zhí)行與多輪交互能力正在成為行業(yè)標(biāo)配。年初,有全球首款通用智能體之稱的Manus,在,展示了智能體在實(shí)際工作流中的潛力。圍繞智能體的基礎(chǔ)設(shè)施也因此快速發(fā)展,(MCP)、(A2A)以及(AP2),蓬勃發(fā)展為行業(yè)的開放標(biāo)準(zhǔn),為智能體之間的互操作性與價(jià)值實(shí)現(xiàn)提供支撐。納德拉提出“”概念,探索用智能體重塑SaaS運(yùn)營(yíng)模式;谷歌發(fā)現(xiàn)智能體交互正在催生AI商務(wù)等“”。智能體經(jīng)濟(jì)的高頻與可驗(yàn)證需求,也推動(dòng)AI與區(qū)塊鏈等技術(shù)的融合。
5 推理的高token消耗,支撐算力經(jīng)濟(jì)持續(xù)繁榮
多模態(tài)應(yīng)用與智能體交互正顯著推動(dòng)高token消耗。Sora 2、Veo3與Seedance 1.0等視頻生成模型,加劇了AI,推動(dòng)谷歌與字節(jié)跳動(dòng)每個(gè)月消耗token;ChatGPT智能體正養(yǎng)出。由此,AI基建熱潮在2025年。硅谷巨頭即將建成GW級(jí)數(shù)據(jù)中心;阿里巴巴承認(rèn)年初“三年3800億”。英偉達(dá)投資了OpenAI、Anthropic與xAI,;谷歌TPU也開始對(duì)外銷售。算力經(jīng)濟(jì)的繁榮蔓延至建筑、電力等領(lǐng)域,為美國(guó)制造業(yè)復(fù)蘇提供機(jī)會(huì),但也因?yàn)檠h(huán)交易等問題,引發(fā)了市場(chǎng)對(duì)“泡沫”的質(zhì)疑。
6 卷出AI搜索
面對(duì)Bing等進(jìn)攻,谷歌繼續(xù)。它的AI Overviews搜索月活用戶迅速突破了20億,新發(fā)布的Generative UI能實(shí)時(shí)動(dòng)態(tài)生成可視化可交互的界面,增強(qiáng)用戶體驗(yàn),支撐流量增長(zhǎng)。AI搜索的競(jìng)爭(zhēng),已經(jīng)擴(kuò)展到了整個(gè)瀏覽器生態(tài),OpenAI推出了Atlas,Perplexity推出了Comet,阿里巴巴為夸克投放流量。盡管AI搜索帶來了問詢?cè)隽浚呺H成本仍大于邊際收入,商業(yè)變現(xiàn)壓力影響著行業(yè)格局。谷歌現(xiàn)階段更傾向于擴(kuò)大市場(chǎng)份額;OpenAI已經(jīng)開始迫切嘗試電商與廣告變現(xiàn);Perplexity則。在中國(guó),AI搜索的競(jìng)爭(zhēng)更多地落在垂直領(lǐng)域、封閉生態(tài)與端側(cè)入口上。
7 智能體讓AI應(yīng)用產(chǎn)生差異性,以原生和賦能的方式,在既有平臺(tái)和新的領(lǐng)域開始產(chǎn)生殺手級(jí)應(yīng)用
AI應(yīng)用的差異化價(jià)值,來自模型、產(chǎn)品與數(shù)據(jù)的結(jié)合。然而,擴(kuò)展定律邊際放緩,模型能力趨同,使得每一次差異化創(chuàng)新的窗口期都相當(dāng)短暫,這也引發(fā)了模型能力商品化的爭(zhēng)議。Gemini與Grok不斷提升編程能力,在OpenRouter調(diào)用token上追平甚至超越了Claude。Gemini 3緊隨GPT-5之后,大幅降低在醫(yī)療等。GPT-4o“”風(fēng)格走紅,Nano Banana迅速接力,Sora與Veo3同樣如此。中國(guó)開源模型加劇了模型商品化程度。要成長(zhǎng)為真正的殺手級(jí)應(yīng)用,智能體不僅需要龐大的算力資源,還必須打通從生成、傳播到留存的生態(tài)閉環(huán),并將上下文工程提升為核心能力。在中國(guó),阿里巴巴千問已與字節(jié)跳動(dòng)豆包。
8 AI企業(yè)創(chuàng)新和應(yīng)用出現(xiàn)中國(guó)范式
中國(guó)正在AI競(jìng)賽中逐步實(shí)現(xiàn)對(duì)美國(guó)技術(shù)棧的解耦。在至介于英偉達(dá)A100與H100之間的基礎(chǔ)上,華為昇騰384、阿里磐久128、曙光ScaleX640等,單柜算力密度與整體算力規(guī)模顯著提升。芯片、算力基礎(chǔ)設(shè)施與模型之間,建立起全棧協(xié)同創(chuàng)新機(jī)制,甚至外溢至。伴隨全國(guó)多地啟動(dòng)國(guó)家AI應(yīng)用中試基地建設(shè),“工業(yè)AI數(shù)據(jù)聯(lián)盟”成立,本土AI生態(tài)已經(jīng)在賦能工業(yè)高價(jià)值場(chǎng)景中獲得驗(yàn)證,這也是中國(guó)范式的典型體現(xiàn)。已為其帶來超千萬元的經(jīng)濟(jì)效益,并有望進(jìn)一步在工藝優(yōu)化、設(shè)備診斷、新材料研發(fā)等領(lǐng)域拓展新的應(yīng)用。
![]()
(來源,華為《工業(yè)與AI融合應(yīng)用指南 》)
9 軟件公司新代碼的一半先由AI生成
AI編碼正從傳統(tǒng)的代碼補(bǔ)全逐步拓展至軟件生產(chǎn)流水線的全環(huán)節(jié)。到年底,谷歌AntiGravity已能讓多智能體在長(zhǎng)周期內(nèi)主動(dòng)規(guī)劃、并行執(zhí)行,自主驗(yàn)證。由AI生成的新代碼占比逐步提升,騰訊宣稱內(nèi)部團(tuán)隊(duì)這一比例已經(jīng)達(dá)到50%,而微軟與阿里巴巴等則將AI編程功能,視為智能云服務(wù)的高價(jià)值領(lǐng)域。AI編碼的token消耗持續(xù)上升,在OpenAI的萬億token客戶中,開發(fā)者AI工具的。部分企業(yè)已將AI編碼能力納入招聘考量或KPI指標(biāo)。但是,代碼占比并非衡量生產(chǎn)力的最佳指標(biāo),“氛圍編碼”開始退潮。同時(shí),Anthropic數(shù)次封禁Windsurf調(diào)用API權(quán)限,使得模型的自主可控成為競(jìng)爭(zhēng)優(yōu)勢(shì);業(yè)內(nèi)傳聞稱硅谷部分自研模型可能依托中國(guó)開源模型二次開發(fā)。
10 科技企業(yè)開始利用智能體精益運(yùn)營(yíng)
AI正在美國(guó)引發(fā)。硅谷繼續(xù)裁員,谷歌、Meta、亞馬遜、微軟和一批AI初創(chuàng)都在瘦身,年內(nèi)累計(jì)10萬人下崗;AI正讓。風(fēng)險(xiǎn)投資機(jī)構(gòu)已經(jīng)開出AI工具清單,鼓勵(lì)創(chuàng)始人組建智能體團(tuán)隊(duì),。然而,智能體對(duì)實(shí)際工作流的滲透廣度與深度仍低于預(yù)期,95%企業(yè)。失敗原因既包括智能體能力局限,也涉及嵌入現(xiàn)實(shí)工作流的復(fù)雜工況。目前智能體只能以50%準(zhǔn)確率完成相當(dāng)于人類2個(gè)多小時(shí)的任務(wù);即使最強(qiáng)智能體也僅能完成約2.5%的任務(wù)。卡帕西建議業(yè)內(nèi)“現(xiàn)實(shí)地匹配當(dāng)前能力和行業(yè)需求”。
One More Thing,物理AI。
物理AI是智能在現(xiàn)實(shí)世界的映射,也是交互界面與生產(chǎn)力杠桿。楊立昆從Meta離職創(chuàng)業(yè),聚焦高級(jí)機(jī)器智能(AMI);李飛飛世界模型Marble嘗試隱式編碼物理定律。AI硬件已經(jīng)搶跑,核心AI體驗(yàn)源自構(gòu)建物理AI的子技術(shù)。自動(dòng)駕駛、人形機(jī)器人與智能眼鏡開始走向規(guī)模化,其物理載體屬性仍對(duì)用戶體驗(yàn)至關(guān)重要。Waymo車輛已上高速運(yùn)營(yíng),小馬智行車隊(duì)年內(nèi)擴(kuò)展4倍至近千輛,小鵬宣布明年推出三款robotaxi車型;亞馬遜首款人形機(jī)器人,優(yōu)必選Walker系列全年訂單超10億元;扎克伯格宣布,眼鏡是AI理想終端,小米與阿里巴巴緊隨其后。全新的AI原生硬件也進(jìn)入驗(yàn)證階段,OpenAI收購io,嘗試?yán)^PC與智能手機(jī)后的“”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.