![]()
時(shí)隔一年,2026年大模型行業(yè)“春節(jié)檔”又要來(lái)了。近期的外媒報(bào)道顯示,這場(chǎng)春節(jié)檔競(jìng)爭(zhēng)即將在2月進(jìn)入白熱化。
字節(jié)跳動(dòng)計(jì)劃在下個(gè)月推出三款全新的 AI 模型,分別為豆包 2.0(新一代旗艦大語(yǔ)言模型)、Seedream 5.0(圖像生成模型)以及 SeedDance 2.0(視頻生成模型)。
另一方面,阿里同樣計(jì)劃在春節(jié)假期期間發(fā)布新一代旗艦 AI 模型Qwen 3.5。據(jù)悉,該模型在數(shù)學(xué)推理和代碼能力方面表現(xiàn)突出。有外部分析顯示,來(lái)自中國(guó)頭部AI企業(yè)間的競(jìng)爭(zhēng),可能在未來(lái)數(shù)年內(nèi)深刻塑造14 億人口使用 AI 的方式。
本月,已經(jīng)有多家頭部廠商在推出或更新關(guān)鍵模型,加速圍繞春節(jié)檔展開(kāi)的“AI競(jìng)賽”。近日DeepSeek團(tuán)隊(duì)開(kāi)源了DeepSeek-OCR2模型,月之暗面發(fā)布了其旗艦?zāi)P蚄imiK2.5,阿里巴巴也推出了旗下Qwen3-Max-Thinking旗艦推理模型。
換言之,2026年的AI春節(jié)檔,將是一場(chǎng)跨越模型到產(chǎn)品層面的全面競(jìng)爭(zhēng)。在產(chǎn)品前端,元寶、豆包、千問(wèn)正在打響春節(jié)AI紅包大戰(zhàn);而在模型側(cè),大家都不想放過(guò)下一個(gè)“DeepSeek時(shí)刻”。
這一趨勢(shì)的起點(diǎn),可以追溯到2025年春節(jié)前后。彼時(shí),DeepSeek-R1因較低成本和強(qiáng)大推理能力一度沖擊海外應(yīng)用排行榜,成為國(guó)內(nèi)大模型破圈現(xiàn)象級(jí)事件,也讓春節(jié)檔成為行業(yè)觀察的關(guān)鍵時(shí)間窗口。
從目前已知的模型信息來(lái)看,今年的春節(jié)檔競(jìng)爭(zhēng)不僅是圍繞單一模型能力的對(duì)比,更是多模態(tài)能力、推理性能與應(yīng)用生態(tài)的綜合較量。
此前,有報(bào)道披露,其下一代旗艦?zāi)P虳eepSeek V4,預(yù)計(jì)將于馬年春節(jié)前后發(fā)布。該模型內(nèi)部測(cè)試顯示,其在代碼生成和長(zhǎng)上下文處理能力上優(yōu)于現(xiàn)有主流大模型,成為業(yè)內(nèi)密切關(guān)注的焦點(diǎn)之一。
所以,這個(gè)春節(jié)檔,友商們面對(duì)春節(jié)檔的熱情也就不難理解了。
這個(gè)馬年春節(jié),AI行業(yè)注定會(huì)上演一場(chǎng)“萬(wàn)馬奔騰”。
01
榜單之外,實(shí)際場(chǎng)景很重要
過(guò)去的一周內(nèi),春節(jié)來(lái)臨前的“模型上新”正在演變成一場(chǎng)聲量競(jìng)賽。
DeepSeek開(kāi)源OCR2、Kimi發(fā)布并開(kāi)源K2.5、阿里發(fā)布Qwen3-Max-Thinking,中國(guó)模型海內(nèi)外AI產(chǎn)品熱點(diǎn)中三度“同框”,業(yè)內(nèi)對(duì)于大模型“下餃子”的討論氛圍也不斷升溫。
近日,阿里千問(wèn)發(fā)布了Qwen3-Max-Thinking推理模型,加入了今年的春節(jié)檔“模型賽馬”。從時(shí)間點(diǎn)上看,這一發(fā)布落在春節(jié)檔窗口期,與近期阿里在AI方向上的一系列動(dòng)作形成呼應(yīng)。
阿里方面披露的信息顯示,該模型總參數(shù)超萬(wàn)億、預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36Ttokens,在19項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出與GPT-5.2-Thinking、Claude-Opus-4.5和Gemini3Pro等頂尖閉源模型相當(dāng)甚至更優(yōu)的性能。
與此前圍繞參數(shù)規(guī)模或榜單名次的發(fā)布不同,這一代模型的技術(shù)取向并未繼續(xù)拉大參數(shù)差距,而是將重心放在推理穩(wěn)定性與工具使用能力上。
![]()
阿里云官方博客顯示,Qwen3-Max-Thinking的核心亮點(diǎn)集中在兩個(gè)方面。第一個(gè)是自適應(yīng)工具調(diào)用能力,模型可以在對(duì)話過(guò)程中自主決定是否調(diào)用搜索引擎、記憶工具或代碼解釋器。
這種設(shè)計(jì)的直接效果,是減少不必要的工具調(diào)用,讓模型在需要實(shí)時(shí)信息時(shí)觸發(fā)搜索,在需要計(jì)算驗(yàn)證時(shí)調(diào)用代碼解釋器,從而降低幻覺(jué)概率,也讓交互路徑更短、更可控。
第二項(xiàng)創(chuàng)新是測(cè)試時(shí)擴(kuò)展技術(shù)。這個(gè)技術(shù)的核心思路是讓模型在推理過(guò)程中進(jìn)行多輪自我反思。但與簡(jiǎn)單增加并行推理路徑不同,Qwen3-Max-Thinking采用了一種“經(jīng)驗(yàn)累積”機(jī)制,在多輪推理中提取已有結(jié)論,將算力集中在尚不確定的環(huán)節(jié)上,以提升整體推理效率。
從公開(kāi)數(shù)據(jù)來(lái)看,這種取向并非追求單點(diǎn)最優(yōu)。在部分知識(shí)類基準(zhǔn)中,Qwen3-Max-Thinking模型成績(jī)存在差異:例如在C-Eval上略高于Gemini3Pro,而在MMLU-Redux上并未全面領(lǐng)先。
換言之,Qwen這一次主打的是降低交互的復(fù)雜度,讓模型更接近一個(gè)“能直接辦事”的接口,這也點(diǎn)出了2026年春節(jié)檔模型賽馬的一個(gè)重要主題:推理效率和可控性。
從行業(yè)層面看,這一取向并非個(gè)例。幾周前,騰訊CEO、首席AI科學(xué)家姚順雨在AGI-Next峰會(huì)上公開(kāi)表示,希望中國(guó)AI能逐步走出榜單束縛,把注意力更多放在長(zhǎng)期正確的方向上。
近期的多款模型更新,也驗(yàn)證了這一變化正在發(fā)生。
另一方面,Qwen3-Max-Thinking的發(fā)布時(shí)間,也處在一個(gè)相對(duì)敏感的節(jié)點(diǎn)。此前,曾有報(bào)道傳出,阿里和千問(wèn)在央視2026春晚的競(jìng)爭(zhēng)中不敵字節(jié)的豆包,而近期,騰訊元寶等原生C端AI產(chǎn)品也相繼發(fā)力,借助紅包和互動(dòng)玩法快速放大存在感。
AI應(yīng)用層面的“春節(jié)團(tuán)戰(zhàn)”,反過(guò)來(lái)放大了模型側(cè)更新的必要性。在超級(jí)入口資源有限的前提下,通過(guò)模型發(fā)布進(jìn)入討論中心,是一種合理甚至必然的選擇。
這一判斷,也與阿里近期的產(chǎn)品調(diào)整相呼應(yīng)。去年11月,“通義”App更名為“千問(wèn)”,并成立C端事業(yè)群,整合夸克、UC、AI硬件等業(yè)務(wù)線,明確將其定位為面向普通用戶的AI助手產(chǎn)品。
在1月中旬的千問(wèn)發(fā)布會(huì)上,阿里集團(tuán)副總裁吳嘉現(xiàn)場(chǎng)演示了用千問(wèn)完成點(diǎn)奶茶的操作,強(qiáng)調(diào)通過(guò)生態(tài)協(xié)同,讓AI能夠完成具體事務(wù)。但想要支撐更復(fù)雜、跨系統(tǒng)的任務(wù),新一代推理模型自然成為底層能力的關(guān)鍵。
當(dāng)用戶詢問(wèn)“附近哪里有好吃的川菜”時(shí),他們期待的已不只是搜索結(jié)果列表,而是基于實(shí)時(shí)信息、個(gè)人偏好和地理位置的直接推薦與預(yù)訂。
也正是在這一由DeepSeek帶動(dòng)的聲量窗口下,不只是阿里,更多廠商選擇在春節(jié)前集中出牌。模型賽馬,正在演變?yōu)橐粓?chǎng)多路并進(jìn)的集體躍進(jìn)。
02
賽道不止一條,最終要看模型和產(chǎn)品的協(xié)同
幾乎在同一時(shí)間,百度和月之暗面也推進(jìn)了各自的模型迭代,但這兩家公司展示了不同的側(cè)重點(diǎn)。
一周前,百度正式發(fā)布了文心5.0,這是一款參數(shù)規(guī)模達(dá)到2.4萬(wàn)億的全模態(tài)模型,支持文本、圖像、音頻和視頻等多種輸入形式。官方介紹顯示,該模型采用原生全模態(tài)統(tǒng)一建模技術(shù),可處理文本、圖像、音頻、視頻等多種輸入形式,并已在多款百度產(chǎn)品中上線體驗(yàn)。
大而全,這是文心5.0給人的第一印象,該模型在2024年11月首次對(duì)外預(yù)覽,隨后在LMArena排行榜上排名快速上升,目前登頂國(guó)內(nèi)模型榜首。
與模型指標(biāo)相配合的是百度的分發(fā)基礎(chǔ)。公開(kāi)信息顯示,百度旗下的文心助手月活躍用戶已突破2億,而文心5.0可通過(guò)百度千帆平臺(tái)、文心一言官網(wǎng)、文心助手等多端調(diào)用。
顯然,在缺少豆包/千問(wèn)這樣的頭部原生AI產(chǎn)品的情況下,百度更傾向于在其既有的搜索與產(chǎn)品入口上強(qiáng)化能力,借助大流量入口讓新模型能力更快被用戶感知,以鞏固自身“大模型第一梯隊(duì)”的地位。
![]()
所以,想要全面在C端產(chǎn)品賦能,就必須走能力覆蓋沒(méi)有短板的全模態(tài)路線。
與之形成對(duì)照的,是剛完成新一輪融資的月之暗面。
月之暗面在春節(jié)前發(fā)布了KimiK2.5,這是一款在K2基礎(chǔ)上持續(xù)預(yù)訓(xùn)練的原生多模態(tài)模型,使用了約15T的混合視覺(jué)與文本token。相比參數(shù)規(guī)模,Kimi更強(qiáng)調(diào)結(jié)構(gòu)與執(zhí)行方式的變化。
K2.5提出的Agent Swarm范式,是這次更新的核心。模型可以根據(jù)任務(wù)復(fù)雜度,自主組織多達(dá)100個(gè)子Agent并行執(zhí)行,減少任務(wù)編排和等待時(shí)間。官方給出的內(nèi)部評(píng)估顯示,在復(fù)雜任務(wù)中,端到端運(yùn)行時(shí)間可縮短約80%。
圍繞這一能力,月之暗面同步推出了Kimi Code和Office Agent等產(chǎn)品形態(tài)。前者強(qiáng)調(diào)與IDE的集成,后者聚焦辦公場(chǎng)景中的文檔生成與整理。這些產(chǎn)品并不試圖覆蓋所有需求,而是集中在“寫(xiě)代碼”“做文檔”等結(jié)果明確的任務(wù)上。
以O(shè)ffice Agent為例,只要用戶說(shuō)人話提需求,它直接給你出Word/Excel/PPT/PDF成品,并且生成的內(nèi)容是非常專業(yè)的,用戶也不再需要為排版、美化這些事情擔(dān)心,可以說(shuō)是打工人的救星了。
不過(guò),OfficeAgent只能停留在微軟Office可以實(shí)現(xiàn)的范圍內(nèi),無(wú)法像部分通用Agent那樣操作更復(fù)雜的文件或系統(tǒng)。
從行業(yè)角度看,Kimi的路徑通過(guò)模型結(jié)構(gòu)和產(chǎn)品形態(tài)的差異,去吸引開(kāi)發(fā)者和重度用戶的注意力。
另一邊,DeepSeek在傳說(shuō)中的V4大招之前,也在模型應(yīng)用側(cè)有了新產(chǎn)出。
作為開(kāi)源OCR/視覺(jué)理解模型,DeepSeek-OCR2可以用于文檔抽取、表格識(shí)別、票據(jù)與截圖理解等場(chǎng)景的對(duì)照測(cè)試。
OCR2在論文中強(qiáng)調(diào)通過(guò)DeepEncoderV2的“VisualCausalFlow”能力,根據(jù)文檔語(yǔ)義動(dòng)態(tài)重排視覺(jué)token,更貼近多欄、表格與公式的閱讀邏輯。
不過(guò)相比起傳說(shuō)中的V4,OCR2還只是DeepSeek在春節(jié)檔的前菜。
橫向比較目前發(fā)布的幾個(gè)模型不難發(fā)現(xiàn),盡管在聲量上形成了競(jìng)爭(zhēng)態(tài)勢(shì),但不同公司的“最優(yōu)策略”并不統(tǒng)一,而是取決于它們手中已有的籌碼。
從行業(yè)視角看,2026年春節(jié)檔的模型賽馬,已經(jīng)很難再用“誰(shuí)的模型更強(qiáng)”來(lái)簡(jiǎn)單概括。模型更新正在與入口條件、產(chǎn)品形態(tài)和傳播效率深度綁定。
而對(duì)于傳說(shuō)中的DeepSeekV4而言,這意味著想要再現(xiàn)去年的光輝時(shí)刻,似乎將會(huì)遇到更多的挑戰(zhàn)。
03
Coding能力是關(guān)鍵,但不是全部
縱觀最近一段時(shí)間的通用模型發(fā)展方向,行業(yè)的關(guān)注點(diǎn)正在向一個(gè)關(guān)鍵指標(biāo)上收斂——編程能力。
這一風(fēng)向的轉(zhuǎn)變,一方面來(lái)自AI大廠的內(nèi)部業(yè)務(wù)需求,同時(shí)也是因?yàn)榇笱蟊税兜耐性谶^(guò)去一年中持續(xù)地“上強(qiáng)度”。
2025年,Anthropic發(fā)布ClaudeOpus4.5,其在SWE-benchVerified測(cè)試中取得80.9%的成績(jī),成為首個(gè)突破80%門檻的模型。Anthropic隨后強(qiáng)調(diào),該成績(jī)超過(guò)了其內(nèi)部工程招聘考試中所有人類候選者的表現(xiàn)。
不到一個(gè)月后,OpenAI跟進(jìn)發(fā)布GPT-5.2 Codex,在同一測(cè)試中取得80.0%的成績(jī),與Claude Opus4.5基本持平。至此,頭部模型在編程基準(zhǔn)上的競(jìng)爭(zhēng),正式進(jìn)入了白熱化階段。
從應(yīng)用角度分析,大廠愿意集中投入編程能力,是因?yàn)檫@是當(dāng)前商業(yè)價(jià)值最清晰、付費(fèi)意愿最強(qiáng)、反饋?zhàn)羁斓膽?yīng)用場(chǎng)景。無(wú)論是Copilot、CodeInterpreter還是各類Agent工具,編程都是最早跑通商業(yè)閉環(huán)的領(lǐng)域。
![]()
更重要的是,在行業(yè)內(nèi)部,編程能力被視為推理能力的代理指標(biāo)。代碼生成需要模型理解需求、設(shè)計(jì)結(jié)構(gòu)、處理邊界條件,并在出錯(cuò)時(shí)進(jìn)行調(diào)試與修正。這是一整套多步驟、強(qiáng)約束的推理過(guò)程。
正因?yàn)槿绱耍粋€(gè)在編程任務(wù)中表現(xiàn)穩(wěn)定的模型,往往也能在其他復(fù)雜推理任務(wù)中維持質(zhì)量。SWE-bench這類測(cè)試,逐漸從“程序員專用榜單”,演變?yōu)楹饬磕P途C合推理能力的關(guān)鍵窗口。
所以,當(dāng)DeepSeekV4傳出其在編程相關(guān)任務(wù)上的表現(xiàn)超過(guò)現(xiàn)有主流模型,包括Claude與GPT系列時(shí),2026大模型春節(jié)檔引發(fā)的關(guān)注,被抬到了一個(gè)新的高度——甚至不亞于2025年初的場(chǎng)景。
據(jù)了解,V4的突破并不僅體現(xiàn)在得分本身,還包括對(duì)超長(zhǎng)代碼提示詞的解析能力,以及在整個(gè)訓(xùn)練流程中維持穩(wěn)定數(shù)據(jù)模式理解的能力。
結(jié)合去年的R1來(lái)看,外界關(guān)注的核心并不是它是否全面領(lǐng)先,而是:在相對(duì)有限的訓(xùn)練成本下,模型表現(xiàn)接近甚至逼近國(guó)際頂尖水平。
V4再次選擇春節(jié)檔,被業(yè)內(nèi)視為一次高度自覺(jué)的策略延續(xù)——用硬核技術(shù)進(jìn)展,在同一時(shí)間窗口內(nèi)對(duì)標(biāo)全球最強(qiáng)模型,直接爭(zhēng)奪開(kāi)發(fā)者與技術(shù)社區(qū)的注意力。
不過(guò),強(qiáng)調(diào)Coding能力的這個(gè)特征,卻在今年的春節(jié)檔競(jìng)爭(zhēng)中形成了一種微妙的張力。
一方面,編程能力是當(dāng)前模型競(jìng)爭(zhēng)的“硬指標(biāo)”;另一方面,編程并不天然適合在春節(jié)檔展示。與點(diǎn)餐、搜索、生成圖片不同,寫(xiě)代碼往往需要上下文、時(shí)間和專業(yè)背景,傳播效率并不高。
所以,承載著V4的DeepSeek App,會(huì)不會(huì)春節(jié)檔進(jìn)行產(chǎn)品策略的迭代,同樣值得關(guān)注。
事實(shí)上,隨著AI產(chǎn)品在C端全面加速,伴隨著元寶等App的紅包雨,AI春節(jié)檔已經(jīng)不僅僅是要在業(yè)內(nèi)贏得聲量,春節(jié)期間產(chǎn)品的“可展示性”異常重要。用戶需要能夠快速看到產(chǎn)品的價(jià)值,最好是能夠在幾分鐘內(nèi)完成一個(gè)讓人印象深刻的任務(wù)。
比如千問(wèn)“點(diǎn)杯奶茶”演示的例子,就直觀地展示了模型的能力,用戶可以立即理解這個(gè)功能的價(jià)值。
相比之下,那些需要長(zhǎng)時(shí)間使用才能體會(huì)到價(jià)值的功能,在春節(jié)檔的傳播中就會(huì)處于劣勢(shì),尤其是像編程這樣的能力,在做大聲量的環(huán)節(jié)并不占優(yōu)勢(shì)。
也就是說(shuō),和2025春節(jié)檔相比,想要單憑技術(shù)迭代,在如今的AI應(yīng)用市場(chǎng)贏得用戶聲量并非易事。
大廠相繼下場(chǎng)卷AI應(yīng)用的2026年,模型需要配合產(chǎn)品邏輯進(jìn)行優(yōu)化,誰(shuí)能先呈現(xiàn)出可以被用戶快速接受、快速理解的能力,就有望在今年的春節(jié)檔AI賽馬中脫穎而出。
考慮到當(dāng)前業(yè)內(nèi)的關(guān)注度,深度求索和梁文鋒,仍然有可能憑借DeepSeekV4再?gòu)?fù)刻一次“DeepSeek時(shí)刻”。只不過(guò),如今的春節(jié)檔“AI賽馬”,已經(jīng)演變成模型技術(shù)、產(chǎn)品玩法、企業(yè)聲量多個(gè)賽道上的大亂斗。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.