網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)三模齊發(fā)，大模型春節(jié)“賽馬”提前開(kāi)跑

2026-01-30 16:50:35　來(lái)源: 字母榜

北京舉報(bào)

分享至

時(shí)隔一年，2026年大模型行業(yè)“春節(jié)檔”又要來(lái)了。近期的外媒報(bào)道顯示，這場(chǎng)春節(jié)檔競(jìng)爭(zhēng)即將在2月進(jìn)入白熱化。

字節(jié)跳動(dòng)計(jì)劃在下個(gè)月推出三款全新的 AI 模型，分別為豆包 2.0（新一代旗艦大語(yǔ)言模型）、Seedream 5.0（圖像生成模型）以及 SeedDance 2.0（視頻生成模型）。

另一方面，阿里同樣計(jì)劃在春節(jié)假期期間發(fā)布新一代旗艦 AI 模型Qwen 3.5。據(jù)悉，該模型在數(shù)學(xué)推理和代碼能力方面表現(xiàn)突出。有外部分析顯示，來(lái)自中國(guó)頭部AI企業(yè)間的競(jìng)爭(zhēng)，可能在未來(lái)數(shù)年內(nèi)深刻塑造14 億人口使用 AI 的方式。

本月，已經(jīng)有多家頭部廠商在推出或更新關(guān)鍵模型，加速圍繞春節(jié)檔展開(kāi)的“AI競(jìng)賽”。近日DeepSeek團(tuán)隊(duì)開(kāi)源了DeepSeek-OCR2模型，月之暗面發(fā)布了其旗艦?zāi)Ｐ蚄imiK2.5，阿里巴巴也推出了旗下Qwen3-Max-Thinking旗艦推理模型。

換言之，2026年的AI春節(jié)檔，將是一場(chǎng)跨越模型到產(chǎn)品層面的全面競(jìng)爭(zhēng)。在產(chǎn)品前端，元寶、豆包、千問(wèn)正在打響春節(jié)AI紅包大戰(zhàn)；而在模型側(cè)，大家都不想放過(guò)下一個(gè)“DeepSeek時(shí)刻”。

這一趨勢(shì)的起點(diǎn)，可以追溯到2025年春節(jié)前后。彼時(shí)，DeepSeek-R1因較低成本和強(qiáng)大推理能力一度沖擊海外應(yīng)用排行榜，成為國(guó)內(nèi)大模型破圈現(xiàn)象級(jí)事件，也讓春節(jié)檔成為行業(yè)觀察的關(guān)鍵時(shí)間窗口。

從目前已知的模型信息來(lái)看，今年的春節(jié)檔競(jìng)爭(zhēng)不僅是圍繞單一模型能力的對(duì)比，更是多模態(tài)能力、推理性能與應(yīng)用生態(tài)的綜合較量。

此前，有報(bào)道披露，其下一代旗艦?zāi)Ｐ虳eepSeek V4，預(yù)計(jì)將于馬年春節(jié)前后發(fā)布。該模型內(nèi)部測(cè)試顯示，其在代碼生成和長(zhǎng)上下文處理能力上優(yōu)于現(xiàn)有主流大模型，成為業(yè)內(nèi)密切關(guān)注的焦點(diǎn)之一。

所以，這個(gè)春節(jié)檔，友商們面對(duì)春節(jié)檔的熱情也就不難理解了。

這個(gè)馬年春節(jié)，AI行業(yè)注定會(huì)上演一場(chǎng)“萬(wàn)馬奔騰”。

榜單之外，實(shí)際場(chǎng)景很重要

過(guò)去的一周內(nèi)，春節(jié)來(lái)臨前的“模型上新”正在演變成一場(chǎng)聲量競(jìng)賽。

DeepSeek開(kāi)源OCR2、Kimi發(fā)布并開(kāi)源K2.5、阿里發(fā)布Qwen3-Max-Thinking，中國(guó)模型海內(nèi)外AI產(chǎn)品熱點(diǎn)中三度“同框”，業(yè)內(nèi)對(duì)于大模型“下餃子”的討論氛圍也不斷升溫。

近日，阿里千問(wèn)發(fā)布了Qwen3-Max-Thinking推理模型，加入了今年的春節(jié)檔“模型賽馬”。從時(shí)間點(diǎn)上看，這一發(fā)布落在春節(jié)檔窗口期，與近期阿里在AI方向上的一系列動(dòng)作形成呼應(yīng)。

阿里方面披露的信息顯示，該模型總參數(shù)超萬(wàn)億、預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36Ttokens，在19項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出與GPT-5.2-Thinking、Claude-Opus-4.5和Gemini3Pro等頂尖閉源模型相當(dāng)甚至更優(yōu)的性能。

與此前圍繞參數(shù)規(guī)模或榜單名次的發(fā)布不同，這一代模型的技術(shù)取向并未繼續(xù)拉大參數(shù)差距，而是將重心放在推理穩(wěn)定性與工具使用能力上。

阿里云官方博客顯示，Qwen3-Max-Thinking的核心亮點(diǎn)集中在兩個(gè)方面。第一個(gè)是自適應(yīng)工具調(diào)用能力，模型可以在對(duì)話過(guò)程中自主決定是否調(diào)用搜索引擎、記憶工具或代碼解釋器。

這種設(shè)計(jì)的直接效果，是減少不必要的工具調(diào)用，讓模型在需要實(shí)時(shí)信息時(shí)觸發(fā)搜索，在需要計(jì)算驗(yàn)證時(shí)調(diào)用代碼解釋器，從而降低幻覺(jué)概率，也讓交互路徑更短、更可控。

第二項(xiàng)創(chuàng)新是測(cè)試時(shí)擴(kuò)展技術(shù)。這個(gè)技術(shù)的核心思路是讓模型在推理過(guò)程中進(jìn)行多輪自我反思。但與簡(jiǎn)單增加并行推理路徑不同，Qwen3-Max-Thinking采用了一種“經(jīng)驗(yàn)累積”機(jī)制，在多輪推理中提取已有結(jié)論，將算力集中在尚不確定的環(huán)節(jié)上，以提升整體推理效率。

從公開(kāi)數(shù)據(jù)來(lái)看，這種取向并非追求單點(diǎn)最優(yōu)。在部分知識(shí)類基準(zhǔn)中，Qwen3-Max-Thinking模型成績(jī)存在差異：例如在C-Eval上略高于Gemini3Pro，而在MMLU-Redux上并未全面領(lǐng)先。

換言之，Qwen這一次主打的是降低交互的復(fù)雜度，讓模型更接近一個(gè)“能直接辦事”的接口，這也點(diǎn)出了2026年春節(jié)檔模型賽馬的一個(gè)重要主題：推理效率和可控性。

從行業(yè)層面看，這一取向并非個(gè)例。幾周前，騰訊CEO、首席AI科學(xué)家姚順雨在AGI-Next峰會(huì)上公開(kāi)表示，希望中國(guó)AI能逐步走出榜單束縛，把注意力更多放在長(zhǎng)期正確的方向上。

近期的多款模型更新，也驗(yàn)證了這一變化正在發(fā)生。

另一方面，Qwen3-Max-Thinking的發(fā)布時(shí)間，也處在一個(gè)相對(duì)敏感的節(jié)點(diǎn)。此前，曾有報(bào)道傳出，阿里和千問(wèn)在央視2026春晚的競(jìng)爭(zhēng)中不敵字節(jié)的豆包，而近期，騰訊元寶等原生C端AI產(chǎn)品也相繼發(fā)力，借助紅包和互動(dòng)玩法快速放大存在感。

AI應(yīng)用層面的“春節(jié)團(tuán)戰(zhàn)”，反過(guò)來(lái)放大了模型側(cè)更新的必要性。在超級(jí)入口資源有限的前提下，通過(guò)模型發(fā)布進(jìn)入討論中心，是一種合理甚至必然的選擇。

這一判斷，也與阿里近期的產(chǎn)品調(diào)整相呼應(yīng)。去年11月，“通義”App更名為“千問(wèn)”，并成立C端事業(yè)群，整合夸克、UC、AI硬件等業(yè)務(wù)線，明確將其定位為面向普通用戶的AI助手產(chǎn)品。

在1月中旬的千問(wèn)發(fā)布會(huì)上，阿里集團(tuán)副總裁吳嘉現(xiàn)場(chǎng)演示了用千問(wèn)完成點(diǎn)奶茶的操作，強(qiáng)調(diào)通過(guò)生態(tài)協(xié)同，讓AI能夠完成具體事務(wù)。但想要支撐更復(fù)雜、跨系統(tǒng)的任務(wù)，新一代推理模型自然成為底層能力的關(guān)鍵。

當(dāng)用戶詢問(wèn)“附近哪里有好吃的川菜”時(shí)，他們期待的已不只是搜索結(jié)果列表，而是基于實(shí)時(shí)信息、個(gè)人偏好和地理位置的直接推薦與預(yù)訂。

也正是在這一由DeepSeek帶動(dòng)的聲量窗口下，不只是阿里，更多廠商選擇在春節(jié)前集中出牌。模型賽馬，正在演變?yōu)橐粓?chǎng)多路并進(jìn)的集體躍進(jìn)。

賽道不止一條，最終要看模型和產(chǎn)品的協(xié)同

幾乎在同一時(shí)間，百度和月之暗面也推進(jìn)了各自的模型迭代，但這兩家公司展示了不同的側(cè)重點(diǎn)。

一周前，百度正式發(fā)布了文心5.0，這是一款參數(shù)規(guī)模達(dá)到2.4萬(wàn)億的全模態(tài)模型，支持文本、圖像、音頻和視頻等多種輸入形式。官方介紹顯示，該模型采用原生全模態(tài)統(tǒng)一建模技術(shù)，可處理文本、圖像、音頻、視頻等多種輸入形式，并已在多款百度產(chǎn)品中上線體驗(yàn)。

大而全，這是文心5.0給人的第一印象，該模型在2024年11月首次對(duì)外預(yù)覽，隨后在LMArena排行榜上排名快速上升，目前登頂國(guó)內(nèi)模型榜首。

與模型指標(biāo)相配合的是百度的分發(fā)基礎(chǔ)。公開(kāi)信息顯示，百度旗下的文心助手月活躍用戶已突破2億，而文心5.0可通過(guò)百度千帆平臺(tái)、文心一言官網(wǎng)、文心助手等多端調(diào)用。

顯然，在缺少豆包/千問(wèn)這樣的頭部原生AI產(chǎn)品的情況下，百度更傾向于在其既有的搜索與產(chǎn)品入口上強(qiáng)化能力，借助大流量入口讓新模型能力更快被用戶感知，以鞏固自身“大模型第一梯隊(duì)”的地位。

所以，想要全面在C端產(chǎn)品賦能，就必須走能力覆蓋沒(méi)有短板的全模態(tài)路線。

與之形成對(duì)照的，是剛完成新一輪融資的月之暗面。

月之暗面在春節(jié)前發(fā)布了KimiK2.5，這是一款在K2基礎(chǔ)上持續(xù)預(yù)訓(xùn)練的原生多模態(tài)模型，使用了約15T的混合視覺(jué)與文本token。相比參數(shù)規(guī)模，Kimi更強(qiáng)調(diào)結(jié)構(gòu)與執(zhí)行方式的變化。

K2.5提出的Agent Swarm范式，是這次更新的核心。模型可以根據(jù)任務(wù)復(fù)雜度，自主組織多達(dá)100個(gè)子Agent并行執(zhí)行，減少任務(wù)編排和等待時(shí)間。官方給出的內(nèi)部評(píng)估顯示，在復(fù)雜任務(wù)中，端到端運(yùn)行時(shí)間可縮短約80%。

圍繞這一能力，月之暗面同步推出了Kimi Code和Office Agent等產(chǎn)品形態(tài)。前者強(qiáng)調(diào)與IDE的集成，后者聚焦辦公場(chǎng)景中的文檔生成與整理。這些產(chǎn)品并不試圖覆蓋所有需求，而是集中在“寫(xiě)代碼”“做文檔”等結(jié)果明確的任務(wù)上。

以O(shè)ffice Agent為例，只要用戶說(shuō)人話提需求，它直接給你出Word/Excel/PPT/PDF成品，并且生成的內(nèi)容是非常專業(yè)的，用戶也不再需要為排版、美化這些事情擔(dān)心，可以說(shuō)是打工人的救星了。

不過(guò)，OfficeAgent只能停留在微軟Office可以實(shí)現(xiàn)的范圍內(nèi)，無(wú)法像部分通用Agent那樣操作更復(fù)雜的文件或系統(tǒng)。

從行業(yè)角度看，Kimi的路徑通過(guò)模型結(jié)構(gòu)和產(chǎn)品形態(tài)的差異，去吸引開(kāi)發(fā)者和重度用戶的注意力。

另一邊，DeepSeek在傳說(shuō)中的V4大招之前，也在模型應(yīng)用側(cè)有了新產(chǎn)出。

作為開(kāi)源OCR/視覺(jué)理解模型，DeepSeek-OCR2可以用于文檔抽取、表格識(shí)別、票據(jù)與截圖理解等場(chǎng)景的對(duì)照測(cè)試。

OCR2在論文中強(qiáng)調(diào)通過(guò)DeepEncoderV2的“VisualCausalFlow”能力，根據(jù)文檔語(yǔ)義動(dòng)態(tài)重排視覺(jué)token，更貼近多欄、表格與公式的閱讀邏輯。

不過(guò)相比起傳說(shuō)中的V4，OCR2還只是DeepSeek在春節(jié)檔的前菜。

橫向比較目前發(fā)布的幾個(gè)模型不難發(fā)現(xiàn)，盡管在聲量上形成了競(jìng)爭(zhēng)態(tài)勢(shì)，但不同公司的“最優(yōu)策略”并不統(tǒng)一，而是取決于它們手中已有的籌碼。

從行業(yè)視角看，2026年春節(jié)檔的模型賽馬，已經(jīng)很難再用“誰(shuí)的模型更強(qiáng)”來(lái)簡(jiǎn)單概括。模型更新正在與入口條件、產(chǎn)品形態(tài)和傳播效率深度綁定。

而對(duì)于傳說(shuō)中的DeepSeekV4而言，這意味著想要再現(xiàn)去年的光輝時(shí)刻，似乎將會(huì)遇到更多的挑戰(zhàn)。

Coding能力是關(guān)鍵，但不是全部

縱觀最近一段時(shí)間的通用模型發(fā)展方向，行業(yè)的關(guān)注點(diǎn)正在向一個(gè)關(guān)鍵指標(biāo)上收斂——編程能力。

這一風(fēng)向的轉(zhuǎn)變，一方面來(lái)自AI大廠的內(nèi)部業(yè)務(wù)需求，同時(shí)也是因?yàn)榇笱蟊税兜耐性谶^(guò)去一年中持續(xù)地“上強(qiáng)度”。

2025年，Anthropic發(fā)布ClaudeOpus4.5，其在SWE-benchVerified測(cè)試中取得80.9%的成績(jī)，成為首個(gè)突破80%門檻的模型。Anthropic隨后強(qiáng)調(diào)，該成績(jī)超過(guò)了其內(nèi)部工程招聘考試中所有人類候選者的表現(xiàn)。

不到一個(gè)月后，OpenAI跟進(jìn)發(fā)布GPT-5.2 Codex，在同一測(cè)試中取得80.0%的成績(jī)，與Claude Opus4.5基本持平。至此，頭部模型在編程基準(zhǔn)上的競(jìng)爭(zhēng)，正式進(jìn)入了白熱化階段。

從應(yīng)用角度分析，大廠愿意集中投入編程能力，是因?yàn)檫@是當(dāng)前商業(yè)價(jià)值最清晰、付費(fèi)意愿最強(qiáng)、反饋?zhàn)羁斓膽?yīng)用場(chǎng)景。無(wú)論是Copilot、CodeInterpreter還是各類Agent工具，編程都是最早跑通商業(yè)閉環(huán)的領(lǐng)域。

更重要的是，在行業(yè)內(nèi)部，編程能力被視為推理能力的代理指標(biāo)。代碼生成需要模型理解需求、設(shè)計(jì)結(jié)構(gòu)、處理邊界條件，并在出錯(cuò)時(shí)進(jìn)行調(diào)試與修正。這是一整套多步驟、強(qiáng)約束的推理過(guò)程。

正因?yàn)槿绱耍粋€(gè)在編程任務(wù)中表現(xiàn)穩(wěn)定的模型，往往也能在其他復(fù)雜推理任務(wù)中維持質(zhì)量。SWE-bench這類測(cè)試，逐漸從“程序員專用榜單”，演變?yōu)楹饬磕Ｐ途C合推理能力的關(guān)鍵窗口。

所以，當(dāng)DeepSeekV4傳出其在編程相關(guān)任務(wù)上的表現(xiàn)超過(guò)現(xiàn)有主流模型，包括Claude與GPT系列時(shí)，2026大模型春節(jié)檔引發(fā)的關(guān)注，被抬到了一個(gè)新的高度——甚至不亞于2025年初的場(chǎng)景。

據(jù)了解，V4的突破并不僅體現(xiàn)在得分本身，還包括對(duì)超長(zhǎng)代碼提示詞的解析能力，以及在整個(gè)訓(xùn)練流程中維持穩(wěn)定數(shù)據(jù)模式理解的能力。

結(jié)合去年的R1來(lái)看，外界關(guān)注的核心并不是它是否全面領(lǐng)先，而是：在相對(duì)有限的訓(xùn)練成本下，模型表現(xiàn)接近甚至逼近國(guó)際頂尖水平。

V4再次選擇春節(jié)檔，被業(yè)內(nèi)視為一次高度自覺(jué)的策略延續(xù)——用硬核技術(shù)進(jìn)展，在同一時(shí)間窗口內(nèi)對(duì)標(biāo)全球最強(qiáng)模型，直接爭(zhēng)奪開(kāi)發(fā)者與技術(shù)社區(qū)的注意力。

不過(guò)，強(qiáng)調(diào)Coding能力的這個(gè)特征，卻在今年的春節(jié)檔競(jìng)爭(zhēng)中形成了一種微妙的張力。

一方面，編程能力是當(dāng)前模型競(jìng)爭(zhēng)的“硬指標(biāo)”；另一方面，編程并不天然適合在春節(jié)檔展示。與點(diǎn)餐、搜索、生成圖片不同，寫(xiě)代碼往往需要上下文、時(shí)間和專業(yè)背景，傳播效率并不高。

所以，承載著V4的DeepSeek App，會(huì)不會(huì)春節(jié)檔進(jìn)行產(chǎn)品策略的迭代，同樣值得關(guān)注。

事實(shí)上，隨著AI產(chǎn)品在C端全面加速，伴隨著元寶等App的紅包雨，AI春節(jié)檔已經(jīng)不僅僅是要在業(yè)內(nèi)贏得聲量，春節(jié)期間產(chǎn)品的“可展示性”異常重要。用戶需要能夠快速看到產(chǎn)品的價(jià)值，最好是能夠在幾分鐘內(nèi)完成一個(gè)讓人印象深刻的任務(wù)。

比如千問(wèn)“點(diǎn)杯奶茶”演示的例子，就直觀地展示了模型的能力，用戶可以立即理解這個(gè)功能的價(jià)值。

相比之下，那些需要長(zhǎng)時(shí)間使用才能體會(huì)到價(jià)值的功能，在春節(jié)檔的傳播中就會(huì)處于劣勢(shì)，尤其是像編程這樣的能力，在做大聲量的環(huán)節(jié)并不占優(yōu)勢(shì)。

也就是說(shuō)，和2025春節(jié)檔相比，想要單憑技術(shù)迭代，在如今的AI應(yīng)用市場(chǎng)贏得用戶聲量并非易事。

大廠相繼下場(chǎng)卷AI應(yīng)用的2026年，模型需要配合產(chǎn)品邏輯進(jìn)行優(yōu)化，誰(shuí)能先呈現(xiàn)出可以被用戶快速接受、快速理解的能力，就有望在今年的春節(jié)檔AI賽馬中脫穎而出。

考慮到當(dāng)前業(yè)內(nèi)的關(guān)注度，深度求索和梁文鋒，仍然有可能憑借DeepSeekV4再?gòu)?fù)刻一次“DeepSeek時(shí)刻”。只不過(guò)，如今的春節(jié)檔“AI賽馬”，已經(jīng)演變成模型技術(shù)、產(chǎn)品玩法、企業(yè)聲量多個(gè)賽道上的大亂斗。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.