3B打32B？海外病毒式傳播的小模型，竟然來自BOSS直聘

2026-03-09 14:09:17　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜冷貓

這兩年，大模型大廠之間堪比軍備競賽。不論開源還是閉源陣營，為了在指標(biāo)上領(lǐng)先對手，都在瘋狂地卷 Scaling Law，卷算力，卷參數(shù)量，已經(jīng)達(dá)到了近乎離譜的程度。

過去，GPT-2 只有約 1.5B 參數(shù)，放在現(xiàn)在已經(jīng)屬于小模型。而 GPT-4 的參數(shù)規(guī)模業(yè)內(nèi)估計(jì)約為 GPT-3 的 10 倍，至少是萬億水平，更不必論 GPT-5。而現(xiàn)在的開源大模型參數(shù)量同樣在膨脹，大于 600B 參數(shù)的模型比比皆是。

回顧 2026 年前兩個(gè)月的開放權(quán)重模型，Kimi K2.5 和 Ling 2.5 均已經(jīng)達(dá)到萬億參數(shù)規(guī)模，模型結(jié)構(gòu)也愈發(fā)復(fù)雜，而小模型卻是鳳毛麟角。

2026 年 1 月和 2 月發(fā)布的 10 個(gè)開放權(quán)重模型。圖源 Sebastian Raschka： @rasbt

但模型大就一定強(qiáng)嗎？那也未必，模型參數(shù)越大，能力就越強(qiáng)的定律早已經(jīng)搖搖欲墜了。

前些天全網(wǎng)都在討論的「50 米洗車是走去還是開車去」的問題，難倒了一大片大模型，包括超大參數(shù)量的 GPT-5.3 Thinking。

但是，一個(gè) 3B 小模型卻脫穎而出，在這個(gè)萬億級參數(shù)都未能正確推理的問題上，出色地推理出了「洗車必須得開車」的關(guān)鍵點(diǎn)。

圖源：Huggingface 產(chǎn)品負(fù)責(zé)人 Victor M： @victormustar

視頻鏈接：https://mp.weixin.qq.com/s/2aafqNOryRvbTJvC0SjWAg

視頻源：Huggingface 產(chǎn)品負(fù)責(zé)人 Victor M： @victormustar

在效率和成本上，小模型有著不可替代的優(yōu)勢。

有沒有可能，用一個(gè)小模型，就能實(shí)現(xiàn)「越級」，完成推理、編程、搜索等這些需要大量參數(shù)的模型才能完成的任務(wù)，甚至超越大模型的性能表現(xiàn)？

來自BOSS 直聘南北閣實(shí)驗(yàn)室的 Nanbeige4.1-3B給出了一個(gè)頗具沖擊力的答案 —— 用一個(gè)小模型，實(shí)現(xiàn)通用問答，復(fù)雜推理，編寫代碼，深度搜索。

從評測結(jié)果來看，Nanbeige4.1-3B 不僅顯著超越同規(guī)模的開源小模型（如 Qwen3-4B、Qwen3-8B），更在綜合指標(biāo)上超越了參數(shù)量大 10 倍的 Qwen3-32B 與 Qwen3-30B-A3B

這妥妥的外星科技啊。

值得關(guān)注的是，這兩天 Qwen 團(tuán)隊(duì)發(fā)布了 Qwen 3.5 小模型系列，其能力受到廣泛的贊譽(yù)。 Nanbeige4.1-3B 與參數(shù)大小接近的 Qwen3.5-4B 模型進(jìn)行了對比，在 6 大核心指標(biāo)中，Nanbeige4.1-3B 依然整體領(lǐng)先發(fā)布較晚的 Qwen3.5 小模型，體現(xiàn)了極其穩(wěn)健的技術(shù)領(lǐng)先性。

Nanbeige4.1-3B 模型發(fā)布后不久，便迅速登上 HuggingFace 趨勢榜單前列，拿下文本模型趨勢榜第一，并且一度沖進(jìn)全球模型總榜前三，在小模型賽道掀起了一波討論熱潮。

HuggingFace 文本模型趨勢榜第一

這樣一個(gè)模型，參數(shù)量小，推理速度快、部署成本低，卻能夠在核心能力上媲美大模型，無疑是大模型應(yīng)用開發(fā)者的一陣強(qiáng)心劑，讓未來 AI 模型的廣泛應(yīng)用充滿了浪漫如同星河般的想象。

HuggingFace 鏈接： https://huggingface.co/Nanbeige/Nanbeige4.1-3B
Nanbeige4.1-3B 技術(shù)報(bào)告鏈接：https://arxiv.org/abs/2602.13367
Nanbeige4-3B 技術(shù)報(bào)告鏈接：https://arxiv.org/abs/2512.06266

技術(shù)解析：當(dāng) 3B 挑戰(zhàn) 32B ，如何「小而全」？

實(shí)際上，我們對小模型總是有一些刻板印象。因?yàn)榇蟛糠值男∧Ｐ投际芟抻趨?shù)量，導(dǎo)致其長短板都異常明顯。換句話說，就是小模型很難實(shí)現(xiàn)「通用」。

大部分專注于解題的模型往往在長程交互（如深度搜索）上力不從心；而專注于代碼或 Agent 的模型，又缺乏扎實(shí)的通用推理能力和人類偏好對齊能力。

這就是為什么 Nanbeige4.1-3B 在小模型領(lǐng)域中如此重磅。

它是一個(gè)「小而全」的統(tǒng)一通用模型。Nanbeige4.1-3B 的核心突破就在于「統(tǒng)一性」—— 它將通用問答、復(fù)雜推理、代碼能力與深度搜索 Agent 能力系統(tǒng)性整合進(jìn) 3B 規(guī)模之中。

這是一個(gè)很不可思議的能力壓縮。為此，研究團(tuán)隊(duì)采用了一種分階段、分領(lǐng)域的優(yōu)化策略，既能夠確保模型保持各領(lǐng)域的專長，又能夠保持領(lǐng)域間的能力平衡。

通用能力：SFT + 雙階段 RL

在一個(gè)模型的完整訓(xùn)練鏈路里，包含了 SFT 數(shù)據(jù)構(gòu)建和 RL 訓(xùn)練兩大重要支柱。

很多人誤以為，模型在通用任務(wù)的能力主要來自后期 RL 強(qiáng)化。但事實(shí)上，對于小模型而言，SFT 階段決定了能力天花板的高度。如果基礎(chǔ)分布學(xué)歪了，后面再怎么用 RL 修補(bǔ)，都會(huì)事倍功半。

為了在有限模型大小下獲取更強(qiáng)的推理深度，Nanbeige4.1-3B 調(diào)整了指令數(shù)據(jù)的結(jié)構(gòu)比例：提高代碼類樣本的占比；增加數(shù)學(xué)難題和復(fù)雜推理任務(wù)；引入更多跨領(lǐng)域綜合問題。

這種做法對于 3B 規(guī)模尤其重要 —— 因?yàn)樗鼪]有足夠冗余參數(shù)，必須在數(shù)據(jù)分布上提前強(qiáng)化。當(dāng)它在訓(xùn)練中頻繁面對復(fù)雜結(jié)構(gòu)問題時(shí)，參數(shù)空間會(huì)更偏向建模深層邏輯。

決定模型推理能力的第二大關(guān)鍵點(diǎn)，在于上下文長度

在上一代模型中，上下文訓(xùn)練采用兩階段課程，從 32K 擴(kuò)展到 64K，而 Nanbeige4.1-3B 則進(jìn)一步增加到三階段：32K → 64K → 256K。漸進(jìn)式擴(kuò)展，通過課程學(xué)習(xí)的方式讓模型逐步適應(yīng)更長的依賴關(guān)系，更穩(wěn)定地學(xué)習(xí)長距離注意力結(jié)構(gòu)。

第三項(xiàng)優(yōu)化則集中在回復(fù)質(zhì)量的提升

很多模型在推理任務(wù)中雖然能夠給出正確答案，但思維鏈往往存在跳步、邏輯不連貫，甚至是事后補(bǔ)寫解釋的問題，這在小模型下更加明顯。

為了解決這一現(xiàn)象，Nanbeige4.1-3B 升級了 Solution Refinement 與 CoT Reconstruction 兩套框架。

前者通過增加解答迭代優(yōu)化的輪次，讓模型在生成初步答案后進(jìn)行多輪自我修正，從而減少邏輯漏洞并提升推理完整性；后者則通過訓(xùn)練更強(qiáng)的思維鏈重構(gòu)模型，使生成的推理路徑更加忠實(shí)和一致。

從實(shí)驗(yàn)結(jié)果來看，Nanbeige4.1-3B 在采用了上述三點(diǎn) SFT 階段的改進(jìn)方法后，相比前代模型 Nanbeige4-3B 的評估結(jié)果產(chǎn)生了巨大的飛躍，在編碼和數(shù)學(xué)領(lǐng)域的 benchmark 中更為顯著。

讓模型擬合人類偏好，減少錯(cuò)誤回答的現(xiàn)象，尤其是在參數(shù)規(guī)模有限的情況下，RL 重塑模型行為偏好的作用會(huì)被進(jìn)一步放大。

有趣的是，南北閣團(tuán)隊(duì)創(chuàng)新性地將整個(gè) RL 拆分為兩個(gè)階段：

Point-wise RL：核心目標(biāo)很是提升單條回答的質(zhì)量。引入通用 Reward Model，對回答質(zhì)量進(jìn)行評分，顯著降低冗長、重復(fù)與格式錯(cuò)誤。
Pair-wise RL：讓模型與其他對手模型 PK 。對于同一個(gè)問題，比較兩份回答，由 Pair-wise Reward Model 判斷哪一個(gè)更優(yōu)，并給出獎(jiǎng)勵(lì)信號，讓模型在真實(shí)競爭環(huán)境中迭代提升。

這部分其實(shí)是 Nanbeige4.1-3B 在通用強(qiáng)化學(xué)習(xí)階段最關(guān)鍵的設(shè)計(jì)之一。Point-wise RL 提升「智能的整潔度」，而 Pair-wise RL 提升的是「智能的鋒利度」，讓模型既在單點(diǎn)評分中提升，也在對抗評測中獲得收益。

實(shí)驗(yàn)發(fā)現(xiàn)，在加入 Point-wise RL 后，模型在 Arena-Hard V2 的表現(xiàn)顯著提升，并且 LiveCodeBench-v6 的因格式錯(cuò)誤率從 5.27% 降至 0.38%。

在進(jìn)行過 Point-wise RL 的模型基礎(chǔ)上，引入 Pair-wise RL 還可以進(jìn)一步拔高效果，不僅能提升 Pair-wise 打分評測的 Arena-Hard V2，而且也對 Point-wise 打分的 Multi-Challenge 也取得了明顯收益。

編碼能力：先做對，再做快

編碼能力強(qiáng)悍的小模型并不多，其中相當(dāng)一部分還是專為編碼設(shè)計(jì)的模型。要想在一個(gè)全能通用的小模型上實(shí)現(xiàn)相當(dāng)?shù)木幋a性能，那就需要相當(dāng)深刻的工程思維。

Nanbeige4.1-3B 在代碼能力訓(xùn)練中，采用了兩階段 RL 策略，來解決一個(gè)代碼復(fù)雜程度和正確性的兩難矛盾：

第一階段優(yōu)化正確率：pass-rate reward 定義為每個(gè)問題通過的測試用例比例。這一階段的目標(biāo)是確保模型能夠可靠地解決問題。
第二階段在完全正確的前提下，引入時(shí)間復(fù)雜度獎(jiǎng)勵(lì)：Judge 系統(tǒng)通過在線比較模型輸出的預(yù)測時(shí)間復(fù)雜度與參考最優(yōu)邊界來提供反饋，reward 公式如下所示：

代碼強(qiáng)化學(xué)習(xí)中的門控時(shí)間復(fù)雜度獎(jiǎng)勵(lì)設(shè)計(jì)。在該機(jī)制下，時(shí)間獎(jiǎng)勵(lì)僅在解答通過所有測試用例（PassRate = 1）時(shí)才會(huì)被激活。

這種「門控式」設(shè)計(jì)避免了模型在尚未掌握正確解法時(shí)盲目追求效率。訓(xùn)練曲線顯示，模型在第二階段時(shí)間復(fù)雜度獎(jiǎng)勵(lì)顯著提升，同時(shí)保持穩(wěn)定的正確率。

兩階段代碼強(qiáng)化學(xué)習(xí)的訓(xùn)練動(dòng)態(tài)。結(jié)果顯示，從第一階段到第二階段，各項(xiàng)指標(biāo)均呈現(xiàn)出穩(wěn)定且持續(xù)的提升。

這類訓(xùn)練思路，與近期代碼強(qiáng)化學(xué)習(xí)方向的主流趨勢高度一致。

深度搜索：把智能體壓進(jìn)小模型

深度搜索任務(wù)本質(zhì)上是長上下文、多跳推理、工具調(diào)用與信息整合的復(fù)合場景。多數(shù)小模型在這一類任務(wù)上往往「力不從心」。而這恰恰是 Nanbeige4.1-3B 區(qū)別于其他通用小模型的重要特色。

為了增強(qiáng)模型的搜索能力，團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、復(fù)雜的搜索數(shù)據(jù)集，包括從 Wikipedia 實(shí)體關(guān)系圖中衍生的多跳問答對，以及經(jīng)過嚴(yán)格多階段過濾的高質(zhì)量長程搜索軌跡。通過這種方式，訓(xùn)練數(shù)據(jù)天然具備結(jié)構(gòu)復(fù)雜性和可驗(yàn)證性。

在訓(xùn)練階段，系統(tǒng)引入了輪次級（turn-level）的質(zhì)量控制機(jī)制。模型在每一次搜索交互中的行為都會(huì)被獨(dú)立評估，而不僅僅關(guān)注最終答案。

一個(gè) critic 模型從三個(gè)維度進(jìn)行判定：推理過程是否邏輯自洽，工具調(diào)用是否準(zhǔn)確，以及該輪操作是否帶來有效信息增益。若某一輪未達(dá)到標(biāo)準(zhǔn)，在 SFT 階段不會(huì)參與損失計(jì)算；在 RL 階段則會(huì)觸發(fā)負(fù)向獎(jiǎng)勵(lì)。

用于深度搜索的數(shù)據(jù)構(gòu)建流程，包括復(fù)雜多跳問答樣本的采樣，以及長程推理軌跡的合成。

整體來看，這一設(shè)計(jì)的核心是訓(xùn)練模型形成穩(wěn)定的「檢索 — 判斷 — 再檢索」的循環(huán)結(jié)構(gòu)。

通過結(jié)構(gòu)化數(shù)據(jù)生成與過程級獎(jiǎng)勵(lì)約束，即便在 3B 規(guī)模下，模型也能夠逐步學(xué)會(huì)規(guī)劃搜索路徑、控制誤差傳播，并在長上下文條件下保持推理一致性，讓這個(gè) 3B 模型在深度搜索基準(zhǔn)上達(dá)到了專業(yè)搜索 Agent 的水平。

實(shí)驗(yàn)結(jié)果：越級挑戰(zhàn)與實(shí)戰(zhàn)檢驗(yàn)

在綜合基準(zhǔn)測試中，Nanbeige4.1-3B 顯著超越同規(guī)模模型，并在多數(shù)測試上超過參數(shù)規(guī)模 10 倍以上的模型。

更值得注意的是，在與顯著更大規(guī)模的 Qwen3-Next-80B-A3B 模型對比中，Nanbeige4.1-3B 依然保持競爭力，在各個(gè)指標(biāo)上互有勝負(fù)。

Nanbeige4.1-3B 在深度搜索任務(wù)上表現(xiàn)尤為亮眼：

模型在 xBench-DeepSearch-2505 上達(dá)到75 分，在 GAIA（text-only）上達(dá)到69.90 分，這一成績接近專為搜索打造的智能體小模型 AgentCPM-Explore-4B。

正如文章開頭介紹的那樣，研究團(tuán)隊(duì)將 Nanbeige4.1-3B 與發(fā)布時(shí)間晚三周的類似參數(shù)量的新款模型 Qwen3.5-4B 進(jìn)行對比，Nanbeige4.1-3B 基本保持領(lǐng)先姿態(tài)。

真實(shí)任務(wù)評測，比靜態(tài) benchmark 更具說服力。在模型發(fā)布以后，研究團(tuán)隊(duì)特意選取了一些全新的真實(shí)任務(wù)的競賽， Nanbeige4.1 與 Qwen3.5 小模型系列同臺(tái)競技。

在代碼領(lǐng)域的 LeetCode Weekly Contest 與數(shù)學(xué)領(lǐng)域的 HMMT 2026 Feb（哈佛 - 麻省理工數(shù)學(xué)競賽）中，Nanbeige4.1-3B 的表現(xiàn)不僅顯著優(yōu)于 Qwen3.5-4B，甚至超過了參數(shù)量更大的 Qwen3.5-9B。

這些競賽均在模型發(fā)布以后舉辦，完全排除了數(shù)據(jù)記憶的干擾，有力證明了 Nanbeige4.1-3B 具備極強(qiáng)的泛化能力與深度的邏輯推理水平，真正經(jīng)得起實(shí)戰(zhàn)檢驗(yàn)。

總結(jié)：小模型時(shí)代正在加速

Nanbeige4.1-3B 的意義，在于在通用能力上的以小博大

小模型不再只是大模型的「輕量替代品」，而是在精細(xì)化訓(xùn)練方法的加持下，形成獨(dú)立的，通用的能力體系。

參數(shù)規(guī)模的差距正在被訓(xùn)練范式的創(chuàng)新逐步彌補(bǔ)。與此同時(shí)，原本被認(rèn)為依賴大模型規(guī)模優(yōu)勢的 Agent 能力與復(fù)雜推理能力，也開始下沉到更具部署友好性的尺度。

當(dāng) 3B 大小的模型就可以穩(wěn)定處理推理、編程與搜索任務(wù)，企業(yè)側(cè)的部署范式將被重寫。移動(dòng)端、本地化、私有化部署場景的想象空間隨之打開。

未來，BOSS 直聘南北閣實(shí)驗(yàn)室團(tuán)隊(duì)將持續(xù)探索小模型在復(fù)雜代碼生成、科研輔助及真實(shí)工業(yè)環(huán)境中的能力邊界，同時(shí)通過架構(gòu)層面的創(chuàng)新進(jìn)一步釋放小模型潛力。從訓(xùn)練機(jī)制到結(jié)構(gòu)設(shè)計(jì)，小模型的上限仍遠(yuǎn)未觸頂。

大模型的邊界仍在擴(kuò)張，但小模型的效率革命也在發(fā)生。也許未來真正決定 AI 應(yīng)用廣度的，是小參數(shù)的模型所能釋放的智能密度。

小模型的時(shí)代，才剛剛啟幕。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.