![]()
編輯|冷貓
這兩年,大模型大廠之間堪比軍備競賽。不論開源還是閉源陣營,為了在指標(biāo)上領(lǐng)先對手,都在瘋狂地卷 Scaling Law,卷算力,卷參數(shù)量,已經(jīng)達(dá)到了近乎離譜的程度。
過去,GPT-2 只有約 1.5B 參數(shù),放在現(xiàn)在已經(jīng)屬于小模型。而 GPT-4 的參數(shù)規(guī)模業(yè)內(nèi)估計(jì)約為 GPT-3 的 10 倍,至少是萬億水平,更不必論 GPT-5。而現(xiàn)在的開源大模型參數(shù)量同樣在膨脹,大于 600B 參數(shù)的模型比比皆是。
回顧 2026 年前兩個(gè)月的開放權(quán)重模型,Kimi K2.5 和 Ling 2.5 均已經(jīng)達(dá)到萬億參數(shù)規(guī)模,模型結(jié)構(gòu)也愈發(fā)復(fù)雜,而小模型卻是鳳毛麟角。
![]()
2026 年 1 月和 2 月發(fā)布的 10 個(gè)開放權(quán)重模型。圖源 Sebastian Raschka: @rasbt
但模型大就一定強(qiáng)嗎?那也未必,模型參數(shù)越大,能力就越強(qiáng)的定律早已經(jīng)搖搖欲墜了。
![]()
前些天全網(wǎng)都在討論的「50 米洗車是走去還是開車去」的問題,難倒了一大片大模型,包括超大參數(shù)量的 GPT-5.3 Thinking。
![]()
但是,一個(gè) 3B 小模型卻脫穎而出,在這個(gè)萬億級參數(shù)都未能正確推理的問題上,出色地推理出了「洗車必須得開車」的關(guān)鍵點(diǎn)。
![]()
圖源:Huggingface 產(chǎn)品負(fù)責(zé)人 Victor M: @victormustar
![]()
視頻鏈接:https://mp.weixin.qq.com/s/2aafqNOryRvbTJvC0SjWAg
視頻源:Huggingface 產(chǎn)品負(fù)責(zé)人 Victor M: @victormustar
在效率和成本上,小模型有著不可替代的優(yōu)勢。
有沒有可能,用一個(gè)小模型,就能實(shí)現(xiàn)「越級」,完成推理、編程、搜索等這些需要大量參數(shù)的模型才能完成的任務(wù),甚至超越大模型的性能表現(xiàn)?
來自BOSS 直聘 南北閣實(shí)驗(yàn)室 的 Nanbeige4.1-3B給出了一個(gè)頗具沖擊力的答案 —— 用一個(gè)小模型,實(shí)現(xiàn)通用問答,復(fù)雜推理,編寫代碼,深度搜索。
![]()
從評測結(jié)果來看,Nanbeige4.1-3B 不僅顯著超越同規(guī)模的開源小模型(如 Qwen3-4B、Qwen3-8B),更在綜合指標(biāo)上超越了參數(shù)量大 10 倍的 Qwen3-32B 與 Qwen3-30B-A3B
這妥妥的外星科技啊。
![]()
值得關(guān)注的是,這兩天 Qwen 團(tuán)隊(duì)發(fā)布了 Qwen 3.5 小模型系列,其能力受到廣泛的贊譽(yù)。 Nanbeige4.1-3B 與參數(shù)大小接近的 Qwen3.5-4B 模型進(jìn)行了對比,在 6 大核心指標(biāo)中,Nanbeige4.1-3B 依然整體領(lǐng)先發(fā)布較晚的 Qwen3.5 小模型,體現(xiàn)了極其穩(wěn)健的技術(shù)領(lǐng)先性。
Nanbeige4.1-3B 模型發(fā)布后不久,便迅速登上 HuggingFace 趨勢榜單前列,拿下文本模型趨勢榜第一,并且一度沖進(jìn)全球模型總榜前三,在小模型賽道掀起了一波討論熱潮。
![]()
HuggingFace 文本模型趨勢榜第一
這樣一個(gè)模型,參數(shù)量小,推理速度快、部署成本低,卻能夠在核心能力上媲美大模型,無疑是大模型應(yīng)用開發(fā)者的一陣強(qiáng)心劑,讓未來 AI 模型的廣泛應(yīng)用充滿了浪漫如同星河般的想象。
![]()
- HuggingFace 鏈接: https://huggingface.co/Nanbeige/Nanbeige4.1-3B
- Nanbeige4.1-3B 技術(shù)報(bào)告鏈接 :https://arxiv.org/abs/2602.13367
- Nanbeige4-3B 技術(shù)報(bào)告鏈接:https://arxiv.org/abs/2512.06266
技術(shù)解析:當(dāng) 3B 挑戰(zhàn) 32B ,如何「小而全」?
實(shí)際上,我們對小模型總是有一些刻板印象。因?yàn)榇蟛糠值男∧P投际芟抻趨?shù)量,導(dǎo)致其長短板都異常明顯。換句話說,就是小模型很難實(shí)現(xiàn)「通用」。
大部分專注于解題的模型往往在長程交互(如深度搜索)上力不從心;而專注于代碼或 Agent 的模型,又缺乏扎實(shí)的通用推理能力和人類偏好對齊能力。
這就是為什么 Nanbeige4.1-3B 在小模型領(lǐng)域中如此重磅。
它是一個(gè)「小而全」的統(tǒng)一通用模型。Nanbeige4.1-3B 的核心突破就在于「統(tǒng)一性」—— 它將通用問答、復(fù)雜推理、代碼能力與深度搜索 Agent 能力系統(tǒng)性整合進(jìn) 3B 規(guī)模之中。
這是一個(gè)很不可思議的能力壓縮。為此,研究團(tuán)隊(duì)采用了一種分階段、分領(lǐng)域的優(yōu)化策略,既能夠確保模型保持各領(lǐng)域的專長,又能夠保持領(lǐng)域間的能力平衡。
通用能力:SFT + 雙階段 RL
在一個(gè)模型的完整訓(xùn)練鏈路里,包含了 SFT 數(shù)據(jù)構(gòu)建和 RL 訓(xùn)練兩大重要支柱。
很多人誤以為,模型在通用任務(wù)的能力主要來自后期 RL 強(qiáng)化。但事實(shí)上,對于小模型而言,SFT 階段決定了能力天花板的高度。如果基礎(chǔ)分布學(xué)歪了,后面再怎么用 RL 修補(bǔ),都會(huì)事倍功半。
為了在有限模型大小下獲取更強(qiáng)的推理深度,Nanbeige4.1-3B 調(diào)整了指令數(shù)據(jù)的結(jié)構(gòu)比例:提高代碼類樣本的占比;增加數(shù)學(xué)難題和復(fù)雜推理任務(wù);引入更多跨領(lǐng)域綜合問題。
這種做法對于 3B 規(guī)模尤其重要 —— 因?yàn)樗鼪]有足夠冗余參數(shù),必須在數(shù)據(jù)分布上提前強(qiáng)化。 當(dāng)它在訓(xùn)練中頻繁面對復(fù)雜結(jié)構(gòu)問題時(shí),參數(shù)空間會(huì)更偏向建模深層邏輯。
決定模型推理能力的第二大關(guān)鍵點(diǎn),在于上下文長度
在上一代模型中,上下文訓(xùn)練采用兩階段課程,從 32K 擴(kuò)展到 64K,而 Nanbeige4.1-3B 則進(jìn)一步增加到三階段:32K → 64K → 256K。漸進(jìn)式擴(kuò)展,通過課程學(xué)習(xí)的方式讓模型逐步適應(yīng)更長的依賴關(guān)系,更穩(wěn)定地學(xué)習(xí)長距離注意力結(jié)構(gòu)。
第三項(xiàng)優(yōu)化則集中在回復(fù)質(zhì)量的提升
很多模型在推理任務(wù)中雖然能夠給出正確答案,但思維鏈往往存在跳步、邏輯不連貫,甚至是事后補(bǔ)寫解釋的問題,這在小模型下更加明顯。
為了解決這一現(xiàn)象,Nanbeige4.1-3B 升級了 Solution Refinement 與 CoT Reconstruction 兩套框架。
![]()
前者通過增加解答迭代優(yōu)化的輪次,讓模型在生成初步答案后進(jìn)行多輪自我修正,從而減少邏輯漏洞并提升推理完整性;后者則通過訓(xùn)練更強(qiáng)的思維鏈重構(gòu)模型,使生成的推理路徑更加忠實(shí)和一致。
從實(shí)驗(yàn)結(jié)果來看,Nanbeige4.1-3B 在采用了上述三點(diǎn) SFT 階段的改進(jìn)方法后,相比前代模型 Nanbeige4-3B 的評估結(jié)果產(chǎn)生了巨大的飛躍,在編碼和數(shù)學(xué)領(lǐng)域的 benchmark 中更為顯著。
![]()
讓模型擬合人類偏好,減少錯(cuò)誤回答的現(xiàn)象,尤其是在參數(shù)規(guī)模有限的情況下,RL 重塑模型行為偏好的作用會(huì)被進(jìn)一步放大。
有趣的是,南北閣團(tuán)隊(duì)創(chuàng)新性地將整個(gè) RL 拆分為兩個(gè)階段:
- Point-wise RL:核心目標(biāo)很是提升單條回答的質(zhì)量。引入通用 Reward Model,對回答質(zhì)量進(jìn)行評分,顯著降低冗長、重復(fù)與格式錯(cuò)誤。
- Pair-wise RL:讓模型與其他對手模型 PK 。對于同一個(gè)問題,比較兩份回答,由 Pair-wise Reward Model 判斷哪一個(gè)更優(yōu),并給出獎(jiǎng)勵(lì)信號,讓模型在真實(shí)競爭環(huán)境中迭代提升。
![]()
這部分其實(shí)是 Nanbeige4.1-3B 在通用強(qiáng)化學(xué)習(xí)階段最關(guān)鍵的設(shè)計(jì)之一。Point-wise RL 提升「智能的整潔度」,而 Pair-wise RL 提升的是「智能的鋒利度」,讓模型既在單點(diǎn)評分中提升,也在對抗評測中獲得收益。
實(shí)驗(yàn)發(fā)現(xiàn),在加入 Point-wise RL 后,模型在 Arena-Hard V2 的表現(xiàn)顯著提升,并且 LiveCodeBench-v6 的因格式錯(cuò)誤率從 5.27% 降至 0.38%。
在進(jìn)行過 Point-wise RL 的模型基礎(chǔ)上,引入 Pair-wise RL 還可以進(jìn)一步拔高效果,不僅能提升 Pair-wise 打分評測的 Arena-Hard V2,而且也對 Point-wise 打分的 Multi-Challenge 也取得了明顯收益。
編碼能力:先做對,再做快
編碼能力強(qiáng)悍的小模型并不多,其中相當(dāng)一部分還是專為編碼設(shè)計(jì)的模型。要想在一個(gè)全能通用的小模型上實(shí)現(xiàn)相當(dāng)?shù)木幋a性能,那就需要相當(dāng)深刻的工程思維。
Nanbeige4.1-3B 在代碼能力訓(xùn)練中,采用了兩階段 RL 策略,來解決一個(gè)代碼復(fù)雜程度和正確性的兩難矛盾:
- 第一階段優(yōu)化正確率:pass-rate reward 定義為每個(gè)問題通過的測試用例比例。這一階段的目標(biāo)是確保模型能夠可靠地解決問題。
- 第二階段在完全正確的前提下,引入時(shí)間復(fù)雜度獎(jiǎng)勵(lì):Judge 系統(tǒng)通過在線比較模型輸出的預(yù)測時(shí)間復(fù)雜度與參考最優(yōu)邊界來提供反饋,reward 公式如下所示:
![]()
![]()
代碼強(qiáng)化學(xué)習(xí)中的門控時(shí)間復(fù)雜度獎(jiǎng)勵(lì)設(shè)計(jì)。在該機(jī)制下,時(shí)間獎(jiǎng)勵(lì)僅在解答通過所有測試用例(PassRate = 1)時(shí)才會(huì)被激活。
這種「門控式」設(shè)計(jì)避免了模型在尚未掌握正確解法時(shí)盲目追求效率。訓(xùn)練曲線顯示,模型在第二階段時(shí)間復(fù)雜度獎(jiǎng)勵(lì)顯著提升,同時(shí)保持穩(wěn)定的正確率。
![]()
兩階段代碼強(qiáng)化學(xué)習(xí)的訓(xùn)練動(dòng)態(tài)。結(jié)果顯示,從第一階段到第二階段,各項(xiàng)指標(biāo)均呈現(xiàn)出穩(wěn)定且持續(xù)的提升。
這類訓(xùn)練思路,與近期代碼強(qiáng)化學(xué)習(xí)方向的主流趨勢高度一致。
深度搜索:把智能體壓進(jìn)小模型
深度搜索任務(wù)本質(zhì)上是長上下文、多跳推理、工具調(diào)用與信息整合的復(fù)合場景。多數(shù)小模型在這一類任務(wù)上往往「力不從心」。而這恰恰是 Nanbeige4.1-3B 區(qū)別于其他通用小模型的重要特色。
為了增強(qiáng)模型的搜索能力,團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、復(fù)雜的搜索數(shù)據(jù)集,包括從 Wikipedia 實(shí)體關(guān)系圖中衍生的多跳問答對,以及經(jīng)過嚴(yán)格多階段過濾的高質(zhì)量長程搜索軌跡。通過這種方式,訓(xùn)練數(shù)據(jù)天然具備結(jié)構(gòu)復(fù)雜性和可驗(yàn)證性。
在訓(xùn)練階段,系統(tǒng)引入了輪次級(turn-level)的質(zhì)量控制機(jī)制。模型在每一次搜索交互中的行為都會(huì)被獨(dú)立評估,而不僅僅關(guān)注最終答案。
一個(gè) critic 模型從三個(gè)維度進(jìn)行判定:推理過程是否邏輯自洽,工具調(diào)用是否準(zhǔn)確,以及該輪操作是否帶來有效信息增益。若某一輪未達(dá)到標(biāo)準(zhǔn),在 SFT 階段不會(huì)參與損失計(jì)算;在 RL 階段則會(huì)觸發(fā)負(fù)向獎(jiǎng)勵(lì)。
![]()
用于深度搜索的數(shù)據(jù)構(gòu)建流程,包括復(fù)雜多跳問答樣本的采樣,以及長程推理軌跡的合成。
整體來看,這一設(shè)計(jì)的核心是訓(xùn)練模型形成穩(wěn)定的「檢索 — 判斷 — 再檢索」的循環(huán)結(jié)構(gòu)。
通過結(jié)構(gòu)化數(shù)據(jù)生成與過程級獎(jiǎng)勵(lì)約束,即便在 3B 規(guī)模下,模型也能夠逐步學(xué)會(huì)規(guī)劃搜索路徑、控制誤差傳播,并在長上下文條件下保持推理一致性,讓這個(gè) 3B 模型在深度搜索基準(zhǔn)上達(dá)到了專業(yè)搜索 Agent 的水平。
實(shí)驗(yàn)結(jié)果:越級挑戰(zhàn)與實(shí)戰(zhàn)檢驗(yàn)
在綜合基準(zhǔn)測試中,Nanbeige4.1-3B 顯著超越同規(guī)模模型,并在多數(shù)測試上超過參數(shù)規(guī)模 10 倍以上的模型。
![]()
更值得注意的是,在與顯著更大規(guī)模的 Qwen3-Next-80B-A3B 模型對比中,Nanbeige4.1-3B 依然保持競爭力,在各個(gè)指標(biāo)上互有勝負(fù)。
Nanbeige4.1-3B 在深度搜索任務(wù)上表現(xiàn)尤為亮眼:
![]()
模型在 xBench-DeepSearch-2505 上達(dá)到75 分,在 GAIA(text-only)上達(dá)到69.90 分,這一成績接近專為搜索打造的智能體小模型 AgentCPM-Explore-4B。
正如文章開頭介紹的那樣,研究團(tuán)隊(duì)將 Nanbeige4.1-3B 與發(fā)布時(shí)間晚三周的類似參數(shù)量的新款模型 Qwen3.5-4B 進(jìn)行對比,Nanbeige4.1-3B 基本保持領(lǐng)先姿態(tài)。
![]()
真實(shí)任務(wù)評測,比靜態(tài) benchmark 更具說服力。在模型發(fā)布以后,研究團(tuán)隊(duì)特意選取了一些全新的真實(shí)任務(wù)的競賽, Nanbeige4.1 與 Qwen3.5 小模型系列同臺(tái)競技。
在代碼領(lǐng)域的 LeetCode Weekly Contest 與數(shù)學(xué)領(lǐng)域的 HMMT 2026 Feb(哈佛 - 麻省理工數(shù)學(xué)競賽) 中,Nanbeige4.1-3B 的表現(xiàn)不僅顯著優(yōu)于 Qwen3.5-4B,甚至超過了參數(shù)量更大的 Qwen3.5-9B。
![]()
![]()
這些競賽均在模型發(fā)布以后舉辦,完全排除了數(shù)據(jù)記憶的干擾,有力證明了 Nanbeige4.1-3B 具備極強(qiáng)的泛化能力與深度的邏輯推理水平,真正經(jīng)得起實(shí)戰(zhàn)檢驗(yàn)。
總結(jié):小模型時(shí)代正在加速
Nanbeige4.1-3B 的意義,在于在通用能力上的以小博大
小模型不再只是大模型的「輕量替代品」,而是在精細(xì)化訓(xùn)練方法的加持下,形成獨(dú)立的,通用的能力體系。
參數(shù)規(guī)模的差距正在被訓(xùn)練范式的創(chuàng)新逐步彌補(bǔ)。與此同時(shí),原本被認(rèn)為依賴大模型規(guī)模優(yōu)勢的 Agent 能力與復(fù)雜推理能力,也開始下沉到更具部署友好性的尺度。
當(dāng) 3B 大小的模型就可以穩(wěn)定處理推理、編程與搜索任務(wù),企業(yè)側(cè)的部署范式將被重寫。移動(dòng)端、本地化、私有化部署場景的想象空間隨之打開。
未來,BOSS 直聘南北閣實(shí)驗(yàn)室團(tuán)隊(duì)將持續(xù)探索小模型在復(fù)雜代碼生成、科研輔助及真實(shí)工業(yè)環(huán)境中的能力邊界,同時(shí)通過架構(gòu)層面的創(chuàng)新進(jìn)一步釋放小模型潛力。從訓(xùn)練機(jī)制到結(jié)構(gòu)設(shè)計(jì),小模型的上限仍遠(yuǎn)未觸頂。
大模型的邊界仍在擴(kuò)張,但小模型的效率革命也在發(fā)生。也許未來真正決定 AI 應(yīng)用廣度的,是小參數(shù)的模型所能釋放的智能密度。
小模型的時(shí)代,才剛剛啟幕。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.