編輯|冷貓
谷歌 2017 年提出的 Transformer 架構事實上已經基本壟斷了大模型。
不采用 Transformer 架構的大模型已經是少之又少,而采用非 Transformer 架構,還能與主流第一梯隊大模型扳手腕的,更是鳳毛麟角。
不知道大家是否還有印象,當年有一個嘗試給大模型裝上「蟲腦」的初創公司,他們的研究人員受到秀麗隱桿線蟲的神經結構啟發,研發出一種新型的靈活神經網絡,也被稱為液態神經網絡。
這是一個連續時間模型,由多個簡單的動態系統組成,這些系統通過非線性門相互調節。這種網絡的特點是時間常數可變,輸出通過求解微分方程得到。它在穩定性、表達能力和時間序列預測方面都優于傳統模型。
除此以外,液態神經網絡的另一個特點是規模小得多,在 2024 年該架構就實現了 1.3B 大小的模型部署,但彼時尚未能與主流大模型一拼高下。
提出液態神經網絡架構,并且做出 Liquid Foundation Models(LFM)大模型的,是由 MIT 計算機科學和人工智能實驗室 CSAIL 孵化,成立于 2023 年 3 月的初創公司 Liquid AI。
就在剛剛,Liquid AI 又一次在 LFM 模型上放大招。他們正式發布并開源了 LFM2.5-1.2B-Thinking,一款可完全在端側運行的推理模型。
![]()
Liquid AI 聲稱,該模型專門為簡潔推理而訓練;在生成最終答案前,會先生成內部思考軌跡;在端側級別的低延遲條件下,實現系統化的問題求解;在工具使用、數學推理和指令遵循方面表現尤為出色。
該模型在手機上僅需900 MB 內存即可運行,同時在同等規模模型中實現了最快的推理速度和最佳的質量表現。兩年前還必須依賴數據中心才能完成的能力,如今已經可以在你的口袋里離線運行。
![]()
- Leap 開源鏈接:https://leap.liquid.ai/models
- HuggingFace 鏈接:https://huggingface.co/LiquidAI/LFM2.5-1.2B-Thinking
優于 Transformer 的性能
與 Liquid AI 之前的模型 LFM2.5-1.2B-Instruct 相比,LFM2.5-1.2B-Thinking 在三項能力上實現了顯著提升:
- 數學推理:在 MATH-500 上從 63 提升至 88
- 指令遵循:在 Multi-IF 上從 61 提升至 69
- 工具使用:在 BFCLv3 上從 49 提升至 57
在大多數推理基準測試中,LFM2.5-1.2B-Thinking 的表現已與甚至超過 Qwen3-1.7B,盡管其參數量少了 約 40%。
![]()
![]()
同時,該模型在質量與測試時計算效率之間取得了良好平衡:與 Qwen3-1.7B(思考模式) 相比,它在使用更少輸出 token 的情況下,依然提供了更高的整體性能。
![]()
在推理階段,這一性能差距進一步拉大:LFM2.5-1.2B-Thinking 在推理速度和內存效率兩方面,都優于純 Transformer 模型(如 Qwen3-1.7B)和混合架構模型(如 Granite-4.0-H-1B)。
![]()
Liquid AI 表示,LFM2.5-1.2B-Thinking 在 智能體式(agentic)任務和高推理強度任務(例如工具使用、數學、編程)中表現尤為突出。當模型需要規劃一系列工具調用、驗證中間結果并動態調整解題策略時,其生成的推理軌跡能夠發揮實際價值。而在對話交互和創意寫作等場景下,則更推薦使用 LFM2.5-1.2B-Instruct。
訓練細節
要構建能力強的小型推理模型,關鍵在于:在知識容量有限的前提下,通過多步推理來彌補能力,同時又要保持答案簡潔,以滿足端側低延遲部署的需求。
此前在 LFM-1B-Math 上的實驗表明,在中期訓練階段引入推理軌跡,有助于模型內化「先推理,再作答」的模式。隨后,基于合成推理軌跡進行的監督微調(SFT),進一步讓模型能夠穩定地產生思維鏈,而無需依賴特定格式的獎勵設計。
然而,SFT 并不能解決推理模型中的一個常見問題:模型可能陷入重復文本模式,遲遲無法得出結論。這種行為通常被稱為「doom looping」(死循環式生成)。為此,Liquid AI 采用了一種相對直接的緩解方法:
- 在偏好對齊階段,基于 SFT 模型生成了 5 個溫度采樣候選和 1 個貪婪解碼候選;當不存在循環時,選擇由 LLM 評判得分最高的作為正樣本、得分最低的作為負樣本;一旦出現循環生成,則無論評判得分如何,直接將出現循環的候選作為負樣本。
- 在 RLVR 階段,進一步在訓練早期引入了基于 n-gram 的重復懲罰,以抑制循環生成行為。
通過這些策略,模型在保持推理能力的同時,顯著降低了陷入無效循環的風險。
![]()
這一方法在一個具有代表性提示詞的數據集上,將死循環生成的比例從 15.74%(中期訓練階段) 顯著降低到了 0.36%(RLVR 階段),效果非常直接且穩定。
Liquid AI 的 RL 訓練流水線核心采用的是無 critic、類 GRPO 方法。整體實現是 reference-free 的,并結合了多項訓練技巧,包括:
- 非對稱比例裁剪(asymmetric ratio clipping)
- 對零方差提示組的動態過濾
- 超長樣本掩碼(overlong-sample masking)
- 不進行優勢歸一化(no advantage normalization)
- 截斷的重要性采樣(truncated importance sampling)
![]()
RL 方法的簡化示意圖:最終發布的 checkpoint 是一個合并模型,其「家族樹」中包含 25 個不同的子 checkpoint。
Liquid AI 采用了一種高度并行的Curriculum RL 訓練框架,先以指令跟隨的 RLVR 作為基礎起點,再分叉出面向推理、數學、工具使用等不同領域的專項 checkpoint。
這種并行結構不同于傳統的「單模型、多任務同時訓練」方式,往往會引發能力相互干擾。
Curriculum RL 提供了更精細的控制粒度:每個領域的模型都可以獨立優化,擁有各自的獎勵設計、超參數和評估標準。隨后,我們在不同階段進行迭代式模型合并,生成在多種能力之間更均衡的新 checkpoint。
實踐表明,模型合并在保留整體性能的同時,能夠有效吸收專項能力提升,是一條可行且可擴展的通用 RLVR 訓練路徑。
此外,Liquid AI 正在全力拓展 LFM 系列模型的生態系統和合作伙伴。
LFM2.5-1.2B-Thinking 實現了開箱即用支持,兼容最流行的推理框架,包括 llama.cpp、MLX、vLLM 和 ONNX Runtime。所有框架均支持 CPU 和 GPU 加速,覆蓋 Apple、AMD、Qualcomm 和 Nvidia 等硬件。
為了確保 LFM2.5 系列 能夠在各種場景下高效運行,Liquid AI 正在快速擴展軟硬件生態系統,并歡迎 Qualcomm Technologies, Inc.、Ollama、FastFlowLM 和 Cactus Compute 作為新的合作伙伴加入。
![]()
LFM2.5-1.2B-Thinking 在不同硬件設備上的長上下文推理表現。
LFM2.5-1.2B-Thinking 可能只是個起點,但它已經證明了一件事 ——Transformer 并非唯一解,小而強的端側推理模型或許有更優解。
更重要的是,運行推理模型的門檻越來越低,讓更多設備激發 AI 潛能,不論如何,都是一件美事。
參考鏈接:https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb#training-recipe
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.