網易首頁 > 網易號 > 正文申請入駐

非Transformer架構新突破，液態神經網絡推理小模型只用900M內存

2026-01-21 18:08:27　來源: 機器之心Pro

廣西舉報

分享至

編輯｜冷貓

谷歌 2017 年提出的 Transformer 架構事實上已經基本壟斷了大模型。

不采用 Transformer 架構的大模型已經是少之又少，而采用非 Transformer 架構，還能與主流第一梯隊大模型扳手腕的，更是鳳毛麟角。

不知道大家是否還有印象，當年有一個嘗試給大模型裝上「蟲腦」的初創公司，他們的研究人員受到秀麗隱桿線蟲的神經結構啟發，研發出一種新型的靈活神經網絡，也被稱為液態神經網絡。

這是一個連續時間模型，由多個簡單的動態系統組成，這些系統通過非線性門相互調節。這種網絡的特點是時間常數可變，輸出通過求解微分方程得到。它在穩定性、表達能力和時間序列預測方面都優于傳統模型。

除此以外，液態神經網絡的另一個特點是規模小得多，在 2024 年該架構就實現了 1.3B 大小的模型部署，但彼時尚未能與主流大模型一拼高下。

提出液態神經網絡架構，并且做出 Liquid Foundation Models（LFM）大模型的，是由 MIT 計算機科學和人工智能實驗室 CSAIL 孵化，成立于 2023 年 3 月的初創公司 Liquid AI。

就在剛剛，Liquid AI 又一次在 LFM 模型上放大招。他們正式發布并開源了 LFM2.5-1.2B-Thinking，一款可完全在端側運行的推理模型。

Liquid AI 聲稱，該模型專門為簡潔推理而訓練；在生成最終答案前，會先生成內部思考軌跡；在端側級別的低延遲條件下，實現系統化的問題求解；在工具使用、數學推理和指令遵循方面表現尤為出色。

該模型在手機上僅需900 MB 內存即可運行，同時在同等規模模型中實現了最快的推理速度和最佳的質量表現。兩年前還必須依賴數據中心才能完成的能力，如今已經可以在你的口袋里離線運行。

Leap 開源鏈接：https://leap.liquid.ai/models
HuggingFace 鏈接：https://huggingface.co/LiquidAI/LFM2.5-1.2B-Thinking

優于 Transformer 的性能

與 Liquid AI 之前的模型 LFM2.5-1.2B-Instruct 相比，LFM2.5-1.2B-Thinking 在三項能力上實現了顯著提升：

數學推理：在 MATH-500 上從 63 提升至 88
指令遵循：在 Multi-IF 上從 61 提升至 69
工具使用：在 BFCLv3 上從 49 提升至 57

在大多數推理基準測試中，LFM2.5-1.2B-Thinking 的表現已與甚至超過 Qwen3-1.7B，盡管其參數量少了約 40%。

同時，該模型在質量與測試時計算效率之間取得了良好平衡：與 Qwen3-1.7B（思考模式）相比，它在使用更少輸出 token 的情況下，依然提供了更高的整體性能。

在推理階段，這一性能差距進一步拉大：LFM2.5-1.2B-Thinking 在推理速度和內存效率兩方面，都優于純 Transformer 模型（如 Qwen3-1.7B）和混合架構模型（如 Granite-4.0-H-1B）。

Liquid AI 表示，LFM2.5-1.2B-Thinking 在智能體式（agentic）任務和高推理強度任務（例如工具使用、數學、編程）中表現尤為突出。當模型需要規劃一系列工具調用、驗證中間結果并動態調整解題策略時，其生成的推理軌跡能夠發揮實際價值。而在對話交互和創意寫作等場景下，則更推薦使用 LFM2.5-1.2B-Instruct。

訓練細節

要構建能力強的小型推理模型，關鍵在于：在知識容量有限的前提下，通過多步推理來彌補能力，同時又要保持答案簡潔，以滿足端側低延遲部署的需求。

此前在 LFM-1B-Math 上的實驗表明，在中期訓練階段引入推理軌跡，有助于模型內化「先推理，再作答」的模式。隨后，基于合成推理軌跡進行的監督微調（SFT），進一步讓模型能夠穩定地產生思維鏈，而無需依賴特定格式的獎勵設計。

然而，SFT 并不能解決推理模型中的一個常見問題：模型可能陷入重復文本模式，遲遲無法得出結論。這種行為通常被稱為「doom looping」（死循環式生成）。為此，Liquid AI 采用了一種相對直接的緩解方法：

在偏好對齊階段，基于 SFT 模型生成了 5 個溫度采樣候選和 1 個貪婪解碼候選；當不存在循環時，選擇由 LLM 評判得分最高的作為正樣本、得分最低的作為負樣本；一旦出現循環生成，則無論評判得分如何，直接將出現循環的候選作為負樣本。
在 RLVR 階段，進一步在訓練早期引入了基于 n-gram 的重復懲罰，以抑制循環生成行為。

通過這些策略，模型在保持推理能力的同時，顯著降低了陷入無效循環的風險。

這一方法在一個具有代表性提示詞的數據集上，將死循環生成的比例從 15.74%（中期訓練階段）顯著降低到了 0.36%（RLVR 階段），效果非常直接且穩定。

Liquid AI 的 RL 訓練流水線核心采用的是無 critic、類 GRPO 方法。整體實現是 reference-free 的，并結合了多項訓練技巧，包括：

非對稱比例裁剪（asymmetric ratio clipping）
對零方差提示組的動態過濾
超長樣本掩碼（overlong-sample masking）
不進行優勢歸一化（no advantage normalization）
截斷的重要性采樣（truncated importance sampling）

RL 方法的簡化示意圖：最終發布的 checkpoint 是一個合并模型，其「家族樹」中包含 25 個不同的子 checkpoint。

Liquid AI 采用了一種高度并行的Curriculum RL 訓練框架，先以指令跟隨的 RLVR 作為基礎起點，再分叉出面向推理、數學、工具使用等不同領域的專項 checkpoint。

這種并行結構不同于傳統的「單模型、多任務同時訓練」方式，往往會引發能力相互干擾。

Curriculum RL 提供了更精細的控制粒度：每個領域的模型都可以獨立優化，擁有各自的獎勵設計、超參數和評估標準。隨后，我們在不同階段進行迭代式模型合并，生成在多種能力之間更均衡的新 checkpoint。

實踐表明，模型合并在保留整體性能的同時，能夠有效吸收專項能力提升，是一條可行且可擴展的通用 RLVR 訓練路徑。

此外，Liquid AI 正在全力拓展 LFM 系列模型的生態系統和合作伙伴。

LFM2.5-1.2B-Thinking 實現了開箱即用支持，兼容最流行的推理框架，包括 llama.cpp、MLX、vLLM 和 ONNX Runtime。所有框架均支持 CPU 和 GPU 加速，覆蓋 Apple、AMD、Qualcomm 和 Nvidia 等硬件。

為了確保 LFM2.5 系列能夠在各種場景下高效運行，Liquid AI 正在快速擴展軟硬件生態系統，并歡迎 Qualcomm Technologies, Inc.、Ollama、FastFlowLM 和 Cactus Compute 作為新的合作伙伴加入。

LFM2.5-1.2B-Thinking 在不同硬件設備上的長上下文推理表現。

LFM2.5-1.2B-Thinking 可能只是個起點，但它已經證明了一件事 ——Transformer 并非唯一解，小而強的端側推理模型或許有更優解。

更重要的是，運行推理模型的門檻越來越低，讓更多設備激發 AI 潛能，不論如何，都是一件美事。

參考鏈接：https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb#training-recipe

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.