網易首頁 > 網易號 > 正文申請入駐

50 美元復刻 DeepSeek R1？李飛飛團隊 AI 研究新突破！

2025-02-08 08:00:05　來源: 萌壹菌

廣東舉報

分享至

最近，AI 圈又炸了！斯坦福大學李飛飛團隊聯合華盛頓大學的研究人員，用不到 50 美元的云計算費用，訓練出了一個名為 s1 的 AI 推理模型。據稱，這個模型在數學和編碼能力測試中，表現與 OpenAI 的o1 和 DeepSeek 的 R1等頂尖推理模型不相上下。

消息一出，瞬間引發了廣泛討論：50 美元就能復刻 DeepSeek R1？這到底是 AI 領域的重大突破，還是媒體過度炒作的噱頭？今天，我們就來深度解析一下這項研究，看看它到底意味著什么。

一、50 美元背后的真相：低成本訓練的“秘密武器”

1. 低成本的核心：基座模型與蒸餾技術

首先，我們需要明確一點：s1 模型并不是從零開始訓練的。它的低成本訓練建立在阿里云通義千問（Qwen2.5-32B-Instruct）這一開源基座模型之上。

研究團隊通過蒸餾技術，從谷歌的 Gemini 2.0 Flash Thinking Experimental 模型中提煉知識，并結合精心篩選的 1000 個高質量推理問題（s1K 數據集），對 Qwen 模型進行了監督微調（SFT）。這種“小數據+強蒸餾”的策略，讓 s1 在極低的成本下實現了性能躍升。

2. 訓練成本的計算

根據論文，s1 的訓練僅使用了 16 塊 NVIDIA H100 GPU，耗時 26 分鐘。如果按云服務租賃價格計算，確實只需要幾十美元。

但需要注意的是，這里的成本僅包括 GPU 算力費用，并不包括基座模型 Qwen 的訓練成本（通常需要數百萬美元），以及人力、數據篩選等其他隱性成本。因此，50 美元更多是一個“噱頭”，實際意義在于展示了如何通過優化訓練方法大幅降低成本。

但是相比于之前閉源大模型動輒上千萬美元的GPU算力費用，S1的進步是顯而易見的。

二、s1 模型的性能表現：真的能媲美 DeepSeek R1 嗎？

1. 特定任務上的優異表現

在競賽數學問題（如 AIME24 和 MATH500）上，s1-32B 的表現確實令人驚艷：它比 OpenAI 的o1-preview 高出 27%，接近 Gemini 2.0的水平。

這種優異表現主要歸功于兩個關鍵因素：

- s1K 數據集：1000 個高質量問題，涵蓋數學競賽、博士級科學問題等，經過嚴格的難度、多樣性和質量篩選。

- 預算強制法（Budget Forcing）：通過控制模型在測試時的計算量（如插入“Wait” token 延長思考時間），s1 在特定任務上表現出了更強的推理能力。

2. 與 DeepSeek R1 的差距

盡管 s1 在特定任務上表現優異，但與 DeepSeek R1 相比，仍有明顯差距：

- 通用性不足：s1 的表現主要集中在數學推理任務上，而 DeepSeek R1 則覆蓋了更廣泛的場景，如金融建模、工程計算等。

- 依賴外部模型：s1 的推理能力依賴于 Qwen 和 Gemini 的知識遷移，而 DeepSeek R1 采用全自研技術鏈，具備獨立迭代能力。

因此，s1 并不能完全復刻 DeepSeek R1，更多是在特定任務上實現了低成本的高性能推理。

三、低成本訓練的局限性：AI 普惠的曙光還是曇花一現？

1. 依賴強大基座模型

s1 的成功離不開 Qwen 這一強大的基座模型。如果沒有這樣的基座，僅靠 1000 個樣本數據，很難訓練出具備推理能力的模型。

這也引發了一個問題：基座模型的開發者是否應該獲得更多回報？ 如果越來越多的研究依賴于開源基座模型，如何確保 AI 技術的公平使用和共享，將成為業界需要探討的重要議題。

2. 數據量的局限性

s1 的訓練僅使用了 1000 個樣本數據，這在大多數復雜任務場景中是不夠的。雖然研究團隊通過精心篩選數據實現了高性能，但這種方法的可擴展性仍有待驗證。

3. 對 AI 產業的影響

s1 的低成本訓練模式，為中小團隊參與 AI 研發提供了新的可能性。它打破了算力壁壘，讓更多開發者能夠參與到 AI 軍備競賽中。

但同時，這種模式也可能對大型 AI 公司的研發投入構成挑戰。如果頂級模型可以輕易被復刻，那么這些公司的技術積累和商業價值將如何保障？

四、未來展望：低成本 AI 訓練的新方向

1. 小數據+強蒸餾：AI 普惠的關鍵

s1 的研究展示了“小數據+強蒸餾”策略的潛力。未來，隨著基座模型的不斷優化和蒸餾技術的進步，我們或許會看到更多低成本、高性能的 AI 模型問世。

2. 測試時計算擴展：提升模型性能的新范式

s1 采用的預算強制法，為測試時計算擴展提供了新思路。通過控制模型的思考時間和計算量，可以在不增加訓練成本的情況下，提升模型的推理能力。

3. 開源生態的繁榮

阿里云通義千問等開源模型的成功，為 AI 普惠奠定了基礎。未來，開源社區或將涌現更多低成本垂直模型，推動 AI 技術的普及和應用。

五、總結：50 美元的啟示

李飛飛團隊的這項研究，雖然不能完全復刻 DeepSeek R1，但它為 AI 領域提供了新的思考方向：如何在保證性能的前提下，大幅降低訓練成本。

對于開發者而言，這是一次技術普惠的嘗試；對于行業而言，這是一場關于 AI 研發模式的深刻變革。未來，隨著技術的進步，我們或許真的能夠看到更多“低成本、高性能”的 AI 模型，飛入尋常百姓家。

你怎么看待這項研究？歡迎在評論區分享你的觀點！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.