最近,AI 圈又炸了!斯坦福大學李飛飛團隊聯合華盛頓大學的研究人員,用不到 50 美元的云計算費用,訓練出了一個名為 s1 的 AI 推理模型。據稱,這個模型在數學和編碼能力測試中,表現與 OpenAI 的o1 和 DeepSeek 的 R1等頂尖推理模型不相上下。
![]()
消息一出,瞬間引發了廣泛討論:50 美元就能復刻 DeepSeek R1?這到底是 AI 領域的重大突破,還是媒體過度炒作的噱頭?今天,我們就來深度解析一下這項研究,看看它到底意味著什么。
一、50 美元背后的真相:低成本訓練的“秘密武器”
1. 低成本的核心:基座模型與蒸餾技術
首先,我們需要明確一點:s1 模型并不是從零開始訓練的。它的低成本訓練建立在阿里云通義千問(Qwen2.5-32B-Instruct)這一開源基座模型之上。
![]()
研究團隊通過蒸餾技術,從谷歌的 Gemini 2.0 Flash Thinking Experimental 模型中提煉知識,并結合精心篩選的 1000 個高質量推理問題(s1K 數據集),對 Qwen 模型進行了監督微調(SFT)。這種“小數據+強蒸餾”的策略,讓 s1 在極低的成本下實現了性能躍升。
2. 訓練成本的計算
根據論文,s1 的訓練僅使用了 16 塊 NVIDIA H100 GPU,耗時 26 分鐘。如果按云服務租賃價格計算,確實只需要幾十美元。
![]()
但需要注意的是,這里的成本僅包括 GPU 算力費用,并不包括基座模型 Qwen 的訓練成本(通常需要數百萬美元),以及人力、數據篩選等其他隱性成本。因此,50 美元更多是一個“噱頭”,實際意義在于展示了如何通過優化訓練方法大幅降低成本。
但是相比于之前閉源大模型動輒上千萬美元的GPU算力費用,S1的進步是顯而易見的。
二、s1 模型的性能表現:真的能媲美 DeepSeek R1 嗎?
1. 特定任務上的優異表現
在競賽數學問題(如 AIME24 和 MATH500)上,s1-32B 的表現確實令人驚艷:它比 OpenAI 的o1-preview 高出 27%,接近 Gemini 2.0的水平。
![]()
這種優異表現主要歸功于兩個關鍵因素:
- s1K 數據集:1000 個高質量問題,涵蓋數學競賽、博士級科學問題等,經過嚴格的難度、多樣性和質量篩選。
- 預算強制法(Budget Forcing):通過控制模型在測試時的計算量(如插入“Wait” token 延長思考時間),s1 在特定任務上表現出了更強的推理能力。
![]()
2. 與 DeepSeek R1 的差距
盡管 s1 在特定任務上表現優異,但與 DeepSeek R1 相比,仍有明顯差距:
- 通用性不足:s1 的表現主要集中在數學推理任務上,而 DeepSeek R1 則覆蓋了更廣泛的場景,如金融建模、工程計算等。
- 依賴外部模型:s1 的推理能力依賴于 Qwen 和 Gemini 的知識遷移,而 DeepSeek R1 采用全自研技術鏈,具備獨立迭代能力。
因此,s1 并不能完全復刻 DeepSeek R1,更多是在特定任務上實現了低成本的高性能推理。
三、低成本訓練的局限性:AI 普惠的曙光還是曇花一現?
1. 依賴強大基座模型
s1 的成功離不開 Qwen 這一強大的基座模型。如果沒有這樣的基座,僅靠 1000 個樣本數據,很難訓練出具備推理能力的模型。
![]()
這也引發了一個問題:基座模型的開發者是否應該獲得更多回報? 如果越來越多的研究依賴于開源基座模型,如何確保 AI 技術的公平使用和共享,將成為業界需要探討的重要議題。
2. 數據量的局限性
s1 的訓練僅使用了 1000 個樣本數據,這在大多數復雜任務場景中是不夠的。雖然研究團隊通過精心篩選數據實現了高性能,但這種方法的可擴展性仍有待驗證。
3. 對 AI 產業的影響
s1 的低成本訓練模式,為中小團隊參與 AI 研發提供了新的可能性。它打破了算力壁壘,讓更多開發者能夠參與到 AI 軍備競賽中。
但同時,這種模式也可能對大型 AI 公司的研發投入構成挑戰。如果頂級模型可以輕易被復刻,那么這些公司的技術積累和商業價值將如何保障?
四、未來展望:低成本 AI 訓練的新方向
1. 小數據+強蒸餾:AI 普惠的關鍵
s1 的研究展示了“小數據+強蒸餾”策略的潛力。未來,隨著基座模型的不斷優化和蒸餾技術的進步,我們或許會看到更多低成本、高性能的 AI 模型問世。
![]()
2. 測試時計算擴展:提升模型性能的新范式
s1 采用的預算強制法,為測試時計算擴展提供了新思路。通過控制模型的思考時間和計算量,可以在不增加訓練成本的情況下,提升模型的推理能力。
![]()
3. 開源生態的繁榮
阿里云通義千問等開源模型的成功,為 AI 普惠奠定了基礎。未來,開源社區或將涌現更多低成本垂直模型,推動 AI 技術的普及和應用。
五、總結:50 美元的啟示
李飛飛團隊的這項研究,雖然不能完全復刻 DeepSeek R1,但它為 AI 領域提供了新的思考方向:如何在保證性能的前提下,大幅降低訓練成本。
![]()
對于開發者而言,這是一次技術普惠的嘗試;對于行業而言,這是一場關于 AI 研發模式的深刻變革。未來,隨著技術的進步,我們或許真的能夠看到更多“低成本、高性能”的 AI 模型,飛入尋常百姓家。
你怎么看待這項研究?歡迎在評論區分享你的觀點!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.