編輯|Panda
路透社最新消息,Meta 新成立的 AI 團隊本月已在內部交付了首批關鍵模型。據悉,該消息來自 Meta 公司的 CTO Andrew Bosworth,他表示該團隊的 AI 模型「非常好」(very good)。
媒體在去年 12 月報道稱,Meta 公司正在開發一款代號為Avocado的文本 AI 模型,計劃于第一季度發布;同時還在開發一款代號為Mango的圖像和視頻 AI 模型。Bosworth 并未透露哪些模型已交付內部使用。
有意思的是,就在這篇報道的前些天,一篇技術報告《Llama 4 家族:架構、訓練、評估和部署說明》在 arXiv 悄然上線,其中全面回顧了 Meta Llama 4 系列模型宣稱的數據和技術成就。
![]()
- 報告標題:The Llama 4 Herd: Architecture, Training, Evaluation, and Deployment Notes
- 報告地址:https://arxiv.org/abs/2601.11659v1
需要說明,上傳這篇報告的作者是 Meta 一位機器學習工程師 Arthur Hinsvark,但這篇報告卻并未明確標識來自 Meta。
![]()
盡管如此,這篇報告還是將 Llama 4 項目的所有參與者都加入到了作者名單中 —— 超過 1300 名,足足 5 頁!因此,我們可以大體上認為這份報告就是來自 Llama 4 團隊,盡管其中不少人現在已經從 Meta 離職,比如前 Meta FAIR 團隊研究總監田淵棟。
值得注意的是,這篇報告的引言有一段明確說明:「本文檔是對公開材料的獨立調查。報告的基準數值歸因于模型卡,除非另有說明;應將它們視為開發者報告的結果,并對評估工具、提示工程和后處理持通常的保留態度。」
也就是說,這篇報告整體回顧了 Meta 公布的各種 Llama 4 相關材料,尤其是其宣稱的一些數據。但沒有明確解釋其在實際應用中表現明顯不及預期的原因。想要了解相關背景的讀者可參閱:
- Meta Llama 4 被疑考試「作弊」:在競技場刷高分,但實戰中頻頻翻車
- Llama 4 在測試集上訓練?內部員工、官方下場澄清,LeCun 轉發
不過,該報告也不是完全沒有提到相關原因,仔細閱讀的話,我們能在行文中看到一些端倪,其中主要的討論點集中在部署限制和榜單爭議上:
- 架構能力與實際部署的差距(尤其是上下文長度):論文反復強調了一個「經常出現的操作主題」:模型的架構支持能力與實際服務中提供的能力之間存在差距。雖然 Scout 在架構上設計為支持 10M 上下文長度,但在實際部署中(如 Cloudflare 或 AWS),由于顯存和 KV 緩存的硬件成本限制,服務商往往將可用上下文限制在 128K 或 1M。這意味著用戶在實際使用托管服務時,可能無法體驗到模型宣稱的全部長上下文能力。
- 榜單成績與發布版本的差異:論文提到了關于 LMArena 排行榜的爭議。Meta 在榜單上提交的 Maverick「實驗性聊天」變體與公開發布的版本不完全相同。這導致了外界批評其「操縱基準測試」(gaming AI benchmarks)。這也解釋了為什么用戶使用公開發布版本時的體驗可能與某些榜單上的高分表現不一致。
- 營銷話術與技術指標的區別:論文明確指出,發布公告中的某些聲稱(例如 Scout 是「同類最佳」或強調性價比)屬于「面向營銷的主張」(marketing-facing claims),應當與嚴謹的模型卡基準測試結果分開解讀。
這些細節似乎暗示了這份報告是 Meta Llama 團隊對于 Llama 4 系列模型備受社區廣泛批評(數據亮眼但能力很差)的最終回應。
對于這些說明,不知道你怎么看?
具體到內容上,這篇技術報告的內容僅有 15 頁,其中 1300 多位作者的名單就足足占了 5 頁,再去掉一頁參考文獻,實際內容僅有 9 頁。其中,Meta Llama 團隊總結了:
- 已發布的模型變體(Scout 和 Maverick)以及更廣泛的系列模型背景,包括預覽版的 Behemoth 教師模型;
![]()
- 超越高級 MoE 描述的架構特征,涵蓋路由 / 共享專家結構、早期融合多模態,以及針對 Scout 報告的長上下文設計元素(iROPE 和長度泛化策略);
- 訓練披露,跨越預訓練、用于長上下文擴展的中期訓練(mid-training),以及發布材料中描述的后訓練方法(輕量級 SFT、在線 RL 和輕量級 DPO);
- 開發者報告的基礎和指令微調檢查點的基準測試結果;
- 在主要服務環境中觀察到的實際部署限制,包括特定于提供商的上下文限制和量化打包。
此外,這份報告還總結了「與再分發和衍生命名相關的許可義務,并回顧了公開描述的安全措施和評估實踐。其目的是為需要關于 Llama 4 精確、有來源依據事實的研究人員和從業者提供一份緊湊的技術參考。」
更多詳情請參閱原報告。
https://www.reuters.com/technology/metas-new-ai-team-has-delivered-first-key-models-internally-this-month-cto-says-2026-01-21/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.