![]()
繞過元宇宙的彎路,放棄出道即巔峰的 Llama,怒燒幾百億美金組建超級智能實驗室。。。
在 Meta 的 AI 戰略徹底顛覆以后,他們的首款通用模型 Muse Spark 耗時一年,終于嶄新出爐了。
而在第一時間上手實測之后,世超感覺,之前的 Meta 是拉完了都排不上號的主,靠著鈔能力一路猛追,可能真爬上了榜單的人上人。
根據官方發布的跑分結果,Muse Spark 在多模態、文字推理、健康和智能體領域,和 Opus 4.6,Gemini 3.1 Pro 等旗艦模型相比的確各有千秋。
![]()
雖然這個健康領域挺詭異的,很少見這類 Benchmark 被搬上通用模型的臺面。。。
而在即將推出的 “ 沉思模式 ” 下,Muse Spark 在一些高難測試集,如 Humanity's Last Exam 里的思考推理表現,也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。
![]()
但也有人并不看好 Meta 這一波。畢竟官方博客披露信息太少了,案例都沒幾個。模型閉源,又沒有發布 API,Meta 也有可能故技重施,在跑分上造假。這模型好不好用,難說。
所以,為了看看這里面到底有幾分水分,世超把 Muse Spark 拉來,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了個簡單橫向對比。
目前 Muse Spark 只開放了 Instant 和 Thinking 兩種模式,前者快速回答,后者有一些思考和推理能力,我們這回主要測能力更強的 Thinking。
![]()
咱們先從 Muse Spark 主推的多模態開始。比如,世超給它一張超市貨架圖,讓它推薦幾款減脂期零食。
從回答里看得出,Muse Spark 對圖片的理解能力很強,細節也能抓到位,文字閱讀無障礙,推薦得有理有據,結果可靠。
![]()
但要只是上面這種程度,所有模型都能做得到,Muse Spark 只能算是及格。下面這些上難度的玩法,才是 Muse Spark 表演的開始。
在官方博客里,Meta 提供了一個一張圖變數獨游戲的案例。只要給出一張圖片,提示詞 “ 把這張圖變成網頁數獨游戲 ”,就能獲得一個可玩數獨。
![]()
我們也做了個類似的,親測好用。不止交互很絲滑,答案也能準確計算好,頁面風格和提供的圖片完全一致。
![]()
感覺 Muse Spark 的多模態不像其它模型,只是識圖看個大概,剩下的全憑自由發揮。它是真懂事,不僅能按照你提供的圖片像素級復刻,甚至可以準確推斷出背后的操作使用邏輯。
下面這個例子就更猛了。世超只是隨手截了一個 win11 系統計算器圖給它,提示 “ 把這張圖片變成一個可用計算器 ”,Muse Spark 一口氣做出來的 demo,每個按鍵都好使,計算準確,界面和系統媽生計算器一模一樣。
![]()
作為對比,GPT 5.4 Thinking 界面風格類似,但有亂碼;Gemini 3.1 pro 完全無視了原圖;只有真神 Opus 4.6 維持了一貫的高水準。
![]()
而在據說 Muse Spark 并不擅長的代碼方面,我們實測也有驚喜。
咱先試了試前端網頁設計實現。至少在這一塊,Muse Spark 的審美屬于一流水平。
頁面功能實現得比較完整,部分鏈接按鈕可點擊,雖然具體內容存在一些杜撰,粗略看起來還是很舒服的。
![]()
整體和 Opus 4.6 比起來有點差距,但比起不知所云的 GPT,還是強了很多。
![]()
算法代碼方面,我們挑選了幾道 leetcode 高難題。
最震驚的還是在 65 號題上,雖然所有模型都通過了測試,但 Muse Spark 給出了時間和空間上,都更加優雅的解法。。。
作為對比,Opus 4.6 和 GPT 5.4 Thinking 的時間復雜度排名僅 50%,而 Gemini 3.1 pro 的空間復雜度只擊敗了 13% 的提交答案。
![]()
再以 10 號題為例,Muse Spark 和 Opus 給出的依然是最優解;GPT 通過了測試,但解法不夠好;Gemini 3.1 pro 則直接出現 bug,失敗了。
![]()
測到這里,Muse Spark 的表現已經遠遠超過世超的預期了。表現和 Opus 打的有來有回,反而 GPT 和 Gemini 顯得有點不夠看。
不會吧不會吧,難道我們都誤會了,亞歷山大王真有點東西?
再看看簡單的文字測試。不得不說,Muse Spark 思路相當清晰,Instant 模式回答幾個經典邏輯問題足夠用,3 秒必達。
![]()
而作為對比,Gemini 和 Opus 的表現也是穩定且準確。唯獨 GPT,上個月新發布的版本 5.4 Thinking,還在這種簡單邏輯題上翻車,拉完了。
![]()
最后,在健康領域,所有模型的回答都中規中矩,Muse Spark 無功無過。
![]()
在簡單試用完一圈之后,世超感覺大模型界三足鼎立的局面,真要被打破了。
而 Meta 目前放出來的,甚至還只是一個較輕量,試試水,可能在未來開源的版本。。。
官方表示,他們正在 Muse Spark 的基礎上,繼續對整個技術棧加大投資力度,從研究,數據,模型訓練到基礎設施,規模全面擴張。
在模型訓練技術細節上,Meta 提到了三個關鍵點:預訓練、強化學習、和測試時推理(test-time reasoning)。
![]()
前兩個過程各位差友已經很熟悉了,但即使這是每個大模型的必經之路,Meta 依然背靠 Instagram 和 Facebook,有著得天獨厚的數據優勢。在數據這方面,可能只有谷歌能和 Meta 相提并論。
而在測試時推理這個階段,Meta 主要做的是,讓模型在回答問題之前,先思考一陣,但不能耗太多 token。
這一點世超在 GPT Thinking 系列上深有體會。這些模型經常想起來沒完,結果變得又臭又長,信息密度極低。
而 Meta 選擇在訓練的過程中,對過長的思考進行懲罰。把長推理壓縮成盡量少 token 的前提下,又能讓模型回答準確,達成了微妙的平衡。
![]()
最后,回過頭看,一次又一次失敗,Meta 居然從來沒退出這場比賽,最終再次歸位前沿陣地,這故事太燃了。
但在另一邊,Claude Mythos Preview 已經強到另一個維度了。相比之下,Muse Spark 這一波,像是才剛補上了之前缺的課。
所以,世超只能說,期待 Meta 加入這場模型大亂斗,讓小扎也有機會,癱坐在小小的辦公椅上吧。
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
感謝宅宅老師提供的跨國支援!
莫莫實測
Muse Spark 官方博客、X
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.