網易首頁 > 網易號 > 正文申請入駐

為什么Manus底層模型沒用DeepSeek？——Manus六問六答

2025-03-07 15:05:38　來源: 衛夕指北

北京舉報

分享至

　　在Manus迅速出圈之后，各種信息漫天飛舞，有嚴肅分析和解讀，但并不多，更多的是各類博主（特別是短視頻博主）震驚體式的搖旗吶喊。

　　那么在Manus各類信息過載的同時，潘寒試圖從各種信息中抽出部分有價值的進行分析，總結了六個問題。

　　力求讓讀者看懂“是什么”之后也真正搞懂“為什么”，同時在眼花繚亂的AI信息爆炸中破除FOMO焦慮——

　　一、為什么Manus底層模型沒用DeepSeek？

　　Manus各類出色任務背后到底用了什么模型？

　　根據相關博主的公開信息，在3月6日上午官方小范圍產品溝通時披露，Manus背后主要用了Claude（api）和自己后訓練的阿里Qwen。

　　很多讀者會有疑問——為什么Manus不用DeepSeek呢？又強大又便宜。

　　為什么呢？

　　在2月22日，Manus的聯合創始人季逸超在進行了一次對話，在這次對話中，季逸超分享了如下觀點——

“DeepSeek并不是萬能的，具體問題要具體分析，比如要做Function calling（函數調用），選擇千問Qwen模型可能更合適。”

“DeepSeek的模型（無論V3還是R1）本身更側重推理能力，在多模態、函數調用、長期規劃等能力上并不出眾。”

“從DeepSeek最近的V3論文看，其架構已與傳統模型有顯著差異，但除官方外，國內推理廠商的Infra優化普遍不足，仍需大量工作。”（彼時DeepSeek開源周還沒有開始）

　　個別無腦讀者不要據此就將Manus和DeepSeek對立起來（回去認真看），季逸超只是在就事論事地分析他們選擇的技術路線背后的邏輯。

　　可以看到，Manus之所以沒有選DeepSeek作為底層模型，是因為DeepSeek擅長的是推理，并不擅長Function calling（函數調用）、多模態、長上下文。

　　而這三個東西恰恰就是Manus這類高度自動化Agent產品非常看重的特性——

　　Function calling（函數調用）可以讓Agent實現遠超傳統Chatbot的多樣任務。

　　長上下文則可以讓Agent實現多步驟的復雜任務，如果一個任務分7步，上下文不足，做到第6步已經忘了第1、2步，那很多任務分分鐘歇菜。

　　多模態就更容易理解了，Manus的很多任務是要讀網頁、看視頻的，多模特讓Agent有了眼睛。

　　在這三點中，長上下文所驅動的長鏈規劃能力顯得更重要一些，Monica（Manus母公司）創始人肖弘在張小珺的播客采訪中也非常詳細地闡述了這一點——

“我們測試下來全世界只有Claude3.5 Sonnet能夠在把我們剛剛所說的那個架構跑起來，我們內部管這個叫Agent能力，傳統的Chatbot它訓練過程中，它就是假設一輪對話就要盡可能解決你的所有問題的，只有Claude3.5 Sonnet有長程規劃能力和逐步解決問題的能力。”

　　根據Twitter博主Alexander Doria的說法——

OpenAI的DeepResearch之所以表現驚艷，是因為其并不是簡單地在GPT基礎上增加了外部搜索功能，而是訓練了一個全新的模型學習了基礎的瀏覽能力（搜索、點擊、滾動、文件解析），以及如何通過強化學習來整合大量網頁信息，生成結構清晰、來源可靠的研究報告。

　　從這個意義上，國內模型依然在針對Agent所需特性上有巨大的訓練空間。

　　二、給Manus靈感的Devin是個什么？

　　Devin是去年AI編程領域一個熱度挺高的自動化Agent產品，它主要集中在代碼領域，號稱能頂一個程序員。

　　它有三個特征——

　　第一，它是異步的，即你不需要像聊天產品一樣時刻和它同步交互，交給它一個任務，你就可以干別的了；

　　第二，Devin有云端虛擬機，這一點很重要，這意味著你電腦關了它也可以繼續工作，不需要動用戶的電腦；

　　第三，它能隨時打斷，需要幫助的時候會尋求用戶幫助或確認，同時會根據用戶反饋積累Know How的知識。

　　而這三個特征，Manus全部都有，肖弘也坦言團隊從Devin和Cursor中得到了靈感。

　　Devin在產品定義上是相當超前的，超越了Coze、Dify等產品的開發理念，也不同于cursor等編程產品。

　　關于Devin，肖弘是這樣評價的——

“Devin有點可惜，它直接選擇了最硬核的工程師群體，也不能叫可惜，我相信他在美國也是發展的很好的一家公司，但我會更愿意選擇通用而不是垂直到一個具體的行業，我認為這個架構是很符合我對Agent的想象的，而他應該是給普通用戶就能用的一個產品。”

　　戴雨森是Manus投資人真格基金的合伙人，他在播客十字路口中用了一個非常夸張的表述評價Devin——

“它的出現可能標志著人類歷史的一個重要時刻。”

　　我當時很詫異，為什么戴雨森會用這種虎狼之詞？

　　他自己的解釋是——

　　人類歷史上發明了很多工具，甚至有人說人就是能夠使用工具的動物，工具基本上分為兩種——

　　第一種就是說需要持續注意力的工具比如說像電鉆，像錘子。

　　第二種就是說叫做機械重復的自動化工具，比如說洗衣機、自動售貨機流水線，它可以去不需要我的關注，但是它只能解決重復的東西。

　　人類一直在尋找第三種——不需要持續的注意力，但同時又能自我規劃去解決問題的。

　　而Devin就是這種真正自主的Agent，即Agent中的Agent。

　　沒錯，工程層面的創新意義其實被低估了，事實上，這一輪AI改變最為深刻的行業就是AI Coding，而支撐這一改變的關鍵變量就是Cursor這樣的應用層產品創新。

　　Devin毫無疑問是一個創新的產品，也有很多報道，但問題是——為什么只有Monica團隊想到要學習借鑒并且第一個把它做起來了？

　　這是很多國內大廠、中廠團隊需要反思的。

　　三、如何理解AI時代的“安迪-比爾定律”？

　　Manus團隊的張濤在即刻上發了這么一段——

“去年底我開始鼓吹今年的推理算力需求不是十倍增長，而是千倍。大部分朋友都覺得我瘋了，這個非共識讓我們走上了一條很不一樣的道路。”

　　Agent對token消耗是呈指數增長符合肖弘在接受采訪時稱的AI時代的“安迪比爾定律”——Andy gives, Bill takes away”。該定律說的是在PC時代，英特爾的安迪格魯夫將芯片性能提升1倍，微軟的比爾蓋茨就會將軟件復雜性提升1倍。

　　AI時代也一樣，LLM廠商通過性能優化將token的生成成本降低了10倍，而Manus為代表的Agent則會讓token的消耗量提升10倍。

　　與PC時代不同，AI領域這一定律速度更快，PC軟硬件升級周期通常為18個月，而AI模型和應用迭代周期縮短至2-6個月。

　　Manus為代表的Agent的發展其實也遵循了“杰文斯悖論”——蒸汽機效率提升反而刺激煤炭消耗總量增加，即當資源使用效率提高時，不會減少資源總消耗，反而會增加。

　　基于以上的推導，從更長遠的角度，我對國內Agent的發展保持理性樂觀——

　　哪怕如張濤所預測：推理算力需求呈千倍增長，以國內向來的卷價格、卷成本的優良傳統，“中國卷王”們有望在下一輪Agent大戰中獲得結構性成本優勢。

　　四、大廠抄Manus作業容易嗎？

　　很多人說，這個幾十個人的團隊做出來的東西，大廠很快就可以復制。

　　事實上，我認為這個復制的難度不小，原因在于——

　　1.復合經驗：

　　Monica團隊的經驗非常復合，Monica本身的產品就是對接各家模型的，對不同模型的能力邊界的理解會更深刻。

　　同時該團隊在長期與瀏覽器插件打交道過程中對瀏覽器產品異常熟悉，甚至立項探索過類似Arc的AI瀏覽器的項目，Manus的聯創季逸超在NLP和機器視覺領域沉浸多年。

　　而Monica的定位在海外，這也讓其更容易對海外Agent產品的進展保持高頻關注。

　　2.需求理解：

　　某種意義上這是Monica團隊的基因，這種對產品需求的非常接地氣的理解從創始人肖弘早年產品“壹伴助手”和“微伴助手”，我早期公眾號時代用的就是“壹伴助手”，的確方便實用。

　　如果你深入用過Monica，你就能更直觀地感受到產品巧思所展現的產品功力——比如，在Monica，你是可以一個指令，喚起多個模型答案的；

　　再比如，它支持常用的提示詞進行快捷調用；更不用說其各種非常細致實用的小工具。

　　國內做AI應用的PM，其實都應該深入研究一下Monica功能和背后的產品理念。

　　比如，Manus的整個過程支持分享，分享其實沒什么，但Manus的分享是支持過程回放的，而且，Manus生成的網頁，直接就是可以公開訪問的，這些小細節都是團隊產品功力深厚的直觀體現。

　　從豆包、Kimi、元寶、文心一言在功能層面的同質化來看，我不認為大廠在短時間內能大幅提升創新能力。

　　3.團隊敏捷性：

　　Manus在昨天的閉門分享了一個觀點——

“AI產品的迭代周期超過了大廠的OKR的考核周期”

　　這句話背后是充分說明，和大廠相比，小團隊的扁平團隊的敏捷在AI產品的開發中非常關鍵。

　　Manus團隊不大，產品負責人張濤原來是光年之外的產品負責人，做過8年C端產品，5年B端產品，而Manus的聯創季逸超（產品視頻中出鏡的那位）也是一位技術大咖，十多年前在高中時就單槍匹馬手搓過一款產品猛犸瀏覽器。

　　創始人肖弘能將這些人組織到一起，本身就證明了其產業認知和團隊建設能力，這種隱形的軟實力無法單純靠堆人解決，不要忘了，DeepSeek也就100多人。

　　以上三點，解釋了為什么是Monica團隊率先做出了Manus，而這一樣一個綜合各方面稟賦的敏捷團隊，大廠要短時間組件并不容易。

　　五、Manus接下來會推進大規模融資嗎？

　　我覺得大概率會。

　　邏輯在于，盡管上面說大廠短時間推出并趕超并不容易，但大廠一定會入局。

　　如果說Monica原來的“All in One”聚合產品能在大廠看不上的賽道找到相對的舒適區，那么對于Agent這個符合AI產業未來演進方向的主戰場，巨頭絕無可能袖手旁觀。

　　想一想對標Dify的Coze、元器，想一想對標Cursor的Trae。

　　不要懷疑大廠卷應用的資源和決心。

　　DeepSeek毫無疑問動搖了不少大廠、中廠自己訓練基座模型的決心，但在應用層，它們的推進力度反而上了一個臺階，騰訊以極快的反應速度飽和式強推元寶就是一個明證。

　　我們來看上邊所說的Devin，它的估值是多少？

　　答案是20億美金。

　　我不知道Monica團隊的估值，但按之前的各種公開資料看，大概率是沒有到20億美金這個級別的。

　　也就是說Manus目前手中大概率并沒有和巨頭打大仗的資金彈藥。

　　想一想字節這樣推土機般的App工廠、想一想國內云廠商無情的降價機器。

　　假如Manus未來面對一個“價格是十分之一、體驗是80%”的大廠競品，用戶的忠誠度無疑是一個修羅場般的考驗，而卷價格，只是大廠最常規的操作。

　　所以，按這個簡單的邏輯推斷，盡管Monica團隊之前在融資層面相對保守（Monica現金流不錯），肖弘也多次說要保持自己的節奏，但為了給Manus囤積彈藥，團隊大概率會進行下一輪融資。

　　好在這次迅速出圈會給其帶來相對寬裕的融資環境，讓其團隊有可能以較小的股份稀釋獲得相對充足的資金以對抗巨頭未來的競爭。

　　六、到底應該如何評價Manus的表現？

　　我們的確看到官方案例中有無數驚艷的案例，同時不同的博主

　　關于它的表現，我覺得有三個維度或許有助于我們更客觀地觀察它的表現——

　　1.GAIA的Benchmark分數決定了它的水準是在基準線以上的；

　　GAIA由Hugging Face等研究團隊于2024年聯合AutoGPT推出，它包含466個多領域、多模態的問題及標準答案，只在測試Agent的解決問題的能力。

　　GAIA這是一個反傳統的評測，與傳統AI基準測試（如法律、數學等專業領域）不同，GAIA專注于對人類簡單但對AI困難的開放性問題，這些問題模擬日常場景。

　　比如——

最新的樂高維基百科頁面中有多少張圖片？”

　　再比如——

“在美國國家航空航天局 2006 年 1 月 21 日的天文照片中，可以看到兩名宇航員，請問其中年齡更小的宇航員在太空中待了多少分鐘，四舍五入精確到分鐘。”

　　Manus在所有三個難度級別上都實現了超越OpenAI的性能，這個成績無疑是讓人印象深刻的。

　　2.高分并不直接決定個人使用的實際表現；

　　比如從實測博主、等生成的案例看，它的各項表現完成的不錯，無論是生成可交互的科普網頁，還是開發文字游戲，完成度很高。

　　但從、的體驗看，其中有一些任務完成的并不好，比如，花生讓其生成一本書的營銷計劃，從結果看，很龐大，但細看非常籠統，并沒有太多個性化內容，一本書的營銷預算是54萬，基本不可用。

　　而果殼的測試也發現Manus在一些任務用存在如下問題——1.過度推理，過于發散；2.信息來源質量不夠；3.無法按要求的格式交付；4.經常需要接管。

　　3.正確的評價是理解其邊界、管理好預期；

　　Manus目前的架構決定了它的邊界在深入研究、輕度合成的信息處理領域，屬于Artifacts+DeepResearch+Operator+Claude Computer Use的輕度縫合怪，還不是完全體。

　　比如它的虛擬機操作范圍的核心還是瀏覽器，你讓它剪個片子、幫你玩《艾爾登法環》這類輸入就屬于并沒有理解Manus的能力邊界。

　　關于Agent，一個極簡版的理解邏輯是——任務成功率等于任務步數乘以每一步的成功率。

　　假如一個任務總共要分三步，而底層模型每一步成功率是90%，那么總體成功率就是90%*90%*90%=72.9%，同理，如果單步成功率為70%，總體成功率就變成70%*70%*70%=34.3%。

　　兩年前的AutoGPT之所以不可用，一個重要原因為當時的模型單步驟成功率太低，導致總成功率不可用。

　　而Manus的發布就基于基礎模型過去兩年的快速進步，讓其在某些單任務上的成功率快速上升，以至于到了基本可用階段。

　　Manus恰如其分地抓住了這個時間點，同時將其推向了消費級市場。

　　關于Manus的體驗，一個容易忽視的要素是價格——

　　根據官方閉門會披露，單任務的成本是2美元，也就是跑一個任務大概花費14塊人民幣。

　　這意味著，如果Manus按成本+利潤定價，用戶最終用到或許會超過這個價格，那么在這個價格下，我們再來看其產出質量，無疑需要重新評估。

　　靜待后續市場檢驗。

　　結語

　　我昨天看到這樣一條Twitter——

　　沒錯，我大體是同意這個觀點的，“你不擁抱變化，變化就會壁咚你”，但我反對應激性焦慮。

　　除非你本身就是做AI媒體的，不然如果每一個新熱點都要第一時間追，那么你永遠追不完。

　　正確的做法是，一個新東西出來，先讓子彈飛一會，然后綜合各維度信息判斷其價值，決定自己應該多大程度上校準自己的認知和行動。

　　——完——

　　作者：“降維實驗室”主創潘寒，《三體》謎，野生AI創作者，開瘋狂腦洞，挑戰AI的各種可能性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

衛夕指北

深度剖析互聯網底層邏輯

181文章數 4561關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

教育

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

為什么Manus底層模型沒用DeepSeek？——Manus六問六答

V4來了？DeepSeek 灰度測試新版本

甘肅省博原館長被查:將他人收藏文物納入征集范圍

甘肅省博原館長被查:將他人收藏文物納入征集范圍

搞垮一個冬奧選手，只需要一首歌?

大孤山風波愈演愈烈 超50位明星扎堆

廣州前首富被判無期 200億集資窟窿何償

比亞迪最美B級SUV? 宋Ultra這腰線美翻了

態度原創

下一站是嘉禾望崗，請各位乘客做好哭泣準備

其實你不需要這么多褲子，留這3條就夠用！

高三地理備考：特殊天氣系統核心知識點梳理

轉頭就暈的耳石癥，能開車上班嗎？

大孤山風波愈演愈烈超50位明星扎堆