![]()
來找找相同和不同吧。
本文首發于 2024 年 04 月 17 日,2025 年 01 月 17 日。
文丨程曼祺
編輯丨宋瑋
在今天(1 月 9 日)早上前往港交所敲鐘前,MiniMax 創始人閆俊杰對《晚點 LatePost》分享了他此刻的想法:
希望我們后續能有機會對整個行業智能水平的提升做出更大的貢獻。我們初步探索了一條純草根 AI 創業的路徑,盡管后面還是非常挑戰,如果能對 AI 創新創業生態的發展有啟發我們會感到很光榮。
2024 年和 2025 年,《晚點 LatePost》發表了兩篇對 MiniMax 創始人兼 CEO 閆俊杰的訪談。第一篇訪談發生在 2023 年年底和 2024 年 3 月,第二次訪談發生在 2025 年 1 月。
兩次訪談間隔不到 1 年,行業和 MiniMax 自身都有很大變化。2024 年初,閆俊杰給團隊定下的目標是 “技術上如何達到 GPT-4,產品上如何把用戶規模翻十倍,單個產品能突破千萬 DAU(日活)。”2025 年春節 DeepSeek-R1 震撼全球后, DAU 在 MiniMax 內部被視為 “虛榮指標”。
這在那個春節前的訪談中已有信號。當時閆俊杰告訴我們,做大模型的一大誤區是套用移動互聯網的邏輯。更多的用戶和他們帶來的反饋能直接反哺移動互聯網推薦算法,讓它更懂用戶、更精準,但這些數據并不能直接讓模型變得更聰明,現階段提升大模型性能的核心方法是訓練和迭代新模型。
不變的是,MiniMax 一直想做服務普通人的 AI,“Intelligence with everyone”。閆俊杰提及的一些計劃被陸續執行:比如第一次訪談中他講的 MoE(混合專家系統)和線性注意力機制——2025 年 1 月發布的 M1 是第一個使用線性注意力的千億參數大模型。也有一些計劃則暫時未有后續,閆俊杰認為 “信息獲取” 有做 Agent 的機會,但 MiniMax 目前沒有推出公開的產品。
兩次訪談的不同和相同,記錄了這家公司和行業議題的變化。
2024 年的訪談:AGI 不是大殺器,是普通人每天用的產品
“每件事都是做到極致才會好”
晚點:一位 OpenAI 的工程師告訴我們,他判斷一位人工智能創業者到底有沒有真正的 AGI 信仰,就看這個人是在 ChatGPT 發布之前創業還是在這之后。
閆俊杰:MiniMax 是 2021 底創立的,我們剛創業的那個時間點,AGI 在中國還是一個巨大的非共識。
我們當時計算過,把 GPT-3 擴大 100 倍需要非常多一筆錢,可能是幾十億美元。但在那個時間點,我們顯然不認為中國會有那么多錢愿意支持一家創業公司。
晚點:有人認為你們最開始是做元宇宙的,大模型火了后才說做 AGI。你們在出發時到底有多相信 AGI?
閆俊杰:我們是在 ChatGPT 出來之前成立的,大部分公司是在那之后,這是核心的區別。
ChatGPT 之前,很多事情沒有參考,你不得不做更多嘗試,但最內核的還是技術進步,不確定的是產品方向。
我們最開始對 AI 產品的想象是一個同時有聲音、形象、文字能力的智能體,我們做過一版有 3D 形象的東西,有點像元宇宙里的數字人,但它的語言、語音等能力還是用大模型驅動的。
晚點:你認為 AGI 到底是什么,假設有一天 AGI 真的實現,我們如何知道它已經到來?
閆俊杰:那時候我們有個模糊的定義,現在也幾乎沒變,就是什么時候大家認為 AI 不是 AI,那一天大概就到來了。
就像我們今天談到抖音,你不會覺得它是一個基于推薦系統的內容分發軟件,你只會覺得抖音就是抖音。
晚點:MiniMax 是國內第一個說 AI 2C 的公司,為什么?
閆俊杰:決定創業前,我一直在思考什么樣的技術進步可以給社會帶來足夠高的反饋,想到的有電動車、移動互聯網。這些行業的最大特點都是服務普通人,而服務普通人的前提是它能商品化,它是一個產品,不是一個項目。
當時整個人工智能行業遇到困境,而取得真正成功的行業又是另一種做法,結論幾乎只有一個——要做出足夠產品化、能服務大眾的人工智能技術和產品,而不是服務少數大客戶的項目。
所以我一直不認為 AGI 會像一個原子彈、一個大殺器,它就是普通人每天會用的一個產品、一個服務——這也是我們最堅持的。
而且 AGI 也不應該是一家公司自己做出來,它要靠這家公司和它的用戶一起做出來。
晚點:今年 1 月你們是國內第一個推出 MoE 大模型的,其它公司去年主要在迭代 dense(稠密)模型,因為進展更快、更確定。做 MoE 是一場豪賭嗎?
閆俊杰:一開始我也認為我們在賭,那幾個月別人都在快速進步,走在更穩的路上,而我們在賭一個更難的東西。
我們當時放了 80 % 以上的算力和研發資源做 MoE,而且沒有 Plan B。
晚點:MoE 是 2023 年夏天開始研發的,為什么當時一定要做這個?
閆俊杰:第一,我們知道自己有多少基本資源和數據,基于這些計算資源和數據,當時只有 MoE 能訓完,相當于從你能訓練的上限來說,必須得是 MoE。
第二,我們當時已經有很多用戶,有 2B、2C 的產品,很多模型每天在處理大量 token,我們發現如果繼續做 dense 模型,生成 token 的成本和延時是接受不了的,很快會崩潰,所以只能做 MoE。
當然現在這可能是行業共識了,就是如果要做萬億模型,你不可能做一個 dense。
晚點:最后是怎么搞定的?
閆俊杰:過程很痛苦,失敗了兩次。因為我們本來就有很多不確定性,做新東西又增加了不確定性,它就應該遇到挑戰。
比如模型訓了半個月,發現一些指標離前期估測的越來越遠。就像你發了一個火箭,本來以為它可以到三萬米,但它偏航了。你就開始想哪個地方錯了,把問題解完之后,發現還沒有回到一個好的狀態,又失敗了。但你得到了很多經驗,把經驗匯聚起來,再來一次。
每一次都是很多錢,更重要的是時間。
我后來發現其實這也不是賭,因為很多挑戰不是 MoE 本身帶來的,而是更多底層的東西:比如對實驗方法、網絡和數據結構的探索等等。
后面解決問題也不是因為解決了 MoE,而是找到了過去的不足,讓整個研發團隊變得效率更高、更科學了。
晚點:一個接觸過你的人評價你很有工程化思維,你追求在一個約束條件下達到最好的目標。
閆俊杰:其實都是算出來的,我們公司大部分決策都是基于要優化某些東西計算的,我們就是在解方程。
晚點:現在各公司的資源也就是約束條件都變得很快,你計算時會傾向保守還是冒險?
閆俊杰:我們基本上都選最冒險的那種,因為做每件事都是做到極致才會好。
我選的技術路線也是上限最高的,幾乎沒有退路,選的算力方式也比較激進。
晚點:我聽說你們不買 GPU,只租卡。
閆俊杰:我們沒有一塊 GPU ,雖然我們應該是中國公司里實際用 GPU 數量最多的創業公司。
因為持有資產會使動作變形。如果我有很多 GPU,在商業上變得更好的方式就是對外租 GPU。我還是想讓公司更簡單。
晚點:去年 10 月你們遇到過算力緊缺,怎么避免類似的風險?
閆俊杰:成為市場上最大的客戶。
對中國創業公司來說,更好的方式是同時思考技術和產品
晚點:李彥宏說創業公司做 “雙輪驅動” 不是好模式,但你們第一天就要做產品,是怎么決策的?
閆俊杰:一開始創業其實沒資格想這些事,因為你既沒有技術又沒有產品也沒有用戶。前六七個月只是把最原始的模型做出來,才有了后面的產品。
假設你所有東西都是 free 的,假設你有一個無限強的組織,那對你來說,技術好是最重要的,因為你的用戶、流量、商業化能力都具備了,可以很快試很多產品。
但對創業公司不是這樣,如果沒有足夠好的產品能力來承接,即使你有了一些技術進展,這些東西最終也不是你的。一個獨立發展的創業公司一定要考慮產品。
晚點:OpenAI 也是在做出 GPT-3.5 后才開始做 ChatGPT 這個殺手級應用 。之前 OpenAI 沒那么重視產品。
閆俊杰:那是因為 OpenAI 的技術、人才、數據積累都有數量級的領先,導致它有一個長達一年的創業窗口期。我不認為世界上還有什么公司,能再有一個這么獨特的的窗口期。
沒有誰會是 10 倍的 OpenAI,沒人能短時間里拿出一個好于全世界十倍的東西。
這就推出來,對創業公司,至少對中國的創業公司來說,更好的方式是同時思考技術和產品。
晚點:有投資人認為你們現在做產品有些太早,“在黑莓手機上做不出抖音”。
閆俊杰:按照這個觀點,現在也不需要做技術,現在的技術也不是五年后的技術。
但顯然大家都認為現在需要做技術:只有通過做出現在的技術,才能更深刻理解它,才可能做出未來三年、五年的技術。
晚點:技術發展是漸進式的,產品也是嗎?這個時代的產品跟上個時代的產品完全不同。
閆俊杰:產品也是。中國成功的很多公司,比如米哈游、美團、字節、理想,都有一個共同特點——它們都不是靠第一個產品成功的,都是靠第二個或者更往后的產品才成功的。
這不是我說的,是我的一個朋友總結的。
晚點:那你們為什么不干脆只專注做產品?現在有很多開源大模型。
閆俊杰:核心原因在于,對模型的理解基本上等同于對產品的理解。產品越往下做,對模型理解肯定要越深。
另一個客觀原因是成本和響應時間,如果沒有對模型的強掌控力,就很難掌握產品成本的變化,也無法調教對用戶的響應時間。而且做產品你會遇到很多問題,什么問題可以解決?什么不能解決?怎么迭代?這些都需要你對技術的掌握。
一個現實是,去年很多產品是用 GPT-4 做的,為什么沒人做出一個媲美 ChatGPT 的體驗?
晚點:同樣做產品,有人是主做一個,你們卻同時做很多,包括 Glow、星野、海螺 AI 等。為什么要做產品組,而不是專注做一兩款產品?
閆俊杰:OpenAI 在 ChatGPT 之后的產品也沒那么成功, OpenAI 做產品都會失敗,說明現在產品對技術的理解,和技術本身能實現的東西之間有 gap。
核心就是,即使用最好的技術,最好的產品,都會不匹配。
如果你承認這個 gap,客觀規律就是:你該多嘗試、多失敗,找到真正能成功的東西。
晚點:感覺有點像字節跳動做產品的方式。
閆俊杰:我們還沒有資格按照字節跳動的方法做事。
每個公司都會選擇最合適自己的形態。比如對字節來說,最重要的是技術資源,因為它所有產品都是 ready 的,且產品資源無限多,所以嘗試越多對它越有利。而且每次投入,即使產品失敗,也會帶來更多經驗和認知,這對他們的提升是巨大的。
我們也一樣。而且相比模型研發的投入,產品投入的資源占比沒那么大。基于我們公司目前的現狀,可以算出來這樣成功率最高。
晚點:技術重要,產品也重要,你們糾結過到底哪個更重要嗎?
閆俊杰:之前糾結過,但現在不糾結了。
2022 年下半年我們做 Glow ,有一個經歷非常慘痛。當時團隊都感染了新冠,導致 2022 年底最后一次發版里出現了一個 bug,它把用戶的對話體驗拉低了 15% 左右,我們元旦三天 DAU 直接掉了 40%。后來實在受不了,終于在放假最后一天找到了這個 bug,其實就是非常小的一行算法,把它改了,用戶量很快就回來了。
這個事給我們的教訓就是,現階段產品價值的來源,核心還是你的模型性能和算法能力。
這樣的事我們經歷了好幾次,你可以做很多產品 feature,但你會發現,幾乎所有大的提升都來自模型本身的進步。
晚點:同時做大模型和這么多產品,最大的挑戰是什么?
閆俊杰:技術不夠好,這是最本質的。我們的技術迭代速度已經很快了,但離全球頂尖的模型仍有差距。
十倍的 Scaling Laws
晚點:歐洲頭部人工智能公司 Mistral 已經開源了 MoE 模型,行業普遍認為 OpenAI 的 GPT-4 也是 MoE,MoE 會是今年大模型領域的一個賽點嗎?
閆俊杰:MoE 只是其中一個環節,還有很多其他環節。如果一個東西能寫在一篇論文里,你基本可以認為它不是個絕對壁壘。
晚點:在這場技術競賽中,MiniMax 有什么非共識的判斷嗎?
閆俊杰:這個行業如果有什么非共識,6-9 個月內,很快也會變成共識。
現在有三個大家都能看到的東西:一是 Scaling Laws;二是實現同樣精度的模型,需要的算力和資金投入可能每年降幾倍,因為算法和學術界公開的東西越來越多,很多人會做自由探索;三是把精力放在提高數據質量上,現階段收益更大。
所以從這三點來看——Scaling Laws、同樣精度模型的成本下降、數據質量提升的重要性——基本可以推出來我們和其他公司的一些決策,我覺得是比較簡單的。
晚點:你怎么理解 Scaling Laws(規模定律)?它讓你看到了什么可能性?
閆俊杰:Scaling Laws 就是一條曲線,你可以信仰原始的 Scaling Laws,也可以信仰十倍快,甚至百倍快的 Scaling Laws。
![]()
2020 年最初提出大模型 Scaling Laws 的論文 “ Scaling Laws for Neural Language Models ” 認為影響模型性能的最重要變量是算力、數據量和參數,并給出了這些變量間的數字關系:C≈6ND,C 是計算量(Compute)、D 是數據量(Dataset)、N 是模型參數量(Parameters);而模型結構和層數等因素對性能影響沒那么大。
它更多是提供一個方法論:即你可以通過更小規模的實驗來預測更大實驗的結果。第二是它能讓行業對齊目標,因為這件事需要數據、算力、芯片、算法和產品等多個環節的分工協作,Scaling Laws 可以讓大家有相對一致的預期。
至于那篇論文里的那個公式和一些結論,現在看也不一定對,比如它認為層數、結構等沒那么重要,至少有幾個變量現在看是重要的。
晚點:比如呢?什么變量讓你有可能實現十倍、百倍的 Scaling Laws?
閆俊杰:比如網絡結構本身也重要。我們做 MoE ,最開始認為好的 MoE 結構和好的 dense 結構類似,后面發現不是,MoE 本身也能加速 Scaling Laws。
還有提升數據質量;還有算力的分配,你可以把算力分配到訓練上,也可以分配到數據處理上。不同選擇都可能加速 Scaling Laws。
晚點:Scaling Laws 的力量來自它夠簡潔,當你引入更多變量,就破壞了它。
閆俊杰:提升數據質量、優化算法和優化訓練方法都沒有盡頭,持續做就會持續好。
真正的取舍是,它們對 Scaling Laws 的效率提升在不同周期不一樣快。但你可以通過小規模實驗來預測哪些變量在什么階段更重要,這其實還是 Scaling Laws 的方法論。
為什么在中國一定要做幾倍的 Scaling Laws?當算力充足,你可以優化原始的 Scaling Laws;算力不充足時,你必須優化一個幾倍的 Scaling Laws,去達到相似效果。
這不是不可能的。另一家硅谷 AI 公司 Anthropic 已經用更短的時間做出了類似 GPT-4 的 Claude-3,這其實就是放大了原始的 Scaling Laws,有一個就會有第二個、第三個。
晚點:現在被討論很多的長文本(Long Context)會成為大模型競賽中的一個差異化路線嗎?
閆俊杰:好的大模型默認就應該支持長文本。我們一直都有長文本,我們沒在產品里強調這個功能,主要還是因為計算成本。
晚點:實現更長文本處理能力的技術方法是什么?
閆俊杰:標準 Transformer 里之前用的是非線性 attention;而過去一年多,很多人在研究線性的 attention,這就能幫助長文本。
線性 attention 的好處是,當文本非常長時,它的計算復雜度會是線性增長,而不是平方增長。但實際上 token 在 20 萬、30 萬量級時,線性和非線性效果差不多,因為二次函數在前期時近似線性函數。差別在 80 萬到 100 萬 token 時才特別明顯。
據我所知,Google 的 Gemini 1.5 是第一個接近線性 attention 的模型。你現在調其它 API,當文本非常長時,響應會很慢。但 Gemini 1.5 真正實現了一個 100 萬 token 量的文本,和 50 萬比,響應只長 1 倍,而不是長 4 倍。
所以長文本解決的不是 20 萬或 30 萬量級的問題,而是 100 萬再往上的量級。
晚點:100 萬 token 近似于能處理 100 萬字,你覺得多少人有這個需求?
閆俊杰:用戶需求和你提供的能力是相互發生的,一個遠超大家預期的模型放在這,慢慢會引起很多人的需求。
比如 ChatGPT 沒有語音通話前,沒人會說自己的需求是語音通話,但放上去之后,很多人會用語音通話。
我們做的語音對話產品——海螺 AI 的通話功能也很受歡迎。我阿公 80 歲,第一次用這個產品就和它討論了四五十分鐘的歷史人物,我之前想不到有人會這么來用它。
晚點:看起來你們是在產品里先強調了語音等多模態能力,而不是長文本。怎么判斷先優化什么技術能力?
閆俊杰:我們有一句話,Intelligence with everyone,我們并不是這個技術的 owner,這是我們最核心的信仰。
去年人工智能非常火,但全世界用過 AI 產品的人可能只有 1 到 2 億,重度用戶只有幾千萬。因為提出一個好的問題以及連續追問,門檻非常高,真正愿意打字的可能就是在座的這些人。更多人還是習慣用語音。
我們看重多模態,也是因為它可以讓更多人來使用 AI,包括老人和小孩。當我們在產品里加入圖片和語音時,可以明顯觀察到用戶的上手門檻,甚至滲透率的變化。從今日頭條到抖音,一模一樣的事在移動互聯網領域已經發生過一次了。
越到后期,用戶的價值越高
晚點:你們推出的第一個產品 Glow,讓用戶和自己定制的 AI 角色交流,類似乙女游戲(戀愛角色扮演),在二次元圈子很流行,當時怎么想到做這個方向的?
閆俊杰:我們早期做產品冷啟動時,針對性地找了不少年輕群體,比如 AI 愛好者、二次元人群,根據他們的體驗和反饋做了前幾版的迭代。
起量后,我們每天都盯著社媒用戶咋用的。我們做產品早期沒做過 AB testing,都是觀察用戶看用戶反饋,再看數據驗證和迭代。
晚點:做產品踩過什么坑?
閆俊杰:最早我們做智能體,當時對它的想象是同時具有聲音、形象和文字的能力,這也是為什么公司剛成立就做了三個模型——語言、語音、視覺。
很快我們放棄了 3D 形象,因為它不能規模化,之前用 3D 的大行業只有游戲和電影,研發周期都是幾年;同時,我意識到用深度學習來做 3D 這件事不對。
在目前的載體——手機上,如果一個 3D 人一直看著你,這本身就很奇怪。大部分情況下,交互其實不需要有一個真的形象。
晚點:是上線后通過某些數據看出來的?
閆俊杰:不是數據。當時做第一版形象,找了兩個模特去拍。當把 3D 放進手機的那個瞬間,我們就知道這件事是不對的。
晚點:你們第一個模型還沒做出來,就招了產品經理,當時你如何向他描述你想要一個怎樣的產品?
閆俊杰:不知道。
晚點:你說不知道?
閆俊杰:那個時候是不清晰的,因為沒有任何參考。我們只是想象有一個智能體可以和你自由、長時間的對話,它的本質是信息的交換和處理。
我們能確定的是,模型最重要是服務大眾,那它一定會是一個產品。所以我們最早就找了產品經理。
晚點:用戶有很多需求,滿足什么不滿足什么?
閆俊杰:我們的取舍到后面變得簡單,看這個需求是否符合技術發展的趨勢,是否能對這類用戶的體驗帶來 10 倍以上的變化。
晚點:產品審美上,你認為怎樣的產品是好產品?你們現在的產品玩法很多,有點復雜。
閆俊杰:坦白說,我們現在還沒有做出來,所以沒有答案。
當你問產品是復雜好還是簡單好,大部分人一定會說簡單好。但我自己比較懷疑這件事,尤其在一個行業發展前期。你想騰訊在做出微信之前,也是因為先做出了 QQ,而 QQ 是一個非常復雜的產品。
ChatGPT 大概 3000 萬 DAU ,似乎很難再增加。我的結論是,一個偏簡單的 AGI 產品,在目前的技術階段,上限可能也就是這樣,但最終我相信會有很簡單的交互形態滿足更廣泛的需求。
晚點:Sora (OpenAI 發布的文生視頻大模型)的出現對你有什么啟發?
閆俊杰:如果 Sora 的響應速度未來能變得非常快,生成一個 1 分鐘的視頻不是像現在這樣要花 20 分鐘,而是可以實時生成,這會是很大的變化。
那它到底會是一個更好的生成視頻工具,還是一個更好的生成視頻的社區呢?
晚點:生成視頻的社區,再往下一步不就是超級內容平臺?
閆俊杰:都可以想,取決于你是不是相信這個東西空間足夠大,以及你是不是相信響應時間能變得足夠低。
晚點:你認為未來用戶量最大的 AI 產品可能會是什么?
閆俊杰:我們只做出了日活百萬的產品,還沒有做出千萬級或者十億級的產品,坦白說不知道。我覺得可能還是信息的交換和處理,它的價值是巨大的。
晚點:MiniMax 產品的日活已接近 Character.AI(美國 AI 獨角獸開發的一個可以和各種 AI 角色聊天、互動的應用),使用時長甚至更長。但有人質疑你們數據好不是因為技術好,而是因為軟色情。
閆俊杰:我們做過分析,真正讓用戶留下來的東西絕不是所謂軟色情。比如我們的產品星野,它的核心是給用戶提供一個能夠發揮創造力和想象力的平臺。
我們花了很多時間和精力來確保內容是更加正向的,持續提升平臺的安全能力。
晚點:技術提升能對產品帶來多大提升?你們在星野上用了 MiniMax 自研的 MoE 模型,效果怎樣?
閆俊杰:上線當天的消息量漲了 40%。響應更快了,之前響應要 4 秒,現在是 1 秒,這不光是因為 MoE,還有一些其它推理優化。
晚點:技術提升速度越快,和用戶量越大,是因果關系嗎?
閆俊杰:這非常 tricky。如果你是行業第一名,是 OpenAI,那它大概率是因果關系;如果你不是第一名,那就不是因果關系。
過去一年中國很多大模型公司沒有很多用戶,技術也會提升,因為你只要學第一名就可以進步。但長期看,如果你認為自己的模型可以接近最好的模型,那用戶的權重和價值會越來越高。
這個就像算力,擁有更多的算力就能做出更好的模型嗎?不一定,提升數據質量可能是 ROI 更高的事。但長期看,你有更多的算力,一定可以做出更好的模型。所以要看周期。
晚點:AI 原生的超級產品和移動互聯網時代的超級產品,你認為會有什么不同?
閆俊杰:做移動互聯網產品,大家特別在意有沒有挖到一個用戶痛點。但去年 DAU 超百萬的六七個 AI 原生產品都不是針對痛點設計的,是把一個突破性技術釋放,慢慢變成了產品。反而是后面針對性設計功能時都不太成功,比如 ChatGPT Plugins 和 GPT-S。如果技術進步速度慢下來,又會變成產品推動的方式。
目前的產品方法還是技術 driven,而非產品 driven。
晚點:你們的產品功能現在已經比較細,比如海螺 AI 經常有消息推送,吸引用戶點開,你們實際上做了比較多產品優化?
閆俊杰:最近我們也在在反思,產品功能點太全面,也許是一個偏負向的事,說明你在最核心的功能上沒有花最多的精力。
晚點:今年給團隊什么目標?
閆俊杰:技術上如何達到 GPT-4,產品上如何把用戶規模翻十倍,單個產品能突破千萬 DAU。
晚點:10 倍增長,這么大。
閆俊杰:其實不大,移動互聯網產品都是億級 DAU。
靠融資打不死別人
晚點:你覺得以中國目前整個市場的錢和資源,能夠支撐幾家做 AGI 的創業公司?
閆俊杰:不會只有一家,總資源量是夠的。
晚點:今天很多投資人已經不看大模型了,他們認為做大模型,創業公司沒機會。
閆俊杰:我經歷過靠融資堆起來的上一個 AI 的發展階段。假設一家公司需要靠不停融資來發展,那這個公司真正的優化,可能會變成怎樣說服投資人給它更多的錢。
我自己內心的路徑是,通過慢慢服務用戶,產生一些合理的商業化。當然因為有巨大的研發投入,這件事短期很難實現,但我認為應該探索這條路。
晚點:整個市場資源有限時,第一名難道不應該努力融到市場上最多的錢,讓其他人拿不到錢?上一波移動互聯網的競爭很多是這樣。
閆俊杰:你瘋狂的融錢,別人都會融不到錢——我認為這是不對的,靠融資是打不死其他人的。
因為排在前面的中國創業公司,沒有誰的資源能比別人多一個量級。拐點只可能來自于技術、產品或者是商業化效率的領先。
晚點:那算力怎么解決?算力資源也很稀缺。
閆俊杰:中國現在有算力,比之前多。另外還是回到 Scaling Laws,算力不充足時,要找一種方法優化幾倍的 Scaling Laws,達到相似的效果。
晚點:怎么評判你們和 OpenAI 的差距?
閆俊杰:我們自己有一個指標,可以叫 “開箱可用率”,就是看客戶或開發者接一個大模型 API,能不能較快完成一個復雜需求。
從我們自己的開放平臺看,幾乎所有需求 GPT-4 都可以跑通。比如去年遇到的一個需求是,用戶提供一本小說,讓模型生成分角色、帶語氣的有聲劇。
非常精細地使用 GPT-4 可以做到,而我們自己的模型當時不行,但現在可以做到了。
晚點:那你們和中國同行的差距呢?
閆俊杰:沒有都測。因為測與不測,不會改變我們做的事。
晚點:2024 年,中國大模型行業會發生什么?
閆俊杰:中國公司會做出類似 GPT-4 的東西,并且不止一家。但更應該思考的是,再往后該怎么辦?
把公司當函數
晚點:你剛才說寫在論文里的東西都不是壁壘,那這個領域真正的壁壘是什么?
閆俊杰:你發現很神奇,拼多多前身是拼好貨,美團是團購,字節是今日頭條,都不是后來真正大成的產品。
大成與小成的區別是,大成的公司都做了組織創新,這讓它們能持續做出越來越強的東西。
晚點:壁壘難道不是寫出論文的人嗎?
閆俊杰:我說一個非常恐怖的觀點,對大模型這個領域貢獻前 20,甚至前 50 的人,可能沒有一個人在中國公司工作。
我們現在靠天才路徑不 work。目前唯一的方式就是聚攏一些基本素質足夠優秀的人,做一個比較好的成長型組織,不斷一起突破挑戰,讓大家高速成長起來。希望三年之后,對這個領域貢獻前 20、前 50 的人能來自中國公司。
晚點:想怎么打造這個組織?
閆俊杰:我覺得是在優化一個函數,這個函數沒有解析解,本質是尋找梯度下降最快的方向。
晚點:舉個例子?怎么找到梯度下降最快的方向?
閆俊杰:比如在提升技術進步速度上,就是學習 OpenAI,因為它是最確定的。
不是指把模型參數搞成和它一樣,而是學習怎么讓實驗方法更科學;怎么更快試錯,更高效迭代;怎么把問題定義得更清晰、簡潔。
晚點:追求梯度下降可能陷入局部最優,但脫靶長期目標,怎么避免呢?
閆俊杰:我們自己的變化是,從非常含糊地看數據,到非常深入地看數據,再到意識到光看數據還不夠,需要加上更好的 insight。
很多 insight 其實來自面向長期的思考。舉例來說,如果只看產品短期數據,就不會意識到要做一個新的多模態模型。
晚點:可是優化函數的方法能處理人性問題嗎?比如技術和產品團隊間的拉扯。
閆俊杰:在做實驗設計或產品時,數據埋點更細,盡可能用這些埋點推測出真正的問題,而不是靠我或任何人的主觀判斷。
我們相信數據科學,這些東西也不是我們發明的,中國互聯網公司已經做得非常到位了。
晚點:你之前說希望組織更輕,但你們已經 300 人了,其中大部分都是過去一年入職的。
閆俊杰:其實還是很簡單,組織結構只有三層,我,我的-1 和我-1 的-1。
可以說我們只有三個部門:一個技術部門,我來負責;一個產品部門,分 C 端產品和開放平臺,各有一個負責人;一個運營和增長部門,既做產品增長,也做公司增長,HR 也在這里,有一個整體負責人。
晚點:你們的同行,智譜有約 1000 人,月之暗面有約 200 人,你們是 300 人,人數的差別背后是什么?
閆俊杰:這個東西就看你信啥了,我們不需要向其他人證明什么,我們就信我們做的事。一些不必要的崗位,我們就不太需要。我們需要做啥事,我們就招做啥事的人。
但我們要做一定規模的前端產品,所以除了算法跟應用數據人才外,我們還需要做推理系統、線上服務、開發和產品運營的人才。
晚點:現階段最缺什么人才?
閆俊杰:更多算法的人才。我們現在知道怎么做實驗,我們的資源也可以做很多實驗,但做實驗的人不夠。
今年視頻生成模型會變得很實用。按去年情況,第一個做出來的產品更容易取得大成功,現在很多公司都在追求成為第一個。
晚點:如何識別合適你們的人?
閆俊杰:他的加入能使團隊整體輸出變高。但這需要一些后驗,有些非常強的人其實沒法融入團隊,而有些看起來沒那么強的人卻可以使整體輸出變強。
所以面試時,我會關注他在重要項目里和周圍人的合作,包括和 mentor,和上下游怎么合作。
晚點:你在商湯管過很大的技術團隊,對于如何管理一群技術人才,有什么心得?
閆俊杰:當你想來做管理的時候,可能就會開始走偏了。
最重要的還是怎么讓大家一起做出更強的東西,超出用戶期待,也超出團隊自己的期待。AI 現在可能是一個風口浪尖的行業,但也沒那么神奇,它至少是一個科學,那就按照科學的方法做事:一是整體人才的水平高;二是整個組織有一套類似數據科學的方法,可以把有效的東西快速識別出來。
這兩件事摻在一起,就是我們真正要做的事。
晚點:如何吸引更強的人加入你們?
閆俊杰:本質上還是組織強,能持續做一些好的事。我們也只能找到這么一條路徑。
晚點:希望公司形成怎樣的文化?
閆俊杰:第一是不走捷徑,我們好多次走捷徑,結果都被打得很慘;第二個是 User-in-the-Loop;第三是技術驅動。
這都是我們基于此前的經驗和教訓總結出來的。
自己好像慢慢變成了一組基函數
晚點:商湯是你的第一份工作,它給你留下了什么烙印?
閆俊杰:我覺得主要是對集中力量干大事的技術路線的自信。
還有一些反饋是刻骨銘心的,這也是為什么我希望 MiniMax 的組織足夠簡單,因為在一個組織里,大家覺得一個事不對,但又不直接說,這對所有人都是一個很大的傷害。
晚點:當時 AGI 還是非共識,你怎么就意識到了它是個方向?
閆俊杰:其實來自我的一次偶然思考。2020 年我還在商湯帶技術團隊,有一天我突然發現,每天 AI 領域的論文我已經看不完了,這對我觸動非常大。
我作為一個做技術的,那時每天的技術進展已經超出我的理解范圍了。人的進化速度是很慢的,唯一的方式是有更好的人工智能來幫助技術發展,或者加快人的研究速度。
當時我還有另一個觀察,就是 2020 年之前的人工智能,比如我在商湯做的很多事情,它給社會帶來的收益和價值沒那么大。
這就有非常大的矛盾:你相信人工智能長期對社會有價值,只有它才能讓人類的技術進步速度變得更快;另一方面,你做的很多事并沒有直接促成它。
是因為不夠重視嗎?顯然不是,當時社會對人工智能的關注度、投入的資金量非常巨大。考慮到這幾點,唯一的可能性就是我們的技術路線不對,或者我們關注的問題不是人工智能應該真正去解決的問題。
晚點:上一代 AI 從業者其實很多都意識到了這個矛盾,但大家都找不到出路。
閆俊杰:2021 年初 OpenAI 發布的 CLIP 對我非常重要 ,那時我開始意識到自然語言和計算機視覺之間沒有本質區別,就是一套統一的機器學習系統。我看到了技術上出現更通用人工智能的可能性。
當這件事發生時,如果你真的相信人工智能,你就應該去做點什么。
晚點:你是如何學習的?
閆俊杰:認識比自己更強的人,這可能是創業能帶給我的為數不多的短期滿足,我很幸運遇到了一些非常 top 的人,給了我一些視角。當你從更高層面思考,很多東西反而沒那么難了。其次我會看很多論文。
晚點:你說要避免產品的全面優秀,那你自己是全面優秀嗎?你在商湯的晉升速度很快,從研發開始,做到了集團副總裁,好像各種職能都能勝任。
閆俊杰:我不覺得我是全面優秀。過去我能做很多工作,可能跟我的成長經歷有關,我出生在河南一個小縣城,很多東西周圍沒有人教,只能靠自己,這就形成了自己領悟事情的能力。我也不想這樣,我是被迫變成這樣。
但今天看,這個能力還是非常有用的。當我去做一個沒做過的事,能快速找到一些底層邏輯。
晚點:你覺得自己的短板是什么?
閆俊杰:雖然做過一些技術,但我不是最 top 的研究者,可能只是一個二流研究者。
晚點:還好吧,你的論文在 Google Scholar 上有接近 3 萬次引用。
閆俊杰:全世界最 top 的那個人可能是 30 萬。
晚點:你說要把公司當函數,那你覺得自己是一個什么函數?
閆俊杰:(想了很久)之前上學的時候學泰勒展開,我看到一個復雜的東西是可以用一些簡單的函數組合來逼近的。
也就是說,你可以用一組基函數來逼近任意的函數。我感覺自己好像慢慢變成了一些基函數,通過一些不同權重的組合,在需要的時候變成不同的形態。
晚點:聊了這么久,發現還沒有談到改變世界、改變人類。
閆俊杰:真正想做的事不應該天天說。
晚點:那今天可以說說嗎?
閆俊杰:還是 “Intelligence with everyone”,這句話有兩個解釋,一是我們希望用最好的技術服務每一個人,二是我們實現 AGI 的過程中需要和用戶一起迭代、成長。
以及我看到了比想象得更快的技術進步速度。
2025 年的訪談:千萬別套用移動互聯網的邏輯來做 AI
“如果可以重新選,應該第一天就開源”
晚點:你們發布 MiniMax-01 系列新模型后,得到了什么有意思的反饋?
閆俊杰:技術人員比較關注的是,第一次有一個很大的模型沒有完全用傳統的 Transformer 架構,架構層也可以創新。
而一些非算法的合作伙伴和朋友說,覺得我們好像有點上道了,開始意識到要做技術品牌了,合作起來也少了不開源導致的各種限制。
晚點:那你們真的上道了嗎?
閆俊杰:這是我們第一個開源系列模型,本質上兩個原因:第一是我們認為真正有價值的事,不是當前做得怎么樣,而是技術進化速度。而開源會加速技術進化,做得好的地方有鼓勵,不好的地方會有很多批評,外面的人也會有貢獻,這是我們開源的最大驅動力。
第二是,過去兩三年,我們做得特別不好的一件事兒是,對技術品牌沒有很深的認知。技術品牌之所以重要,本質也是因為這個行業最大的驅動力是技術進化。這需要算力、數據、錢,也需要足夠好的人。
晚點:DeepSeek-V3 在全球技術社區爆火,是不是刺激你們了?此前在 Hacker News 上搜 DeepSeek,有 470 多個帖子,而搜 MiniMax 很少。
閆俊杰:我們意識到要做技術品牌時,DeepSeek-V3 還沒有發布。
我和梁文鋒 2023 年初認識后,他有兩件事對我有啟發:一是他們的品牌做得非常好,它的信譽和口碑是量化行業最好的之一。另一個啟發是,DeepSeek 一開始沒有產品,所以更聚焦。
晚點:為什么沒有更早開源?
閆俊杰:第一次創業,很多經驗不具備。如果可以重新選,應該第一天就開源。
如果我是 OpenAI,我今天都應該開源,因為它的核心能力已經不是模型比 Claude 或 Gemini 好多少,而是 ChatGPT 的品牌與心智。
我們這次開源,也不會自己藏一個更好的東西,這沒有意義,所有模型一年之后都會落后。我們的通用模型也會持續開源。
晚點:MiniMax 成立之初就是同時要做模型和產品。而 DeepSeek 梁文鋒曾說現階段不做產品,只做模型,你怎么看這個策略?
閆俊杰:首先,DeepSeek 最近也有 App 了。
但反過來說,我覺得中國人工智能產業過去一兩年一直有個巨大的誤區:就是認為用戶越多,模型能力提升越快。這個邏輯非常錯。
你看 ChatGPT 的 DAU 是 Claude 的 50 倍到 100 倍,但它的模型并沒有好 50 倍,二者其實差不多。這就反映,智能水平的提升,其實沒那么依賴要有很多用戶。
晚點:不是用戶越多,模型能力就提升越快——去年這個觀點幾乎沒人信。
閆俊杰:這個事要分兩層看:
一是模型是產品出現的驅動力。比如去年有很多視頻產品,這是因為有了更強的視頻模型。
但模型卻不是基于用戶反饋和數據迭代才變好的。Claude 3.5 Sonnet 的代碼能力很好或市面上的視頻模型很強,不是因為之前已經有了很大的編程或視頻 AI 產品,而是先定了一個技術 benchmark,才做到的。
所以,更好的模型可以導向更好的應用,但更好的應用和更多用戶并不會導向更好的模型。
這個現象的底層原理是,在日常使用中,模型比大部分用戶更聰明,大部分用戶的 query(查詢)其實沒有模型自己模擬得好。
晚點:這個誤區讓整個行業走了什么彎路?
閆俊杰:為了有更多用戶,就花大量的錢來買流量。更核心的是,中國大部分公司,不管創業公司還是大廠,都還在用做推薦系統的方法來做大模型產品。
比如一個內容產品,你沒法明確知道什么會火,所以就要大量做 AB Test,這是高效的。但這個邏輯到了模型里,就變成不同研究員去嘗試不同算法,在不同 feature(功能)上做不同實驗,不行的話再累加。這不是做 AGI 的方式。
晚點:什么才是才是更合適的方式?
閆俊杰:應該非常清晰地定義模型能力分級,然后搞清楚每一代提升,需要什么樣的算法、數據和推理過程,通過技術手段來逼近定義好的指標。
晚點:你什么時候有了這個認知的?這和你們這次更新的關系是什么?
閆俊杰:去年 3、4 月。我們想清楚之后,就干了幾件事兒。
第一是,技術和產品要分開,技術就是要不斷提升上限,這需要定義好下一代能力。比如為什么這次用了全新架構,本質是因為我們認為 long context(長上下文)很重要。
第二是,不要認為有產品之后模型就會變好,產品的目的不是讓模型變好,它就是一個商業化產品。真正需要思考的是怎么更好滿足用戶。
晚點:那么對你們來說,到底是技術更重要還是產品更重要?MiniMax 是一家技術驅動的公司,還是產品驅動的公司?
閆俊杰:我們非常明確,自己是一家技術驅動的公司。它不是一個口號,實質是,當遇到沖突時誰說了算?
晚點:可以舉一個技術說了算的例子嗎?
閆俊杰:比如海螺視頻,按月訪問量,現在是全球最大的視頻生成產品了,但它頁面還很粗糙,甚至我們剛上線時,有很多海外用戶,卻沒有英文界面。
一定會有用戶提,為什么 Runway 支持一個功能你沒有,為什么可靈出了 App 你沒有。但一旦你去解決這些簡單問題,模型進步速度就會變慢,因為精力會分散。當時我們的選擇就是聽算法的,優先做算法上限高的功能。
再比如,上線一個比較大的算法變化,可能會影響用戶數據時,怎么選?還是根據算法趨勢來決策。2023 年時還會糾結,2024 年基本不糾結了。
晚點:經過去年,圍繞大模型創業的討論從 “誰又融資了” 變成 “誰會先倒下”。你覺得誰會先倒下?誰會活到最后?
閆俊杰:我覺得其實不應該把創業公司分成一個單獨類別。創業公司之間比其實意義不大,應該是整個行業一起。
以及我想說,我覺得 DeepSeek 和智譜是挺不錯的。DeepSeek 很純粹。智譜,他們是最早有 AI 路線圖的,這點我很佩服。
“一年前最喜歡說信仰的那些人,信仰都兌現了嗎?”
晚點:你描述的技術邏輯一以貫之,但一位投資人對 MiniMax 的觀察是:你們 21 年融資時講虛擬人,后面又做 Glow、星野這種類 Character.ai 產品;Kimi 火了之后,重啟了生產力工具海螺;Sora 之后,放了更多資源做視頻生成;接著是現在的開源。
你們好像一直在隨熱點而動。
閆俊杰:這是一些誤解。我們從來就不是想做一個數字人,只是我們三年前創業時,我們說要做無限接近圖靈測試的智能體,有投資人理解為數字人,當時還沒有大模型投資概念;而我們開始做 Glow 時還沒有 Character.ai;海螺是兩年前就推出了,只是前一年沒有做起來,當大家意識到這個方向火時,Kimi 產品體驗那會兒比我們好,所以可能認為我們是重啟。
視頻,是最開始做星野和 Talkie 時,我們想讓角色動起來,所以立項的,Sora 出現后,我意識到這個事兒比我想得更大,所以把它做得更通用了。
為什么要開源?剛才講了,最核心是為了加速技術進化。
晚點:你對 AI 的信仰到底是什么?看起來你們做過很多事。
閆俊杰:本質上,現在沒人能定義出什么是 AGI。能定義的只是,智能水平會不停進步。
它有點像長征,你不知道最終目的地具體在哪兒,但你知道更好的智能水平有意義。
晚點:所以很難基于一個明確的終點,步步為營地倒推?
閆俊杰:創業不是說有個機會,你最合適,你就是天選之子。
創業的前提是你有獨特的理解。第二是,你的資源很可能不是最多的,這也是好事,逼你一定要做出真正的創新。
這種情況下,路徑是什么?能不能走到那個點?其實不是一開始可以規劃的,是需要一步步去爭取的。
晚點:李開復上周告訴我們,整個行業從信仰 Scaling Law 到懷疑 Scaling Law 只用了一年時間。
閆俊杰:我覺得作為一個創業者,這時我想的事,不是 Scaling Law 撞墻了,我就放棄了,而是我要做什么事能讓它延續。
是算法、組織、業務層面的創新,還是方向上的取舍?至少在我們還有機會時,應該努力找方法。
晚點:在討論對 AI 技術的態度時,你覺得信仰是一個合適的詞嗎?
閆俊杰:一年前最喜歡說信仰的那些人,信仰都兌現了嗎?
晚點:你指誰?
閆俊杰:行業里所有最喜歡說信仰的人,不管中國的還是海外的。
晚點:信仰是一年就能兌現的嗎?
閆俊杰:但至少得朝那個方向做。
晚點:通向信仰的路是直線嗎?不能走彎路嗎?
閆俊杰:但有些動作是相反的。比如前面提到的,花大量錢投放,但問題是,更多的用戶并不會帶來更快的模型能力提升。
晚點:如果不用信仰,你覺得更合適來描述對技術態度的詞是什么?
閆俊杰:(思考)我覺得是信念。
晚點:信念和信仰的區別是什么?
閆俊杰:信仰,有點像描述一個很遠的未來;信念是,自己想怎么做,并能堅持做下去。
“做一個看上去像 o1 的東西沒那么難,但我們不需要一個新聞稿”
晚點:這次 MiniMax-01 系列更新,技術博客的標題用了 “新架構開啟 Agent 時代”,為什么 Agent 是一個重要目標?你怎么定義 Agent?
閆俊杰:有兩個思考路徑:一是,AI 該往哪個方向變得更強?二是,變強之后,對人類社會能產生哪些有益的變化?
那顯然很重要的一件事是能處理復雜任務,一個標志可能是多步,它可以是 o1 這樣單次輸出多步,也可以是通過一個單 Agent 拆成多步,還可以像 Anthropic 定義的 workflow 那樣,是更復雜的多 Agent 之間的協同。
如果再定義一下復雜任務,我的理解就是在專業領域能到專業人士的水平。
晚點:去年你說,當時沒人做出成功的 Agent 應用,是因為大模型能力還不夠強。現在 MiniMax-01 說 “開啟 Agent 時代”,是哪里變強了?
閆俊杰:這有兩層,一是架構,二是能力。
架構層面,我們現在其實已經做到了,因為它是可以高效、快速地處理非常長的 context(上下文)。
Long context 重要,是因為 AI 很難像人那樣感受到時間的流逝,這需要處理越來越長的記憶。對單 Agent,提升互動質量的一個核心是記更多東西。多 Agent 則涉及相互通訊,比如 Anthropic 定義了一個 Agent 間的通訊協議叫 MCP(Model Context Protocol,模型上下文協議),那個通訊量非常長,所以也需要處理長 context 的能力。
在能力層面,我們其實還有很多可以提升的地方,比如 AI 使用工具的能力、規劃能力,我們這個模型還沒打磨好。但這些能力都有很多標準 benchmark(基準),可以慢慢實現。
晚點:你最開始提到,這個架構不完全是 Transformer,那它是什么?
閆俊杰:標準 Transformer 里有幾個模塊,我們是把其中一個最重要的 attention(注意力機制),從原來的平方復雜度的注意力變成了線性的注意力。
(注:標準 Transformer 里的注意力模塊是非線性的,即 “平方復雜度”,線性注意力機制通過簡化計算過程,提高處理長序列的效率,當文本非常長時,計算復雜度是線性增長,而非平方增長,所需算力更小;但線性注意力機制可能在捕捉復雜依賴關系上不如非線性注意力機制。)
晚點:它其實是 Transformer 一個比較大的變體 ?
閆俊杰:可以這么理解。
晚點:Google 的 Gemini 之前就用到了線性注意力機制,MiniMax-01 和 Gemini 的線性注意力的異同是什么?
閆俊杰:我認為 Google 今年會更強,因為它同時掌握 TPU(Google 自研的 AI 芯片) 、訓練框架(TensorFlow)和算法,可以一起優化。所以 Google 做這件事相對簡單一點。
而我們不能自己定制 GPU,只能在一個標準硬件上去做,這就會更復雜。
晚點:這是實現難度上,方法和效果呢?
閆俊杰:Google 是閉源的,所以我并不精細知道他是怎么做的,但應該用了 sliding window attention,它是滑動窗口,一開始記憶可能沒那么長,但可以分成很多段,然后一個滑窗滑過去。
我們不是滑窗,而是都計算,只是我們找了一些近似算法,讓它算得更快。
(注:sliding window attention 是一種基于局部上下文的技術,它通過在輸入序列上滑動一個固定大小的窗口來計算注意力。這種方法可以有效地捕捉局部依賴關系,同時減少計算復雜度。)
晚點:除了線性注意力帶來的 long-context 和記憶能力,Agent 還需要提升什么能力?
閆俊杰:就是一些 benchmark,它們大部分是學術界定義的,比如驅動代碼能力進步的一個重要 benchmark 是 SWE-bench。
一年前,模型在這個 benchmark 上的解決率只有百分之十幾,現在是 70% 多。多模態里也有一些 benchmark。
晚點:為什么你們這次沒測 SWE-bench?
閆俊杰:代碼能力是我們下一版本要提升的能力。
晚點:在技術上,達到 benchmark 和優化計算架構是分開的兩件事兒嗎?
閆俊杰:是一體的,你可以認為,架構指的是你的計算 pattern(形式)長什么樣,能力是按這個 pattern 計算具體參數。
晚點:怎么判斷你們選的計算 pattern 能支持更高的能力上限?
閆俊杰:靠認知,也要靠實驗。
決定不同公司研發效率的,首先是你的認知要對,但也有可能兩種認知都對,這時實驗設計和效率就很重要。
怎么評估我們的研發能力比 9 個月或一年前更強了?關鍵一點是,在框架和數據確定的情況下,我們的實驗收益更高了。這是個核心能力,它很依賴于團隊合作。
晚點:為什么 MiniMax-01 面向 Agent,卻不是一個 o1 方向的模型?o 系列被認為對提升 Agent 能力很有幫助。
閆俊杰:因為我們需要把每一步做扎實。其實做一個看上去像 o1 的東西沒那么難,蒸餾幾千條 o1 數據就可以了。我們做過這樣的實驗,最近也有不少這樣的學術論文,這是一個業內共識。
但我們不太需要說自己有個 o1,然后發個新聞稿,我們現在的業務也不依賴于 o1 這類模型。
晚點:你們下一版模型的編程能力提升,是用 o1 的方式來做嗎?
閆俊杰:不光是 coding,還有 planning(規劃)。這件事也取決于,不同任務怎么用 benchmark 來衡量,找到衡量指標,就能優化。
即使是 o3,它在一些多模態 benchmark 上的分數也很低。
晚點:你怎么衡量優先級?阿里通義、Kimi、DeepSeek、智譜都已經發布了類似 o 系列的模型,而你們似乎認為多模態能力的優先級更高?
閆俊杰:第一,一個公司的能力是有限的。
第二,我們思考先優化什么 benchmark,是基于這個領域是否足夠收斂了,以及我們能在里面創造多大的獨特價值。o 系列從模型進展到能看到比較清楚的產品形態還需要時間。
過去幾年,最終在一個領域做得好的公司,不一定是第一個做這個方向的公司,而是最能充分發揮這個方向潛力的公司。不在于早一個月、晚一個月。
晚點:編程已經是 Agent 正在落地的場景,而 o1 顯著提升了編程能力。你不認為這是一個要搶時間窗口的方向嗎?
閆俊杰:Cursor(AI 編程助手)是基于 Claude 3.5 Sonnet 做的,但 Claude 3.5 并不是一個 o 系列模型。
4 個月前,GitHub CoPilot(微軟旗下 AI 編程助手)開始集成 o1,它也沒有變成第一。
晚點:一個現象是,o1 之后,中國公司跟進比 Google、Anthropic 等美國公司更快,你覺得這說明什么?
閆俊杰:因為中國公司可能認為蒸餾是可以做的事兒,而 Anthropic 或 Google 也許不會做。但我也不覺得蒸餾是錯的。
晚點:蒸餾是一種捷徑嗎?
閆俊杰:它肯定是一種路徑。是不是捷徑,見仁見智。
其實在文本模型里一直有 “對齊稅”——就是如果一定要把模型去對齊一個別的模型,比如 GPT 的結果,會有一些能力受限。
晚點:除了 o1 帶來的邏輯推理、數學和編程等能力提升外,怎么看它打開的 Inference-Scaling 新空間?這件事的技術意義是什么?
閆俊杰:這個趨勢之前就有了,比如最簡單的,best of N,你采樣十次,選最好的結果,準確度就會提升。
o1 的進步是把這種思路變成了一個端到端的模型,所以可以整體優化,效果提升了很多。
“Agent 很快還會看到一類應用:信息的獲取”
晚點:你認為 Agent 最先落地的場景是什么?
閆俊杰:Coding 肯定是,我覺得很快還會有一類應用,就是信息的獲取。
晚點:我知道你們最近在低調測試一個信息獲取的新產品。可以講一講用 Agent 來做這件事的思路嗎?
閆俊杰:現在信息獲取主要是基于推薦,推薦的內容大概率是你想看的,但不能保證你想看的,都會推給你。
比如我想每天能看到這個領域里最好的十篇論文,現在的內容平臺都不能滿足這個需求。所以我覺得信息獲取會發生一些變化。
晚點:這聽起來像一個使用新技術方法的今日頭條。
閆俊杰:千萬不要用上一代做移動互聯網產品的方法論來思考新產品。
晚點:哪里不一樣?
閆俊杰:移動互聯網產品,要思考有哪些供給、哪些消費。而 AI 產品其實不需要(人的)供給。AI 既有分發,也有供給能力,而且 AI 能力會不停變化。
一個移動互聯網產品體驗變好了,大概率是因為供給變了。而在 AI 產品里,它主要依賴于模型能力,或者說得到供給的方法發生了變化。
它們(移動互聯網產品和 AI 產品)的周期、確定性都不一樣,增長方式也不一樣。
晚點:Agent 類產品,看到什么信號時,你們會更多投資源去做增長?
閆俊杰:這可能不是一個對的問題。如果一個產品特別依賴推廣,大概率就不太對。
晚點:星野之前也做了不少推廣。
閆俊杰:Glow 沒有推廣,星野和 Talkie 有一些推廣,到海螺視頻時,我們海外、國內都沒有花錢推廣。
晚點:為什么有這個從不推廣,到推廣,再到不推廣的變化?是因為字節激進加入了戰局?
閆俊杰:不是,是因為認知升級——從沒做過產品,做第一個產品;到開始學大廠的產品方法論,意識到有好處,也有局限;再到找到更適合自己的方法。
晚點:上個月我和小馬智行 CTO 樓天成聊 L4,他覺得大模型應用里,MiniMax 做的星野比較像自動駕駛里的 L4,它是 AI 在和用戶互動,是替代產生價值;而 ChatGPT、CoPilot 更像 L2,是輔助產生價值。你怎么看這兩種方向的異同?
閆俊杰:這個總結還挺有意思,確實非常不一樣。
比如 ChatGPT 和 Claude,ChatGPT 更像一個助手,幫你完成任務,Claude 更有溫度。
一個有趣的測試是,你先和模型說一個 1 到 100 間的數,比如 50,你又回他,那我就 50 天不和你說話了。Claude 會說,能不能再給我一次機會?然后他會說個非常小的數。而 ChatGPT 不會這樣。
實質是,怎么來看待對齊這件事。Anthropic 有一套價值觀,基于此,推出來一套憲法。這導致他的模型具備一些特點和能力。
這是一件上限比較高的事,就是清晰定義,你做的模型到底是什么。
我覺得中國跟美國模型的一個區別,就是缺少內部定義的 benchmark,一些自己的底層思考和設計,更多是在對齊 o1 等模型的輸出。
晚點:MiniMax 的模型有自己內部的 benchmark,和路線圖嗎?比如 OpenAI 去年提出了一個 L1 到 L5 的 AI 能力分級(聊天機器人、推理者、智能體、創新者、組織者)。
閆俊杰:這是我們要逐漸加強的一件事。
我們最開始的目標是 Intelligence with everyone,實現方式要跟用戶在一起,但我們其實并沒有精確定義每一步到底是什么。
這可能是一個 “逃出生天” 的邏輯,要一步一步走。我覺得對 OpenAI,目前最有意義的也是 L3(智能體),L4、L5 長什么樣并不影響他們現在的行動。
“人才密度最高的是字節,其他公司都差一檔”
晚點:你覺得去年到今天,你們實際上做得不錯的技術成果是什么?
閆俊杰:基礎設施和算力相關的東西。因為我們每天生成的對話、圖片、視頻和音頻量,都非常大、非常難。怎樣能處理這么多計算,把它優化、調度好,還有一個合理的成本。這一點,我們應該是業內做得最好的。
然后算法上,我們的多模態比較領先,通用文本暫時不是最領先的,但開始有自己的特色。
晚點:這次 MiniMax-01 更新,首次大規模實現了線性注意力機制,你們描述這是 “非常大膽的創新”,有多大膽?
閆俊杰:我們是第一個在這么大規模的模型上這么來做的。
晚點:其他人不這么做,是因為不認為這是一個好方向,還是因為難?
閆俊杰:都有。這不是一個強共識的東西。
晚點:你們去年最受外界關注的進展,如你所說是多模態,尤其是海螺視頻生成大模型,效果和訪問量現在都是全球第一梯隊,怎么做到的?
閆俊杰:之前我們已經做過一遍文本(大模型)了,也做過文生圖,有一些積累。
但真的開始做,會發現這些 Infra 其實沒法完全復用到視頻,算法和怎么做實驗上也有很多變化,怎么做評價,就更不一樣了。你可以認為,相當于又新長出了一家公司。
晚點:這些年開發這么多模型下來,你們技術團隊沉淀的特點和方法論是什么?
閆俊杰:我們還是相對客觀。這是指,我們有時可能目標定得不對,但一旦能找到正確目標,我們的效率和能做到的深度都比較好。
還有扁平、靈活,溝通比較簡單、直接,我們現在還是我、我的-1,我的 -2 這三個層級。
晚點:客觀是一個特點嗎?難道行業里很多公司不客觀嗎?
閆俊杰:我覺得是的。非客觀是指,評價技術結果時有一些別的考慮,比如士氣是不是受影響,不同團隊的 scope(范圍) 等等。
晚點:你為什么沒提人才密度?比如說我有多少競賽獲獎選手。
閆俊杰:人才密度最高的是字節跳動,其他公司都差一個檔,這是一個事實。而我們也沒想把自己包裝成什么樣。
但是我想說,兩位同樣優秀的同學,假設一個去了字節,一個去了需要依賴技術和創新安身立命的創業公司。2 到 3 年后,那個去創業公司的人變得顯著更優秀的概率更大。
“大部分做技術的人覺得自己很牛,但我不是這么認識世界的”
晚點:在 2024 年這么多行業變化,包括你自己更想清楚了模型和應用不是一個簡單正向循環的關系后,同時做模型和應用,還有必要嗎?為什么不聚焦其中一個?
閆俊杰:首先不存在只做模型、不做應用的公司。DeepSeek、Anthropic 都不是。
再來說只做應用、不做模型的公司,這類公司顯然很多,有些做得很好,比如 Perplexity 和 Cursor。
同時,也有既做模型、又做應用的公司,我們也是這樣。我們每做出一個新產品,確實都是因為先做了模型,有了提升。
晚點:你們 21 年底成立時,大模型并沒有很好的生態基礎,所以你得自己做。如果你更晚創業,會做一個專注應用的公司嗎?
閆俊杰:不會。一是基于現有技術做產品,二是基于未來技術做產品,我想做后一種。
晚點:這是因為你想做一個價值更大的事?
閆俊杰:不是。是基于怎樣更能發揮出自己的潛力和公司的潛力。
晚點:那些更輕、更聚焦應用的公司,和 MiniMax 這樣模型應用同時做的公司,2025 年會怎么競爭?
閆俊杰:市場不是有 A,就不能有 B ,其實兩個東西都對。
晚點:你怎么復盤去年你們面向生產力場景的海螺 AI(指聊天助手產品,不是海螺視頻)做得不如預期?
閆俊杰:我覺得就是沒有堅持技術驅動。當你發現很多用戶的不滿時,解決思路不應該是去補這些 case,應該找到一些真正的提升方式。
而且到去年 5 月時,我就知道豆包會贏。豆包當時的體驗已經比同類其它產品好了。
同時我也開始意識到,我最開始說的那件事,就是更多用戶并不會導致模型能力提升。那就應該把海螺文本當一個產品,一個業務去思考,我們后來的決定就是不投放。
晚點:你之前說你 3、4 月就想清楚了這個事,為什么停止海螺文本投放的時間更晚?
閆俊杰:都是創業中的成長,其實很多認知很簡單,但執行時沒那么堅定。
晚點:你被什么東西影響和干擾了?投資人?競爭對手?
閆俊杰:我覺得是人,主要是考慮團隊的感受。
晚點:你什么時候開始變得更無情了?
閆俊杰:現在也沒有。實際的變化是,我會非常明確得給大家講我認為的對的東西。有些事沒法妥協。
晚點:另一方面,你們的 AI 社區產品星野是中國表現最好的,比字節、美團等大公司的同類產品都好。暫時領先是為什么?
閆俊杰:最關鍵的是,技術路線一定要選對。其次做業務決策時,我們更懂用戶。
晚點:你怎么去懂他們了,你好像跟星野的用戶畫像并不是很像。
閆俊杰:核心是同理心。
晚點:你認為自己是個同理心很強的人?
閆俊杰:我覺得是。
實質是,大部分做技術的人會覺得自己很牛,是天才。但我不是這么認識這個世界的。
“不要區分創業公司和大公司,不要套用移動互聯網”
晚點:從我們 2024 年初那一次聊到現在,你覺得中國大模型競爭格局最大的變化是什么?
閆俊杰:24 年時,很多人認為 AI 是把移動互聯網復制一遍,現在至少有一些人開始意識到,其實 AI 不適用移動互聯網的邏輯,這是兩件事。
晚點:這個認知變化怎么影響競爭格局呢?
閆俊杰:大公司過去積累的優勢,仍有意義,但不是唯一的。這還是因為,產品用戶越多,模型并不會自然變好。而更好的智能,可能會導出新東西,新東西也會有新商業模式。
晚點:在全球我們看到,Google 花 25 億美元收購了 產品形態跟你們有些相似的 Character.ai 的團隊,這會是 MiniMax 的選項嗎?
閆俊杰:我沒考慮過把公司賣一個什么價錢。
晚點:我去年把這個新聞發給你時,你說 “感覺是一個 happy ending”。
閆俊杰:對他們來說是,本身創始人也沒那么喜歡那個產品,他回去后,Gemini 2.0 里就有他很多貢獻。
晚點:求證一個傳聞,字節 24 年初是不是談過以 40 億美元估值收購 MiniMax?
閆俊杰:沒有這個事。
晚點:你和張一鳴交流過,有什么收獲?
閆俊杰:至少讓我看到了一個非常頂級的企業家是什么樣的。
晚點:什么樣?
閆俊杰:他希望能給這個社會帶來很多正向價值。
晚點:到 24 年下半年,大模型的投資方已是國資輪、中東輪,后面還有多少人能接力?你們怎么持續獲得充足資金?
閆俊杰:我們沒到這個地步。這還是取決于,怎么做出自己的好東西。
晚點:其實你去年說過,你不相信中國大模型創業公司能純靠融資,真正的拐點會來自技術、產品或商業化效率的提升。但我了解到,你們 24 年的產品和收入都沒有實現年初定下的目標,你怎么看這件事兒?
閆俊杰:但我們是增長最快的,大概率也是收入最多的。
晚點:所以是目標定太高了?
閆俊杰:核心是,24 年年初定目標時,用的還是移動互聯網的業務邏輯,認知還沒轉變。其實這是兩個行業。
晚點:現在你會怎么設立目標?2025 年的目標是怎么定的?
閆俊杰:我覺得這個階段,不應該定一個收入目標,就應該定技術研發目標。
晚點:到去年下半年,大家都看到了大公司,如字節、阿里等的強悍,尤其是豆包的產品表現。這出乎你的預料嗎?
閆俊杰:基本上都在預料之中,我預料的比這還更激烈一點。
我想說,如果你用移動互聯網的思維來看,豆包確實很牛逼,但假定技術會長期發展,不同階段會帶來不同的產品和商業線,這真不一定是件好事。
晚點:你是指用戶增長太快對豆包不是好事,還是指以移動互聯網的思維來看豆包,對行業觀察者是個干擾?
閆俊杰:都不好。還是對比 OpenAI 和 Anthropic,前者用戶規模是后者的幾十倍,但它的估值、資金和人才都不過后者的三倍多。為了照顧那么多用戶,OpenAI 要負擔很多東西,有可能拖慢研發節奏。
晚點:所以用戶多,不能直接提升模型能力,多到一定程度反而有可能影響模型發展的速度和靈活性。
閆俊杰:至少看過去一年多,OpenAI 和 Anthropic 的對比就是這樣。
晚點:你反復提到不要套用移動互聯網的評判標準,那我們看 AI 產品,該看什么指標?
閆俊杰:海外產品的一個重要指標是訂閱數和付費,而移動互聯網大產品過去主要依賴廣告,這顯然不一樣。
國內產品,我猜也有指標,但我想跑得更好一點再說。
晚點:不和巨頭正面競爭,比如不重投入做豆包類產品,是一個你們的競爭原則嗎?
閆俊杰:是。但本質是,我認為做 AGI 和做 ChatGPT 類產品是兩件事。
而且當時也開始意識到,提升模型能力,不那么依賴最多的用戶,那放棄就沒太多心理壓力。
晚點:一位大模型投資人對比過 MiniMax 和月之暗面的市場策略,他認為月暗是認準做 “生產力場景 + 中國市場”,當然這也是所有大公司投入最多的方向,而 MiniMax 看起來在不斷適應環境,找到了巨頭正面戰場之外的空隙。你會怎么總結你們的定位策略?
閆俊杰:我們希望自己一直在浪潮里。這有兩個意思,一是能參與推動浪潮繼續發生;二是我們能讓公司持續發展下去。
“不應該假定,一個公司不會有變動和流失。有才是合理的。”
晚點:你怎么看去年有些中高層離開 MiniMax?
閆俊杰:本質上是,這個事兒應該是技術驅動的,不是所有人都合適。
晚點:那你是勸退了一些人嗎?會心理負擔比較大嗎?
閆俊杰:必須得克服。
晚點:你做這些事兒拖延了嗎?
閆俊杰:拖延了,這還是屬于認知不夠強。
不應該假定,一個公司不會有變動和流失。有才是合理的。
晚點:實際上你們現在團隊相比 24 年初有什么變化?
閆俊杰:主要的變化不在于組織架構,而是對人的要求。
一是希望各方向的 leader 是提方案的人,而不要等著別人來提方案,應該更 hands on。
二是我發現,我們想要根據客觀狀態分析找到理性方案的人,而不是直接復制上一家公司經驗的人。
晚點:你說 2025 年你們最重要的目標是技術迭代。這塊你們現在的組織協作和分工方式是怎樣的?資源怎么分配?
閆俊杰:一方面做東西的資源是相對充足的,另一方面創業公司就得做取舍,但你不該假定所有取舍都是對的,一個關鍵是,怎么意識到錯了,怎么及時改。
晚點:什么機制可以讓你意識到你判斷錯了?
閆俊杰:不 ego。不自我。
晚點:你覺得你是一個容易被說服的人嗎?
閆俊杰:不是
晚點:這和不要 ego 是矛盾的嗎?
閆俊杰:很多事都是矛盾的,MiniMax 這個名字就是矛盾的(MiniMax 作為技術術語指 “極小化極大算法”。)
還是有一些辦法平衡,就是盡量深入思考,不要被表面、暫時的東西迷惑住。
晚點:MiniMax 現在哪些重要的決策是你來定奪,哪些是放權給其他人?
閆俊杰:創業第一年,我覺得這件事很重要,后面發現其實不重要。
更重要的是,大家怎么有一個共同的思考基座。因為每個人做事方式不一樣,如果分得特別清楚,會導致不同模塊的邏輯完全不同,即使每個人都素質很高,一個公司也沒法很好運行。
正確方式是,公司最底層認知能對上,誰來做決策,都會差不多,組織才會變順。
晚點:大家都錯到一起去了怎么辦?
閆俊杰:多樣性也是一個很重要的指標了。但是我感覺,真正把公司擰起來的還是那個共同的東西。
晚點:這種不強調劃分的分工方式,會不會讓員工覺得公司的管理很亂?
閆俊杰:讓大家覺得公司管理得很好,其實不是一個目標。
晚點:有 MiniMax 員工說,24 年有段時間感到公司管理決策非常搖擺,這個月核心目標是收入,下個月是增長,下個月又是收入。
閆俊杰:我們后來統一了,這兩個事兒都不是目標,目標是技術迭代。
晚點:管理一個不能用以前的邏輯來套的新的 AI 公司,最大難題是什么?
閆俊杰:持續招到更好的人。一個事實是,字節現在對人才吸引力最強。但去了字節的人,真正發揮出潛力的比例比創業公司低,字節人太多了。
“最大的痛苦,是不知道要取舍”
晚點:2024 這一年,你自己最大的變化是什么?
閆俊杰:半年多以前,很多人覺得我有些焦慮,最近半年不再焦慮了。核心是開始意識到要做取舍。
晚點:這一年最大的痛苦是什么?
閆俊杰:最大的痛苦是不知道要做取舍。當知道了,就不痛苦了。我現在把技術迭代作為我們最重要的目標。
晚點:你去年反思最多的問題是什么?
閆俊杰:為什么自己的認知能力不能提升更快?
晚點:找到什么新的提升方法了嗎?
閆俊杰:還是要放下 ego,思考得更深。
晚點:你說過你很重要的一個學習方式,是和比自己強的人交流。去年你見過什么人,有什么學習?
閆俊杰:是有的,但我覺得光這樣不夠,本質還是自己能思考得非常深入。
晚點:一個投資人分享了去年和你一起找算力的事。他說你非常極致追求便宜的租金、更短的租期。有一些供應商提出,可以給 MiniMax 一些當地 to B AI 訂單,讓你們考慮更貴的租金,你說你不需要訂單。這是你強硬、不妥協的一面嗎?
閆俊杰:其實不要訂單的原因是我們交付不了,答應了會分散自己的精力,也把別人坑了。
晚點:在 MiniMax,你一直被大家叫 IO,這是 Dota 2 里的一個英雄。MiniMax 海螺 AI 說:IO 是一個輔助型英雄,主要為隊友提供增益和保護,在團隊中扮演 4 號位或 5 號位。你為什么玩 Dota 2 選了 IO,而且一直叫這個名字?
閆俊杰:其實他不是一直 4 號位、5 號位。TI9 時(Dota 2019 年國際邀請賽決賽),安娜(一位電競選手)使用的上帝小精靈,就是把 IO 變成了 1 號位,非常強,這讓他們戰隊得到了那年的冠軍,當時就覺得這名字挺酷的。
晚點:所以 IO 跟你自己的特點沒什么直接相關?
閆俊杰:創業還是有很多隨機行為的。
晚點:輔助型、輸出型,你覺得自己更像什么類型的英雄?
閆俊杰:其實不應該拆開看,如果一定要說的話,我是特別相信團隊作戰的人。
晚點:2025 年,你覺得可預見的變化是什么?
閆俊杰:AI 在專業領域達到專業人士水平。這會是一個實質提升,雖然 2025 年不一定全部實現,但會實現一部分。
晚點:新的一年,對自己有什么新的要求嗎?
閆俊杰:希望自己的技術水平變得更高。剛開始創業時,我還考慮管理的事,后來發現其實沒這么重要,真正重要的就是技術認知能否不停提升。
晚點:有時你看起來非常適應性,甚至有人會覺得是搖擺,有時非常堅決。哪個更接近真實的你?
閆俊杰:這是一個進步過程。當在一個階段變得更強后,會更堅決。
晚點:你創業時,既不是業界大佬,也不被認為是 “技術天才”。你認為自己是什么類型的創始人?
閆俊杰:我覺得是簡單。簡單是指,知道有一件事,這事也很難,但做好的價值挺大,就堅持做。
賀乾明對此文亦有貢獻。
題圖來源:《平凡之路》MV
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.