最近,全球科技投資界的標(biāo)桿機(jī)構(gòu)發(fā)布的a16z榜單Top 50的AI產(chǎn)品中有近半是來自中國。要知道,只有投資價(jià)值極高的產(chǎn)品才會(huì)被收錄其中。更值得注意的是,躋身web榜單前列的海螺AI(Hailuo AI)和APP榜前列的Talkie都是來自同一家中國AI公司。其中海螺AI更是力壓可靈和OpenAI的Sora穩(wěn)居全球視頻生成賽道王座。這家公司就是國內(nèi)大模型“六小虎”之一,MiniMax。而在較早之前的2025年1月,MiniMax還陸續(xù)發(fā)布了多款涵蓋多領(lǐng)域的大模型。
模型發(fā)布后,很快就吸引了國內(nèi)外專家、學(xué)者和AI愛好者的廣泛關(guān)注。這比DeepSeek的爆火,早了一個(gè)多月,讓中國AI技術(shù)在國際間引發(fā)了持續(xù)的回響。
![]()
01
MiniMax發(fā)布多款大模型,引爆全球AI圈
2025年開年,MiniMax連續(xù)發(fā)布多個(gè)大模型,這非常符合MiniMax“技術(shù)驅(qū)動(dòng)”的作風(fēng):一旦出手,就是王炸。
1)視頻新模型S2V-01。1月10日,MiniMax發(fā)布了S2V-01視頻模型,通過單圖主體參考架構(gòu),能夠做到傳統(tǒng)方案1%以下的輸入和計(jì)算成本。你只需輸入一張圖片, 就可以得到細(xì)節(jié)還原精確的視頻, 具有高自由度和組合性,而且用時(shí)大大縮短。
2)新一代開源模型MiniMax-01系列。緊接著,在1月15日發(fā)布了新一代MiniMax-01系列開源大模型,包含基礎(chǔ)語言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型MiniMax-VL-01。不同于Transformer傳統(tǒng)架構(gòu)的是,它采用了線性注意力機(jī)制,綜合性能比肩GPT-4o、Claude-3.5等海外領(lǐng)軍模型,并且能夠高效處理高達(dá)400萬token的輸入,可輸入長度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
MiniMax-01系列模型發(fā)布后,立刻引發(fā)國內(nèi)外熱議浪潮。海外AI從業(yè)者與媒體,對其技術(shù)架構(gòu)路線、模型綜合能力、技術(shù)創(chuàng)新性給予了高度肯定。被認(rèn)為一個(gè)來自中國的可以與OpenAI“掰手腕”的頂尖開源模型。
3)語音模型T2A-01-HD。創(chuàng)新的步伐永不停歇,1月20日,MiniMax繼續(xù)發(fā)布T2A-01系列語音模型,不僅支持17種語言的流暢表達(dá)和上百種預(yù)置音色,而且音質(zhì)穩(wěn)定清晰、韻律自然、情緒精準(zhǔn)表達(dá)、準(zhǔn)確度高,語音生成速度更快、能力更穩(wěn)定。
4)圖生視頻模型I2V-01-Director。2月24日,MiniMax再度發(fā)力,新推出了圖生視頻模型I2V-01-Director。與此前「鏡頭控制」的文生圖視頻T2V-01-Director共同組成01-Director系列。「鏡頭控制」模型讓普通用戶也可以成為導(dǎo)演,無論是文生視頻、圖生視頻,都能夠靈活自主地控制鏡頭語言,釋放你的創(chuàng)作潛能。T2V-01-Director、I2V-01-Director,現(xiàn)已對全球用戶開放,在MiniMax開放平臺(tái)和海螺視頻均已上線。
02
押注非共識(shí)技術(shù)路線:“線性注意力”是未來
在技術(shù)創(chuàng)新方面,MiniMax始終保持著業(yè)界領(lǐng)先的地位,在底層模型算法上更是不走尋常路,打破Transformer的傳統(tǒng)架構(gòu),押注非共識(shí)技術(shù)路線“線性注意力”。使得MiniMax-01的超長文本處理能力成為業(yè)界天花板。
1)Transformer的“稀疏注意力”,有其局限性。Transformer的二次復(fù)雜度一直是學(xué)界關(guān)注的問題,隨著token長度增加,計(jì)算量與序列長度的平方成正比,導(dǎo)致算力增加迅速。
稀疏注意力的方案思想是采樣注意力矩陣的部分?jǐn)?shù)據(jù)來計(jì)算,避免全局計(jì)算來減少計(jì)算復(fù)雜度。但MiniMax認(rèn)為這樣是以有損的方案逼近Full Attention,而線性注意力的方案可以實(shí)現(xiàn)無損優(yōu)化。
2)模型規(guī)模越大,“線性注意力”優(yōu)勢越明顯。在長文本領(lǐng)域,線性注意力比稀疏注意力更有優(yōu)勢,尤其當(dāng)模型規(guī)模越大時(shí),線性注意力在計(jì)算復(fù)雜度上的優(yōu)化效果越明顯,而且上限極高。而長上下文處理能力可以加強(qiáng)智能體的記憶和通訊,這將是在Agent時(shí)代的核心基建。
3)新的深度推理多模態(tài)模型,即將發(fā)布。K哥了解到,MiniMax將在4~5月份發(fā)布基于Linear Attention架構(gòu)的深度推理多模態(tài)模型,模型的綜合能力非常值得期待。
03
MiniMax真正的目標(biāo)是,加速全球技術(shù)迭代
以上,K哥跟大家聊了MiniMax的硬核技術(shù),技術(shù)的背后體現(xiàn)了公司的文化以及創(chuàng)始人的技術(shù)哲學(xué)理念。MiniMax之所以能夠在強(qiáng)手如林的全球AI產(chǎn)業(yè)界保持領(lǐng)先位置,跟它的技術(shù)信仰是息息相關(guān)的。
1)堅(jiān)持技術(shù)驅(qū)動(dòng)的公司,才有生命力
在AI領(lǐng)域不管創(chuàng)業(yè)公司還是大廠,仍沿襲互聯(lián)網(wǎng)產(chǎn)品的慣性思維,都還在用做推薦系統(tǒng)的方法來做大模型產(chǎn)品。“推薦” 的邏輯是,用戶越多,反饋越多,推薦引擎越聰明。MiniMax創(chuàng)始人閆俊杰卻不這么認(rèn)為,他在接受媒體采訪時(shí)說,“當(dāng)技術(shù)與產(chǎn)品沖突時(shí),技術(shù)優(yōu)先”——他堅(jiān)定地認(rèn)為MiniMax為技術(shù)驅(qū)動(dòng)型公司,強(qiáng)調(diào)技術(shù)迭代速度才是核心競爭力,而非短期用戶規(guī)模或商業(yè)化指標(biāo)。這一理念外化為兩大實(shí)踐:一是清晰定義模型能力分級,通過技術(shù)手段逼近目標(biāo),而非依賴用戶反饋的被動(dòng)優(yōu)化;二是堅(jiān)信“模型即應(yīng)用”,即頂尖模型的突破直接催生顛覆性應(yīng)用,而非通過用戶數(shù)據(jù)反哺模型升級。
這一洞見不僅顛覆了傳統(tǒng)互聯(lián)網(wǎng)方法論,更揭示了AI技術(shù)革命的本質(zhì):以底層創(chuàng)新驅(qū)動(dòng)上層爆發(fā),而非在既有范式內(nèi)做數(shù)據(jù)內(nèi)卷。海螺AI的快速崛起與DeepSeek的爆火出圈,正是對這一理念的強(qiáng)有力佐證。
2)開源會(huì)加速技術(shù)進(jìn)化
當(dāng)談到MiniMax為何選擇開源時(shí),閆俊杰給出了他的思考,如果重新選,第一天就應(yīng)該開源。 開源會(huì)加速技術(shù)進(jìn)化,做得好的地方有鼓勵(lì),不好的地方會(huì)有很多批評,外面的人也會(huì)有貢獻(xiàn),這是MiniMax選擇開源的最大驅(qū)動(dòng)力。K哥認(rèn)為,這是回歸“第一性原理”的思考,但凡能夠加速技術(shù)進(jìn)化的事情,優(yōu)先級是最高的。
開源的另一個(gè)好處,就是有助于技術(shù)品牌的建立,MiniMax非常重視技術(shù)品牌的打造,這源于閆俊杰對技術(shù)品牌的深刻認(rèn)知,他認(rèn)為技術(shù)品牌之所以重要,本質(zhì)也是因?yàn)檫@個(gè)行業(yè)最大的驅(qū)動(dòng)力是技術(shù)進(jìn)化。
在AI領(lǐng)域有一種偏保守的思想認(rèn)為,開源會(huì)影響公司的核心競爭力——因?yàn)槟惆押诵募夹g(shù)都開源了,競爭對手很快就會(huì)迎頭趕上。閆俊杰卻不認(rèn)同這種說法,他認(rèn)為開源不會(huì)影響公司的核心競爭力,即便是OpenAI,今天也應(yīng)該開源,因?yàn)樗暮诵哪芰σ呀?jīng)不是模型比Claude或Gemini好多少,而是ChatGPT的品牌與心智。開源恰恰是對一家AI公司的技術(shù)品牌以及用戶心智有好處的。
開源對于AI公司來說是一種長期策略,因?yàn)樗心P鸵荒曛蠖紩?huì)落后,只有技術(shù)的不斷進(jìn)步才能保持領(lǐng)先,基于這個(gè)判斷,MiniMax的通用模型后面也會(huì)持續(xù)開源。
結(jié)束語
凱文·凱利說過:“技術(shù)想要什么?它想要進(jìn)化。”
MiniMax選擇了一條既深且遠(yuǎn)的道路,堅(jiān)持“線性注意力”的非共識(shí)技術(shù)路線,相信技術(shù)驅(qū)動(dòng),選擇開源。這或許正是科技文明的終極意義:不是獨(dú)行者的領(lǐng)跑,而是同行者的共舞。
當(dāng)硅谷仍沉迷于算力軍備競賽時(shí),中國AI企業(yè)正以算法優(yōu)化與工程效率重塑游戲規(guī)則。全球AI競爭的敘事已悄然改寫,中國AI企業(yè)正以技術(shù)為筆墨,書寫著開放、協(xié)作與普惠的新篇章。
在算法的星河中,每一次創(chuàng)新都在追問——我們能否以更低的熵增,抵達(dá)更遠(yuǎn)的未來?答案,或許就藏在下一行開源代碼當(dāng)中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.