![]()
不是生意,而是生命。
文 | 華商韜略 陳斯文
不同于互聯網、移動互聯網時代,幾張桌椅、幾個腦袋就能創造奇跡,而是需要動輒數千張的GPU集群、億元級的算力投入、海量的語料數據、以及頂尖的算法人才……
這樣的門檻與特性,曾讓很多人感嘆,AI大模型這條賽道,絕不屬于初創小公司,只有巨頭才配坐在牌桌上。
然而,現實卻給出了鼓舞后來者的答案:
智譜GLM系列模型在中文理解與推理領域比肩國際頂尖水平,MiniMax的M2.5模型以極致效率打破算力內卷,DeepSeek R1將千億參數模型訓練成本壓縮到行業的1/10,Kimi則以200萬字長文本處理能力開辟全新賽道……
一批初創小公司都已在大模型領域成功破局,非但不比巨頭們遜色,甚至開始逆襲巨頭,引領風騷。
【01 四副面孔】
初創公司逆襲巨頭的答案,首先藏在這些公司的創始人身上。
智譜的唐杰與張鵬、MiniMax的閆俊杰、DeepSeek的梁文鋒、Kimi的楊植麟,這些創始人,有一個驚人的共同點:
他們已是人生贏家,卻毅然告別了輝煌與舒適區。
2019年創立智譜時,唐杰已深耕自然語言處理與知識圖譜多年,手握20多項專利,主持過多個國家級科研課題,是清華大學計算機系教授,全球人工智能領域的頂尖學者。
他原本可以安于象牙塔,享受科研與學術的安穩和榮光。但當人工智能的風口初現,他坐不住了,認為這是自己躬身實踐的機會,也是中國AI彎道超車的機會。
![]()
▲唐杰在辦公室圖源:北京大學王選計算機研究所
于是,他找到了同為清華校友的張鵬——一位在清華大學知識工程實驗室工作近20年的學者,同樣是技術圈內的資深大佬。
在一家小咖啡館長談了一個下午后,唐杰和張鵬做出了一個決定:離開清華園,搬進創業園區的小寫字樓。
2021年創立MiniMax時,同樣畢業于清華的閆俊杰,已是當時的AI大企商湯科技的副總裁,并主導了商湯深度學習工具鏈和通用智能技術體系的搭建。
彼時的商湯科技,即將港股上市,以閆俊杰的職級與貢獻,繼續供職,很可能成為億萬富翁。
但他覺得這不夠勁,因為他已經對AI有了更大的想法——開發通用大模型,讓AI像水電一樣普及,融入并改變人類生活。
Kimi的創始人楊植麟,同樣是“清華系”的成員,他本科時的老師正是唐杰教授。隨后,他又在美國卡內基梅隆大學取得博士學位。在Facebook、google等一批巨頭企業從事技術研究,并擔任了清華大學的助理教授。
不出意外,這位17歲就被保送清華的天才少年,大概率將會在某家硅谷巨頭獲得千萬級甚至更高年薪,或是成為某家國內大廠的首席科學家。
但2022年ChatGPT的發布,讓他聽到了新世界的敲門聲。于是,他以最快速度破局入場,幾乎是掐著秒表搶融資,只用四個月就創立了今天的月之暗面。
創辦DeepSeek的梁文鋒,更是愿景驅動的極致典型。
![]()
早在2010年,梁文鋒的團隊就靠著量化投資,將自營資金做到了超過5億元。他創立的幻方量化,旗下基金規模在2021年一度超越千億大關,位列國內量化四大天王。
按照世俗標準,他可以去買海島、買私人飛機,順手做做安逸的天使投資人。但憑借AI起家的梁文鋒,眼光卻看到了更遠的地方:
“AI一定會改變世界,而中國AI不應該永遠處在跟隨的位置。”
曾經,創業是為了謀生,為了賺錢,改變命運,但這些創業者,他們或是學術界、產業界的大牛,手握令人羨慕的教職與履歷;或是早已實現財富自由的隱形富豪,無需為經濟擔憂。
從第一天起,他們就為理想、為信念而勇往直前。
正是創始人的這種“拼命”底色,賦予了幾家初創公司區別于大廠的獨特氣質——為了理想,而激情燃燒、孤注一擲,甚至無所畏懼。
【02 敢賭敢為】
智譜CEO張鵬曾有一句名言:“技術不是魔法,連驚嘆都不該有,一切都是有跡可循的。”
在智譜內部,一直保持著一條清晰的技術路徑——走自己的GLM算法之路。
GLM是一個巧妙的架構設計,既能做填空也能做續寫,可以在相對低算力下,獲得更高效的訓練底座。
但在2021年,最緊迫的問題是:要不要在這條路上,訓練一個千億級參數的大模型?
GPT-3的訓練成本是兩千多萬美元,智譜的成本控制再好,也需要千萬級人民幣以上,并且需要舉全公司之力,花八九個月時間。
如果成功,一好百好,如果失敗,什么也剩不下。
決策會上,大多數時間大家都在沉默。對于不愛說話的工程師而言,不說話,就是難度大,甚至不可能。
但核心團隊最后認為:不做,不追,永遠不知道自己能跑多快,跑多遠。一個初創團隊的前進,不應該背著經濟包袱。
沉默過后的投票決策,工程師們全票通過。
相對于巨頭而言,這的確是一場不對稱的競爭。
大公司往往背負著沉重的“存量包袱”,它們有龐大的搜索、廣告、社交、電商組成的業務生態,這些是過去的成功路徑,也是某種意義上的鐐銬,更重要的是,它們還需要對財務報表和投資者負責。
因此當顛覆與革命來臨時,決策往往會陷入“創新的窘境”,對新技術和投入太狠,可能沖擊基本面;投入太輕,又會被時代甩下。
“光著腳”的小公司則完全不同,它們沒有業務包袱,沒有需要維護的存量利益,只有ALL IN一條路。
今年年初,Kimi引爆了“長文本”戰役。背后是看準就ALL IN的孤注一擲。
因為發現了用戶“閱讀長文檔”的痛點,Kimi不惜血本投入算力,率先支持200萬字上下文的處理能力。為了這個突破,整個公司僅在幾周內,就經歷了數次架構重構。
國內各大巨頭并非沒有技術儲備,也都看到了其中的機會,但長文本處理的算力成本消耗,尚不明確的變現路徑,都讓其舉棋不定。
這種不對稱,并不只在決心與勇氣。也更在于由決心與勇氣激發出的方法和效率,在于對各種資源要素的調用,以及創新創造力的極致發揮。
國內某大廠的一位AI研究員曾在網上吐槽:他想要申請幾張A100顯卡做實驗,審批流程就走了兩周,等卡到位了,技術風向已經變了。
這是大公司常見的“大企業病”。哪怕一個小想法的落地,往往也要經歷文本匯報,層層審批、跨部門協調、各級評審。更關鍵的是,大廠的研發人員還會不同程度地被KPI綁定,從而更傾向于獲得穩定的考核成果。
但在小公司,戰略和戰術常常都是在戰壕里完成。
在DeepSeek,沒有明確的職級劃分,也沒有上下級分工,看不到冗長的決策鏈條;大家都是“寫代碼的人”,也都是“提想法的人”;每個人都可以拉人討論,并隨時調用公司訓練集群的卡,無需審批,不設上限。
研發V2模型時,為了解決一個算子優化難題,幾位工程師直接拉了個群,現場討論,現場拍板,一個通宵就解決了。
這種差異,就是“成熟正規軍”與“初創特種兵”的區別,正規軍打仗要看地圖、聽指令;特種兵打仗,槍響了就沖,哪里有缺口就打哪里。
這些拿槍沖鋒的特種兵里,甚至包括創始人——Minimax創立初期,閆俊杰本人就親自參與了絕大部分核心代碼的審查。
初創的智譜,團隊僅有百人,且保持著極簡的用人策略——絕大多數都是工程師。發布第一款大模型時,新聞稿是研發人員自己寫的,Logo是一位工程師的女朋友幫忙設計的。
但正是這款大模型,1300億的參數,直接對標OpenAI的CPT-3。并且,從2021年12月決策,到2022年8月發布,只用了9個月。
大模型的研發,固然是“燒錢游戲”,但錢燒得是否有效率,決定了最終的結果。在這一點上,創業公司每一分錢都要花在刀刃上的習慣,將資源的利用率逼到了極致。
就在2月底,OpenAI獲得了來自軟銀、英偉達、亞馬遜的新一輪投資,總計高達1100億美元,它的背后,始終有微軟的支持。而國內幾家AI創業企業,始終沒打過太富裕的仗。
月之暗面的天使輪總估值,只有3億美元;Minimax靠上市前的8輪融資,總共拿到了15億美元,但天使輪僅有3100萬;DeepSeek的前期基本靠梁文鋒與幻方量化的自有資金;智譜獲得的第一筆投資,甚至只有區區4000萬元人民幣。
這種資源上的“有限戰”,逼著創業小公司真的要像特種兵一樣,用好手里的每一顆子彈。
算力,曾經是智譜最大的挑戰,訓練千億級模型,需要數千塊GPU芯片連續運轉數月,智譜只能去東湊西借——2020年,它就向一家國內云服務供應商借了一批閑置GPU。
在最困難的時期,唐杰和張鵬每天最重要的事,就是觀察兩個窗口指標:一個訓練進度,一個銀行賬戶。
但這也磨練出了創業團隊的極限生存能力:智譜的工程師們始終圍繞著模型做極致優化,DeepSeek的團隊甚至為了提升顯存利用率,重寫了底層的通信協議。
也正是因為極致的“算”與“省”,練就了國產大模型的優秀——DeepSeek-V3在性能比肩GPT-4o的同時,訓練成本不到后者的二十分之一。
一位目睹了進程的投資人說:“大廠用鈔能力掩蓋工程能力的不足,小公司卻用工程能力補上了鈔能力的短板”。
【03 軟實力】
從決策到組織,從效率到斗志,各種不對稱的因素加在一起,讓小團隊不斷逆襲大巨頭,但其背后的核心邏輯,并非是大公司打不過小公司。
它的關鍵,不在規模大小,實力強弱,而在規模實力等硬指標背后的軟實力。而當大公司的硬實力與小公司的軟實力相結合,帶來的將是大公司的更加所向披靡。
AI競賽,正在上演類似的故事。
新春之際,字節跳動的Seedance2.0驚艷世界,連好萊塢大牌導演都驚嘆不已,表示重塑影視行業的真正拐點正式到來。
![]()
▲圖源:CCTV4微信公眾號
這樣的追趕與突破,得益于字節保持至今的紀律性與饑餓感。在這家公司的歷史上,類似的故事一抓一大把。
2016年,還在孵化階段的抖音,由張一鳴親自面試產品經理的崗位。一個畢業僅8個月的男生,只帶了一張寫著結論的A4紙,他唯一的資歷,是每天刷12個小時短視頻,拆解過2000個爆款視頻的邏輯。
張一鳴當場給出了崗位:P7職級,專家檔薪資,無試用期,進入抖音核心組,3個月看數據。
3個月內,這位應屆生主導了抖音首頁滑動邏輯、拍攝按鈕交互,濾鏡優先級三個核心模塊,幫助用戶時長提升21%,留存提升14%。
在字節內部,有著極其嚴格的日常開支要求,連打印紙都必須雙面使用,但在戰略投入上,算法研發、算力采購、AI大模型框架的建設,預算永遠從實際需要出發,從無紙面上限。
它帶來的結果是,超千億元被投入GPU集群與自研訓練框架的建設,幫助GPU利用率從30%上升到90%,成本下降了70%,訓練速度提升3倍。
老牌大廠阿里,也在用行動證明,大象同樣可以跳舞。
今年,通義千問Qwen系列模型在全球開源榜單上屢次登頂,成為能與Llama、GPT系列分庭抗禮的中國力量。這背后,是阿里對“云智一體”戰略的長期堅守與自我革命。
![]()
在阿里內部,通義團隊被賦予了特區般的“創業權限”。他們打破了層級森嚴的匯報機制,重構了一套敏捷的研發體系。為了在算力上實現極致性價比,團隊主動發起“技術攻堅戰”,將模型推理成本在一年內降低了超過90%,讓大模型從“奢侈品”變成了“日用品”。
更關鍵的是,阿里不斷對內“開刀”——為了推動AI落地,阿里云甚至不惜重構其產品邏輯,將通義大模型深度嵌入釘釘等超級應用中。
當大多數公司還在探索AI入口時,釘釘團隊在短短幾個月內就上線了“魔法棒”功能,只需輸入一個“/”符號,AI就能自動生成文檔、整理會議紀要。
為了這個“斜杠”功能,釘釘產品團隊與通義實驗室進行了封閉式開發,跳過了繁瑣的跨部門審批,成為了打破大廠部門墻的經典案例。
這些不計代價,直奔彼岸,不講程序,只看效率的規則,正是AI時代最寶貴的品質。
其實,在所有商業時代,這些都是最寶貴的品質,造就了許多商業傳奇——今天的阿里、騰訊、字節跳動,都是從小公司逆襲而來。
在資本與技術更密集的AI時代,這些品質得到了進一步放大,讓AI時代最震撼人心的技術突破,往往不屬于那些躺在功勞簿上的企業,也不屬于那些只盯著KPI報表的職業經理人。它一如既往地屬于那些:
義無反顧沖向風暴中心的人。
歡迎關注【華商韜略】,識風云人物,讀韜略傳奇。
版權所有,禁止私自轉載
部分圖片來源于網絡
如涉及侵權,請聯系刪除
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.