網易首頁 > 網易號 > 正文申請入駐

小團隊，為什么能超越巨頭，干出更能打的大模型

2026-03-08 13:19:00　來源: 華商韜略

江蘇舉報

分享至

不是生意，而是生命。

文 | 華商韜略陳斯文

不同于互聯網、移動互聯網時代，幾張桌椅、幾個腦袋就能創造奇跡，而是需要動輒數千張的GPU集群、億元級的算力投入、海量的語料數據、以及頂尖的算法人才……

這樣的門檻與特性，曾讓很多人感嘆，AI大模型這條賽道，絕不屬于初創小公司，只有巨頭才配坐在牌桌上。

然而，現實卻給出了鼓舞后來者的答案：

智譜GLM系列模型在中文理解與推理領域比肩國際頂尖水平，MiniMax的M2.5模型以極致效率打破算力內卷，DeepSeek R1將千億參數模型訓練成本壓縮到行業的1/10，Kimi則以200萬字長文本處理能力開辟全新賽道……

一批初創小公司都已在大模型領域成功破局，非但不比巨頭們遜色，甚至開始逆襲巨頭，引領風騷。

【01 四副面孔】

初創公司逆襲巨頭的答案，首先藏在這些公司的創始人身上。

智譜的唐杰與張鵬、MiniMax的閆俊杰、DeepSeek的梁文鋒、Kimi的楊植麟，這些創始人，有一個驚人的共同點：

他們已是人生贏家，卻毅然告別了輝煌與舒適區。

2019年創立智譜時，唐杰已深耕自然語言處理與知識圖譜多年，手握20多項專利，主持過多個國家級科研課題，是清華大學計算機系教授，全球人工智能領域的頂尖學者。

他原本可以安于象牙塔，享受科研與學術的安穩和榮光。但當人工智能的風口初現，他坐不住了，認為這是自己躬身實踐的機會，也是中國AI彎道超車的機會。

▲唐杰在辦公室圖源：北京大學王選計算機研究所

于是，他找到了同為清華校友的張鵬——一位在清華大學知識工程實驗室工作近20年的學者，同樣是技術圈內的資深大佬。

在一家小咖啡館長談了一個下午后，唐杰和張鵬做出了一個決定：離開清華園，搬進創業園區的小寫字樓。

2021年創立MiniMax時，同樣畢業于清華的閆俊杰，已是當時的AI大企商湯科技的副總裁，并主導了商湯深度學習工具鏈和通用智能技術體系的搭建。

彼時的商湯科技，即將港股上市，以閆俊杰的職級與貢獻，繼續供職，很可能成為億萬富翁。

但他覺得這不夠勁，因為他已經對AI有了更大的想法——開發通用大模型，讓AI像水電一樣普及，融入并改變人類生活。

Kimi的創始人楊植麟，同樣是“清華系”的成員，他本科時的老師正是唐杰教授。隨后，他又在美國卡內基梅隆大學取得博士學位。在Facebook、google等一批巨頭企業從事技術研究，并擔任了清華大學的助理教授。

不出意外，這位17歲就被保送清華的天才少年，大概率將會在某家硅谷巨頭獲得千萬級甚至更高年薪，或是成為某家國內大廠的首席科學家。

但2022年ChatGPT的發布，讓他聽到了新世界的敲門聲。于是，他以最快速度破局入場，幾乎是掐著秒表搶融資，只用四個月就創立了今天的月之暗面。

創辦DeepSeek的梁文鋒，更是愿景驅動的極致典型。

早在2010年，梁文鋒的團隊就靠著量化投資，將自營資金做到了超過5億元。他創立的幻方量化，旗下基金規模在2021年一度超越千億大關，位列國內量化四大天王。

按照世俗標準，他可以去買海島、買私人飛機，順手做做安逸的天使投資人。但憑借AI起家的梁文鋒，眼光卻看到了更遠的地方：

“AI一定會改變世界，而中國AI不應該永遠處在跟隨的位置。”

曾經，創業是為了謀生，為了賺錢，改變命運，但這些創業者，他們或是學術界、產業界的大牛，手握令人羨慕的教職與履歷；或是早已實現財富自由的隱形富豪，無需為經濟擔憂。

從第一天起，他們就為理想、為信念而勇往直前。

正是創始人的這種“拼命”底色，賦予了幾家初創公司區別于大廠的獨特氣質——為了理想，而激情燃燒、孤注一擲，甚至無所畏懼。

【02 敢賭敢為】

智譜CEO張鵬曾有一句名言：“技術不是魔法，連驚嘆都不該有，一切都是有跡可循的。”

在智譜內部，一直保持著一條清晰的技術路徑——走自己的GLM算法之路。

GLM是一個巧妙的架構設計，既能做填空也能做續寫，可以在相對低算力下，獲得更高效的訓練底座。

但在2021年，最緊迫的問題是：要不要在這條路上，訓練一個千億級參數的大模型？

GPT-3的訓練成本是兩千多萬美元，智譜的成本控制再好，也需要千萬級人民幣以上，并且需要舉全公司之力，花八九個月時間。

如果成功，一好百好，如果失敗，什么也剩不下。

決策會上，大多數時間大家都在沉默。對于不愛說話的工程師而言，不說話，就是難度大，甚至不可能。

但核心團隊最后認為：不做，不追，永遠不知道自己能跑多快，跑多遠。一個初創團隊的前進，不應該背著經濟包袱。

沉默過后的投票決策，工程師們全票通過。

相對于巨頭而言，這的確是一場不對稱的競爭。

大公司往往背負著沉重的“存量包袱”，它們有龐大的搜索、廣告、社交、電商組成的業務生態，這些是過去的成功路徑，也是某種意義上的鐐銬，更重要的是，它們還需要對財務報表和投資者負責。

因此當顛覆與革命來臨時，決策往往會陷入“創新的窘境”，對新技術和投入太狠，可能沖擊基本面；投入太輕，又會被時代甩下。

“光著腳”的小公司則完全不同，它們沒有業務包袱，沒有需要維護的存量利益，只有ALL IN一條路。

今年年初，Kimi引爆了“長文本”戰役。背后是看準就ALL IN的孤注一擲。

因為發現了用戶“閱讀長文檔”的痛點，Kimi不惜血本投入算力，率先支持200萬字上下文的處理能力。為了這個突破，整個公司僅在幾周內，就經歷了數次架構重構。

國內各大巨頭并非沒有技術儲備，也都看到了其中的機會，但長文本處理的算力成本消耗，尚不明確的變現路徑，都讓其舉棋不定。

這種不對稱，并不只在決心與勇氣。也更在于由決心與勇氣激發出的方法和效率，在于對各種資源要素的調用，以及創新創造力的極致發揮。

國內某大廠的一位AI研究員曾在網上吐槽：他想要申請幾張A100顯卡做實驗，審批流程就走了兩周，等卡到位了，技術風向已經變了。

這是大公司常見的“大企業病”。哪怕一個小想法的落地，往往也要經歷文本匯報，層層審批、跨部門協調、各級評審。更關鍵的是，大廠的研發人員還會不同程度地被KPI綁定，從而更傾向于獲得穩定的考核成果。

但在小公司，戰略和戰術常常都是在戰壕里完成。

在DeepSeek，沒有明確的職級劃分，也沒有上下級分工，看不到冗長的決策鏈條；大家都是“寫代碼的人”，也都是“提想法的人”；每個人都可以拉人討論，并隨時調用公司訓練集群的卡，無需審批，不設上限。

研發V2模型時，為了解決一個算子優化難題，幾位工程師直接拉了個群，現場討論，現場拍板，一個通宵就解決了。

這種差異，就是“成熟正規軍”與“初創特種兵”的區別，正規軍打仗要看地圖、聽指令；特種兵打仗，槍響了就沖，哪里有缺口就打哪里。

這些拿槍沖鋒的特種兵里，甚至包括創始人——Minimax創立初期，閆俊杰本人就親自參與了絕大部分核心代碼的審查。

初創的智譜，團隊僅有百人，且保持著極簡的用人策略——絕大多數都是工程師。發布第一款大模型時，新聞稿是研發人員自己寫的，Logo是一位工程師的女朋友幫忙設計的。

但正是這款大模型，1300億的參數，直接對標OpenAI的CPT-3。并且，從2021年12月決策，到2022年8月發布，只用了9個月。

大模型的研發，固然是“燒錢游戲”，但錢燒得是否有效率，決定了最終的結果。在這一點上，創業公司每一分錢都要花在刀刃上的習慣，將資源的利用率逼到了極致。

就在2月底，OpenAI獲得了來自軟銀、英偉達、亞馬遜的新一輪投資，總計高達1100億美元，它的背后，始終有微軟的支持。而國內幾家AI創業企業，始終沒打過太富裕的仗。

月之暗面的天使輪總估值，只有3億美元；Minimax靠上市前的8輪融資，總共拿到了15億美元，但天使輪僅有3100萬；DeepSeek的前期基本靠梁文鋒與幻方量化的自有資金；智譜獲得的第一筆投資，甚至只有區區4000萬元人民幣。

這種資源上的“有限戰”，逼著創業小公司真的要像特種兵一樣，用好手里的每一顆子彈。

算力，曾經是智譜最大的挑戰，訓練千億級模型，需要數千塊GPU芯片連續運轉數月，智譜只能去東湊西借——2020年，它就向一家國內云服務供應商借了一批閑置GPU。

在最困難的時期，唐杰和張鵬每天最重要的事，就是觀察兩個窗口指標：一個訓練進度，一個銀行賬戶。

但這也磨練出了創業團隊的極限生存能力：智譜的工程師們始終圍繞著模型做極致優化，DeepSeek的團隊甚至為了提升顯存利用率，重寫了底層的通信協議。

也正是因為極致的“算”與“省”，練就了國產大模型的優秀——DeepSeek-V3在性能比肩GPT-4o的同時，訓練成本不到后者的二十分之一。

一位目睹了進程的投資人說：“大廠用鈔能力掩蓋工程能力的不足，小公司卻用工程能力補上了鈔能力的短板”。

【03 軟實力】

從決策到組織，從效率到斗志，各種不對稱的因素加在一起，讓小團隊不斷逆襲大巨頭，但其背后的核心邏輯，并非是大公司打不過小公司。

它的關鍵，不在規模大小，實力強弱，而在規模實力等硬指標背后的軟實力。而當大公司的硬實力與小公司的軟實力相結合，帶來的將是大公司的更加所向披靡。

AI競賽，正在上演類似的故事。

新春之際，字節跳動的Seedance2.0驚艷世界，連好萊塢大牌導演都驚嘆不已，表示重塑影視行業的真正拐點正式到來。

▲圖源：CCTV4微信公眾號

這樣的追趕與突破，得益于字節保持至今的紀律性與饑餓感。在這家公司的歷史上，類似的故事一抓一大把。

2016年，還在孵化階段的抖音，由張一鳴親自面試產品經理的崗位。一個畢業僅8個月的男生，只帶了一張寫著結論的A4紙，他唯一的資歷，是每天刷12個小時短視頻，拆解過2000個爆款視頻的邏輯。

張一鳴當場給出了崗位：P7職級，專家檔薪資，無試用期，進入抖音核心組，3個月看數據。

3個月內，這位應屆生主導了抖音首頁滑動邏輯、拍攝按鈕交互，濾鏡優先級三個核心模塊，幫助用戶時長提升21%，留存提升14%。

在字節內部，有著極其嚴格的日常開支要求，連打印紙都必須雙面使用，但在戰略投入上，算法研發、算力采購、AI大模型框架的建設，預算永遠從實際需要出發，從無紙面上限。

它帶來的結果是，超千億元被投入GPU集群與自研訓練框架的建設，幫助GPU利用率從30%上升到90%，成本下降了70%，訓練速度提升3倍。

老牌大廠阿里，也在用行動證明，大象同樣可以跳舞。

今年，通義千問Qwen系列模型在全球開源榜單上屢次登頂，成為能與Llama、GPT系列分庭抗禮的中國力量。這背后，是阿里對“云智一體”戰略的長期堅守與自我革命。

在阿里內部，通義團隊被賦予了特區般的“創業權限”。他們打破了層級森嚴的匯報機制，重構了一套敏捷的研發體系。為了在算力上實現極致性價比，團隊主動發起“技術攻堅戰”，將模型推理成本在一年內降低了超過90%，讓大模型從“奢侈品”變成了“日用品”。

更關鍵的是，阿里不斷對內“開刀”——為了推動AI落地，阿里云甚至不惜重構其產品邏輯，將通義大模型深度嵌入釘釘等超級應用中。

當大多數公司還在探索AI入口時，釘釘團隊在短短幾個月內就上線了“魔法棒”功能，只需輸入一個“/”符號，AI就能自動生成文檔、整理會議紀要。

為了這個“斜杠”功能，釘釘產品團隊與通義實驗室進行了封閉式開發，跳過了繁瑣的跨部門審批，成為了打破大廠部門墻的經典案例。

這些不計代價，直奔彼岸，不講程序，只看效率的規則，正是AI時代最寶貴的品質。

其實，在所有商業時代，這些都是最寶貴的品質，造就了許多商業傳奇——今天的阿里、騰訊、字節跳動，都是從小公司逆襲而來。

在資本與技術更密集的AI時代，這些品質得到了進一步放大，讓AI時代最震撼人心的技術突破，往往不屬于那些躺在功勞簿上的企業，也不屬于那些只盯著KPI報表的職業經理人。它一如既往地屬于那些：

義無反顧沖向風暴中心的人。

歡迎關注【華商韜略】，識風云人物，讀韜略傳奇。

部分圖片來源于網絡

如涉及侵權，請聯系刪除

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

90 后正在掌管中國 AI，憑實力活成了「爽文」主角

愛范兒 2026-01-19 18:14:14
0 跟貼 0
誰在消耗5萬億模型算力？

經濟觀察報 2026-03-07 10:32:05
11 跟貼 11

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

通研院重磅成果！一套策略讓人形機器人學會后空翻、霹靂舞，準確率超90%

智東西 2026-03-08 12:45:10
0 跟貼 0
OpenClaw掀起龍蝦熱：行動ASI奇點時刻！全球打工人巨變

36氪 2026-03-08 10:15:10
1 跟貼 1

剛剛，Karpathy驚呼「后AGI」！AI通宵狂改110次代碼，他去蒸桑拿

新智元 2026-03-08 12:31:25
0 跟貼 0

AI也會水字數！思維鏈越長，不等于推理越深！

量子位 2026-03-06 17:34:05
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0

靈巧手作為獨立執行平臺，實現工業與家庭場景應用

量子位 2025-12-11 03:38:13
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
智能體沖擊SaaS模式用友王文京：AI不會殺死軟件

每日經濟新聞 2026-03-08 14:13:38
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
“直播教父”的新“賭注”：等我看不懂年輕人，我就退出

虎嗅APP 2025-10-24 21:57:11
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
爆火，有人說幾天賺了26萬！近千人在騰訊樓下排隊，QQ最新宣布

都市快報橙柿互動 2026-03-08 08:11:30
0 跟貼 0
2026年，AI初創全球化的「變與不變」｜沙龍招募

量子位 2026-03-06 18:09:29
0 跟貼 0
一鍵關閉AI功能上線！火狐太有魄力了，AI瀏覽器要靠端側小模型？

雷科技 2026-03-08 13:53:23
0 跟貼 0
一個角色獲封香港第一丑角，從龍套到億萬富豪，他稱最感謝周星馳

港影故事 2026-03-06 18:57:00
72 跟貼 72
這里是世界上最富有的國家之一

名人堂典客 2026-03-07 07:00:00
46 跟貼 46
離譜！深圳入職初創公司，全公司就我和老板，直接喜提二把手

搗蛋窩 2026-03-05 01:01:18
0 跟貼 0
老媽二婚嫁給億萬富豪，自己跟著沾光，這感也太爽了

壹哥追劇 2026-03-04 12:59:31
7 跟貼 7
方略第十四期正片 | 方三文對話智譜CEO張鵬

雪球 2026-03-06 19:13:01
0 跟貼 0
萌娃在院子里騎車被大鵝撲上來咬，下一秒大鵝就變成了一道菜

南陽日報 2026-03-07 16:02:51
91 跟貼 91
伊朗”開竅”了？突襲美國科技巨頭數據中心，這波反擊太狠了！

谷火平 2026-03-07 21:24:30
1 跟貼 1
晚清首富的家產絕對算得上富可敵國

奶桃影視君 2026-03-06 17:33:00
1 跟貼 1
2015年，新義州要建特區那天，十一歲的她問我：廠長，你能回來嗎？

百姓聞世界 2026-03-07 21:01:21
0 跟貼 0
ICLR 2026 Oral｜多模態知識圖譜對齊難：破解噪聲關聯至為關鍵

機器之心Pro 2026-03-06 14:55:34
0 跟貼 0
小團隊押中“友盡”游戲風口：開發4個半月，7天爆賺1200萬

游戲陀螺 2026-03-06 10:51:08
1 跟貼 1
就在下周一，或迎來本年度飆升！加滿一箱油要貴20元

都市快報橙柿互動 2026-03-07 23:13:42
4224 跟貼 4224
267 萬、高質量多模態數據集大單：百度（中）

云頭條 2026-03-08 10:10:57
0 跟貼 0
AI為什么沒法讓人快速變聰明？

白話頻道 2026-03-07 01:07:39
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
林俊旸會去哪？

版面之外 2026-03-08 00:07:16
1 跟貼 1
開始搶人，美國一周挖走4名中國頂尖人才，年薪1個億美元令人咋舌

尋墨閣 2026-03-07 07:36:01
6 跟貼 6
崩了，公司全面停工停產，全員待崗半年！

黯泉 2026-03-07 20:34:42
794 跟貼 794
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1442 跟貼 1442
拿下星巴克中國，博裕資本什么來頭？

華商韜略 2025-11-07 13:42:01
22 跟貼 22
董明珠是逆行者，大家贊賞的是本分的企業家

葉檀財經 2025-12-17 19:14:36
0 跟貼 0

華商韜略

聚焦標桿熱點、解構趨勢韜略

9081文章數 383028關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

旅游

親子

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

小團隊，為什么能超越巨頭，干出更能打的大模型

OpenClaw最大的推手是閑魚和小紅書

伊朗小學遭襲致超165人遇難 特朗普：是伊朗干的

伊朗小學遭襲致超165人遇難 特朗普：是伊朗干的

大傷后被交易，他說：22歲的我已經死了

周迅新戀情曝光，李亞鵬等人已成過去

油價要失控？

9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

態度原創

紅魔手機風冷散熱逆襲！曾被嘲，友商現跟風

舌尖上的春天：到云南西盟赴一場“春宴”

杰森休息日又要去公司加班，跟他商量換工作后，得再考慮考慮

轉頭就暈的耳石癥，能開車上班嗎？

伊朗小學遭襲致超165人遇難特朗普：是伊朗干的

伊朗小學遭襲致超165人遇難特朗普：是伊朗干的

9分鐘充飽全新騰勢Z9GT首搭閃充技術26.98萬起