這兩天全網都在談幻方DeepSeek,來自中國的AI大模型震驚了硅谷,給中國人長了臉。所以幻方老板梁文峰馬上就被邀請參加了總理座談會。
其他搞AI大模型的人都是互聯網行業出來的,梁文峰則是搞金融發家的,2015年成立幻方量化,基金規模從零開始幾年時間就跨上百億、千億門檻。
但梁文峰賺了錢,卻把錢砸到了AI上。之前媒體報道幻方數據中心有上萬張英偉達顯卡,人們還奇怪一家金融行業投資公司要這么多顯卡干什么,在股市割韭菜不用這么夸張吧。誰能想到幻方在AI時代,把國內互聯網大廠們按在地上摩擦。
DeepSeek的成功,意義在于在有限算力的條件下挖掘算法潛力。美國有條件所以大力出奇跡,大廠們瘋狂建AI數據中心,都搞出來5000億美元的星際之門計劃,中國買不到最先進的英偉達芯片只能在算法、推理上下功夫。
![]()
幻方DeepSeek的成功驚醒了整個AI行業,任何時候算法、推理都是基礎,算法模型好事半功倍。但是DeepSeek是開源模型,美國人馬上又會把DeepSeek成功的算法吸收過去,繼續砸算力。用軍迷的話來說,中美一貫都是富則火力覆蓋,窮則戰術穿插。
據說DeepSeek現在已經實現盈利,而且沒有進行過對外融資。不知道會不會借勢開啟融資,畢竟幻方再賺錢,也不可能靠自身實力支持DeepSeek和美國硅谷巨頭們競爭。美國那邊頭部AI公司動不動融資幾十億、上百億美元的,沒有芯片算力、沒有頂尖人才根本沒法在這場競賽中卷下去。
甲骨文老板埃里森說未來4到5年內,任何想參與這場大模型競賽的企業,前沿模型門檻將高達1000億美金,而且這場算力軍備競賽將永遠進行下去。
DeepSeek的成功可能把這個門檻拉下來不少,但長遠來說,大模型競賽還是一項巨額投資的領域。這兩天也有消息稱,字節跳動2025年資本支出將高達1500億,主要就在AI領域,雖然字節予以否認,但投資肯定在千億級別。
最近網上有杭州科技六小龍的說法,連杭州市長、浙江發改委主任都在媒體面前公開做了回應。這六家公司是游戲科學、深度求索(DeepSeek)、宇樹科技、云深處科技、強腦科技和群核科技。它們都是“互聯網之都”杭州近年來崛起的處于新技術領域前沿、在業內具有影響力的“科技新貴”。在阿里巴巴光芒略微黯淡后,杭州的新生力量成功補位。
深度求索的創始人是80后年輕人梁文峰,他擁有浙江大學信息與電子工程學系本科和碩士學位。2008年起,梁文鋒就開始帶領團隊使用機器學習等技術探索全自動量化交易。2015年,幻方量化正式成立,2019年,幻方資金管理規模就突破百億元。
![]()
2021年,幻方量化成為國內首家突破千億規模的量化私募公司。不過由于近幾年國內股市的低迷,和監管部門對量化的限制,幻方量化逐漸降低其資金管理規模,目前資金管理規模在數百億。
由于公司創始人都是計算機相關專業,而不是金融專業出身。他們對投資并不是那么執著,目前公司重心已經轉向AI。早在2016年10月21日,幻方量化就推出第一個AI模型,第一份由深度學習生成的交易倉位上線執行,使用GPU進行計算。2017年,幻方量化宣稱實現投資策略全面AI化。幻方量化也在2018年就確立以AI為公司的主要發展方向。
2020年開始,幻方累計投資超億元、占地面積相當于一個籃球場的AI超級計算機“螢火一號”正式投入運作,號稱可以匹敵4萬臺個人電腦的超級算力。
2021年,幻方投入10億建設“螢火二號”,“配備了1萬張A100GPU芯片”,在性能上接近DGX-A100但成本降低了一半,同時能耗減少了40%。當時國內擁有上萬枚GPU的企業,除了幻方量化外,其他4家都是互聯網大廠。
![]()
2023年7月,幻方量化成立大模型公司DeepSeek,正式進軍通用人工智能領域。DeepSeek包括創始人梁文鋒在內,僅有139名工程師和研究人員。相比之下,OpenAI有1200名研究人員,Anthropic則有500多名研究人員。
2024年5月,DeepSeek發布了DeepSeek V2。DeepSeek-V2的API定價為每百萬tokens輸入1元、輸出2元,價格僅為GPT-4 Turbo的百分之一。
DeepSeek-V2采用了注意力機制方面的MLA和前饋網絡方面的DeepSeekMoE架構等,實現了更高經濟性的訓練效果和更高效的推理。因為大幅降低了API價格,DeepSeek也被稱為“AI界的拼多多”,引發了國內字節、阿里、百度等大廠的大模型價格戰。
2024年12月27日,DeepSeek V3更是橫空出世,火爆全球。V3評測成績不僅超越了阿里巴巴的Qwen2.5-72B和臉書的Llama 3.1-405B等頂級開源模型,甚至能和GPT-4o、Claude 3.5-Sonnet等頂級閉源模型一較高下。
更令人震驚的是,DeepSeek V3整個訓練僅花費了557.6萬美元,在2048塊英偉達H800 GPU集群上運行55天完成,只是OpenAI GPT-4o模型訓練成本的不到十分之一。
而2025年1月20日, DeepSeek又發布了DeepSeek-R1模型。該模型在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。
幻方的成功代表的是開源相對閉源的一次勝利。早期OpenAI也是開源的,但大規模融資后逐漸選擇了閉源,這也是馬斯克和openAI的鬧翻的原因。現在主流的開源模型是Meta的Llama,幻方DeepSeek成功后,大模型的開源力量將進一步增強。
幻方對推理成本的消減,比訓練更加震撼。DeepSeek架構厲害的地方在于,和標準的transformer架構相比,并沒有引入特殊的算子,理論上對GPU的要求會降低很多。
推理成本的降低,必將帶來應用的繁榮,豐富當前大模型領域的生態。DeepSeek支持私有部署和自主微調,為下游應用提供了遠大于閉源模型的發展空間。
有人說DeepSeek的成功,會利空英偉達。因為不用那么多GPU、不用最先進的GPU也能實現性能一流的大模型。甚至還有人說這會刺破美股當前由AI革命過分吹大的泡沫。這其實有點夸大了。
DeepSeek使用的也是英偉達的芯片,Scale AI創始人Alexandr Wang稱DeepSeek目前擁有約5萬臺英偉達H100顯卡。而且2024年國內字節和騰訊分別都訂購了23萬顆英偉達芯片,購買量位列全球第二和第三,僅次于微軟。
網上也都說雖然美國政府有所限制,但國內企業還是可以通過各種渠道購買到英偉達的芯片。所以國內大模型年底對美國AI巨頭們的這一波追趕,有可能促使美國進一步加強對英偉達芯片出口的限制。長期來說,中國AI企業需要逐步適應英偉達芯片的短缺,或者用華為等其他性能較低的AI芯片來進行替代。
由于在算力上中國和美國的差距,短期內只會繼續加大。中美兩國在通用人工智能(AGI)的進化方向上也會逐漸分野,中國企業重算法、推理,美國企業重算力。
DeepSeek的成功,更重要的是打破了國內AI行業對美國巨頭的神話,打破了美國的算力霸權,讓中國企業更有信心參與AI競爭。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.