![]()
李萌
第十四屆全國政協委員、教科衛體委員會委員、中國可持續發展研究會第六屆理事會理事長
大模型是一項顛覆性技術,正在成為一項通用技術。大模型的效率革命是一項顛覆性創新,已經引發了業界的全局性響應。在考察這項顛覆性創新的過程中,人們也深化了對于顛覆性創新一些重要問題的認識。美國學者威廉·泰勒說,顛覆性創新是引入新技術、新產品或者服務推動變革,并在市場競爭中獲取優勢。當前,大模型引領的智能化進程已經開啟,在全社會范圍展現出巨大的創新空間,成為科技和產業領域催生顛覆性創新的最大牽引力。
所謂“顛覆”,從微觀個體上可以理解為一種替代,從宏觀整體上可以理解為一種范式轉換。前者產生顛覆性技術,顛覆游戲規則,重構技術體系,比如Windows系統用窗口、圖標替代MS-DOS命令行,光纖代替了銅芯,電動車替代燃油車,基因編輯替代輻射尋求種子突變優勢。而范式轉換則重構了科技、產業和社會的底層邏輯,引發產業基礎系統性變革和多領域大范圍乃至社會的革命。“范式轉換”由“替代”積累疊加而成。托馬斯·庫恩在《科學革命的結構》中提出,革命實質是“范式轉換”。工業革命以來,科技發展一步一步實現對人類部分能力的替代,推動生產力大幅提升,造福于人類。蒸汽機革命實質上是對人的體力替代;電力革命實質上是對人的體力替代在遠距離上的延伸;計算機革命所帶來的計算和存儲能力,是對人腦力的部分替代,比如海量計算和記憶;網絡革命更大范圍替代了全社會的物理連接方式,全面提升聯通效率,構建了虛擬世界和現實世界雙重社會格局。
過去十年,一定程度上模仿了人類思維方式的生成式人工智能對完成特定任務的解析式判別式人工智能進行了替代。大模型的快慢思考系統,以及智能體的感知、推理、規劃、決策、行動能力越來越強,對人類大腦進行越來越多的替代,硅基生命開始走入現實,這些對社會產生的影響有待長期深入觀察。隨著大模型、智能體日新月異的迭代進化,全世界的開發者都在努力提升涌現和泛化能力,尋求更聰明、更強大、更低耗的大模型。新的大模型不斷超越過去,正在對智能涌現的理論、架構、技術、模型、方法、應用以及商業模式進行創新乃至顛覆。
一、大模型正在進行一場“效率革命”
Transformer問世后,大模型一直演繹著“大力出奇跡、壓縮即智能”的邏輯,模型能力與規模成正相關,模型參數越來越大、數據越來越海量、算力消耗越來越多,雖然帶來的智能涌現越來越強,但也太過消耗GPU。直到DeepSeek問世,其用相當于OpenAI十分之一的算力、二十分之一的費用訓練出性能接近等效的模型,掀起了一場效率革命,“能效比”在業界開始發揮作用。
DeepSeek采用了結合冷啟動的強化學習方法,并通過新的架構、訓練策略、極致的軟硬協同優化來大幅提升模型性能:一是DSMoE混合專家模型,通過隔離部分專家作為共享專家,選擇性地激活專家參數的子集,在訓練時通過稀疏機制降低計算需求。二是多頭潛在注意力機制(MLA),通過壓縮鍵值(KV)緩存顯著降低了內存消耗,提高推理效率。三是軟硬件結合的底層優化(PTX),在CUDA系統與硬件之間的邊緣直接調取算力和數據。通過使用比CUDA更底層的匯編語言PTX來優化計算和通信的并行,顯著提升計算效率。四是混合精度訓練框架(FP8),這是一種更低精度的訓練格式,在節省計算資源的同時,保持相當的精度,保證了模型質量。五是多詞元預測(MTP),同時預測多個Token,并行處理。六是高效的雙管訓練框架(DualPipe),實現近乎零開銷的跨節點通信。
DeepSeek還有一個特別值得稱道的地方是模型開源,其降低了技術門檻,推動大模型在各行各業本地化部署,各類平臺應用爭相接入,普通百姓能夠體驗大模型,面向眾多中小企業和個體用戶端的應用開始興起,迅速形成巨量應用群體。圖靈獎得主楊立昆說DeepSeek最大的價值是開源超越了閉源。“突出應用導向”如果沒有開源,就談不上大規模運用。2025年6月,全球最大的AI開源社區Hugging Face發布最新的AI開源貢獻榜,阿里通義千問與DeepSeek入選全球開源貢獻榜前十。
這些創新每一項都獨具匠心,但單項努力仍難以產生顛覆性效果,而通過整體協同、工程優化就產生了被稱為“效率革命”的顛覆性。
開發思路的轉變帶動國內外開發者在策略和路徑上進行各具特點的探索。當前中國有一批大模型沿著這個思路奮力掘進、儼然成勢:華為的算力、模型、軟硬件和開源齊頭并進;Minimax、智譜、月之暗面、面壁這些初創企業在開源模型上你追我趕;阿里、字節跳動、騰訊、京東、科大訊飛等互聯網大廠都推出高性能開源模型。國際上也有一些公司在“能效比”上相當優秀,比如OpenAI推出的O3-pro,號稱史上最強推理模型,價格比O1-pro便宜87%。它們共同推動了效率革命在全行業擴展,帶來AI價值體系重構,大模型高性能、低成本的創新思路引領了投資行為的調整,甚至一度引起國際金融市場波動。
總之,DeepSeek大幅度降低了大模型經濟門檻和技術門檻,使行業競爭邏輯發生了轉變,推動了高端大模型的技術平權——從“寡頭玩物”向“普惠工具”轉變,這個現象在技術成長中意義重大。
二、大模型效率革命下對顛覆性創新的深入思考
(一)工程創新是成就顛覆性創新的重要方式
DeepSeeK通過引入新的架構、訓練策略,極致的軟硬協同優化以及開源來提升模型性能,降低訓練成本,帶有“工程創造奇跡”的色彩,展示了工程創新對于推動大模型持續發展的巨大潛力。在推動大模型應用上也是如此,在算力硬件上實現性能大幅度提升更得益于此。比如華為用疊加和集群的方法,實現在單片性能落后的情況下計算結果與全球最先進水平相當。最近華為任總接受采訪時介紹,華為通過“數學補物理”“非摩爾補摩爾”“群計算補單芯片”等措施,解決了算力的大部分短板制約問題。這中間工程技術創新發揮了重要作用。正如《華爾街日報》總結的那樣,中國的算力卡雖然單卡性能不及英偉達,但通過工程化進行規模和系統整合提升整體能力,在部分關鍵指標上實現了趕超。這對英偉達來說可能沒有顛覆性效果,但對于中國突破算力現狀來說確實有顛覆性效果。這與現在流行的通過3D堆疊封裝等先進封裝技術來解決芯片問題有異曲同工之妙。下一階段,人工智能的發展更加考驗軟硬件協同的工程優化開發方式。不僅在大模型等離身智能領域,在人形機器人、高級別自動駕駛、低空自主智能載運工具等具身智能體領域,工程創新也將越發顯示其重要性。過去西方學者曾經提問、當前仍值得問:為什么蒸汽機革命沒有發生在倫敦,而是發生在伯明翰、格拉斯哥、曼城?為什么推動者不是學術機構而是“月光社”?今天仍然存在對工程措施在顛覆性創新中發揮的作用認識不夠的問題。
(二)基礎理論創新和工程技術突破交替引領顛覆性創新
基礎理論創新和工程技術突破交替引領顛覆性創新,也就是說在“從0到1”和“從1到100”的過程中都是可以產生顛覆性創新的。基礎理論的重要性是不言而喻的,也是全社會的共識。愛因斯坦說過,理論揭示現在,工程創造未來。科學家和工程師在發現現實世界與創造未來世界中各有優勢。從摩爾定律(芯片)到尺度定律(大模型)的技術革命通道軌跡表明,重大突破往往呈現基礎理論創新與工程技術突破的交替式上升,當理論遇到物理極限后工程創新能夠打開新空間。比如半導體革命中摩爾定律與FinFET晶體管結構,胡正明先生發明的鰭式場效應晶體管(FinFET三維鰭狀垂直結構),通過3D立體結構突破物理極限。這是一項革命性的工程技術的突破,這個發明初始目的是解決納米尺度下晶體管根本物理失效問題(短道溝效應和漏電流),也為后續解決納米尺度下熱管理和信號完整性遇到的挑戰提供了物理基礎,為延續摩爾定律作出了重要貢獻。人工智能發展中,尺度定律(Scaling Law)與工程優化之間不斷互動。目前尺度定律在預訓練中出現了效率遞減,俗稱“撞墻”了。但通過模型架構、訓練方法、極致的軟硬件協同優化等工程創新,在強化推理上延續尺度定律,實現了模型效率的顯著提升。這種交替式引領也是近80年來科研范式演進的結果:從萬尼瓦爾·布什“基礎研究—應用研究—試驗發展”的“線性模式”,到斯托克斯的由應用引發基礎研究的“巴斯德象限模式”,再到文卡特希的“發明—發現循環模式”,這些不同階段的科研范式演進理論在中國都有很好的實踐案例,認識到這一點對于構建中國特色的科研組織結構和研發模式意義重大。盡管近年來頻遭制裁打壓,中國依然屹立世界,除了我國有一大批科學家在努力拼搏外,各行各業更有大量高水平工程技術人員和企業家在突破重圍。
(三)復合創新替代單一路徑成為孕育顛覆性創新的主流方式
單一的顛覆性技術未必能夠帶來顛覆性效果,大模型效率革命是復合因素推動的,架構、策略、軟硬件協同作用,模型、算力、數據三者貫通發力,行業對尺度定律的理解從單一維度向多階段復合性維度轉變。宇樹機器人的成功遠不止是使用電機直驅技術替代波士頓動力的液壓傳動,還包括大小腦與靈巧肢體、靈巧手在本體上實現耦合等。人工智能本身是一個綜合交叉的領域,在具身智能體領域更是如此,大腦、小腦模型和本體制造必須在物理空間上實現協同。目前,自動駕駛汽車的基礎大模型日趨成熟,汽車本體制造原本就十分成熟,現在,隨著上百年來燃油車發展進程中難度極大的發動機、變速箱、底盤等技術被完全顛覆,以及內部通信技術的不斷進步,技術合體后的自動駕駛將迎來“iPhone時刻”,開啟快速商業化進程。實踐顯示,復合創新替代單一路徑是一個普遍現象,顛覆性創新越來越在交叉融合的復合創新中產生,考察顛覆性創新如何形成已不再用單一標準、單一路徑。
(四)能效比最優成為衡量顛覆性創新的新維度
能效比最優成為衡量顛覆性創新的新維度。之前的研究從技術維度、市場維度、效果感受維度探索過“度量”的方法(中國科學技術信息研究所潘云濤、趙志耘等人做過相關研究)。DeepSeek大模型走出了一條低算力、低成本而與世界最優秀模型性能等效的發展新路徑,引發了國內外震動,“能效比”的地位顯著上升了。Transformer傳統的“全注意力機制”越來越面臨計算開銷壓力,引入不同的注意力機制來降低消耗成為熱門,先是多頭潛在注意力機制,接著原生稀疏注意力機制又被提出。最近Minimax-M1用了閃電注意力機制,這是一種基于線性注意力的機制,生成長度為100K時,消耗僅為R1的1/4。面壁智能MiniCPM用了原生稀疏的側端模型。調節稀疏度也是降成本的一種核心策略甚至可以說是一種“神技”,現在的模型有用稠密機制的,也有用稀疏機制的,稀疏中又有不同的機制形式,根據經驗稀疏化可使訓練成本降低40%~60%,在推理階段有的邊緣設備成本下降80%。還有利用計算精度調節算力消耗的,有用高精度計算的如FP18、FP32,也有用低精度計算的如FP8。這些各有優勢也各有短板。從統計學上看,稠密機制和高精度計算更能提升智能涌現效果,但成本居高;而使用稀疏機制和低精度計算的模型幻覺率相對高一些。過去“大力出奇跡”講的是“規模—涌現—智能”,現在行業競爭邏輯發生了轉變,效率在決定是否具有顛覆性上起重要作用,沒有高能效比就沒有顛覆性創新。同時,對能效比的追求往往會倒逼探索“能力等效”的途徑和措施。未來大模型技術的發展將長期處于尺度定律和效率革命的動態平衡中,降成本與增智能的關系需要始終把握好。這種現象并不局限在大模型一個領域。最近看到一篇《自然》雜志對明尼蘇達大學羅素·芬克等三位教授2023年的一項研究介紹,這項研究發現近70年科研論文和專利的顛覆性減弱,研發收益遞減(基于1945年到2010年間發表的論文和專利),再進一步分析發現其實具有顛覆性的論文和專利數量大體保持相應規模,并沒有減少,而是因為論文和專利總數擴大,占比也就下降了。這是效率越來越重要的一個例證。
(五)開源開放是形成顛覆性創新生態規模必不可少的方式
DeepSeek舉行了為期五天的“開源周”,包括開源代碼權重、通信庫,以及開放技術細節等。近期國內外一批企業爭先恐后推出自己的開源模型,在業界掀起了一股開源潮流。開源生態加速技術擴散和技術路徑分化,目前,閉源路線繼續追求超大規模參數和專用硬件集群,而開源路線通過創新算法降低對算力的依賴,形成“輕量化模型+社區協作”的生態,促進其在各行各業本地化部署。
未來的競爭是生態對生態的競爭,開源對生態規模和價值形成具有重大影響。開源決定規模,規模產生涌現,涌現成就“顛覆”。信息時代、網絡時代、智能時代分別對應三個定律即摩爾定律、梅特卡夫定律、尺度定律,三個定律都與產業生態規模密切相關,揭示了不同時代的典型規模經濟規律。摩爾定律雖不直接描述生態規模,但卻是推動集成電路生態規模爆炸式增長的核心技術驅動力,是生態規模擴張的重要引擎。網絡時代的梅特卡夫定律,提出生態價值等于網絡內節點的平方。最近清華大學張亞勤院士對智能化時代的生態規模演化也做過描述,從PC時代到網絡時代再到智能時代,生態規模呈現1—10—100的倍數變化關系。中國模型開源的效應使人們認識到開源是一種值得重視的范式,將有更多的開發者、使用者在具體的行業場景中接入開源模型進行賦能。一些開源社區迅速崛起,這里將成為收獲顛覆性創新成果的肥沃土壤。中國開源模型的成就不是偶然的,中國發展新一代人工智能伊始就倡導開源開放,這是國家第一個新一代人工智能發展規劃提出的四條基本原則(科技引領、系統布局、市場主導、開源開放)之一。2025年4月25日中共中央政治局就加強人工智能發展和監管進行集體學習時,再次強調了開放的原則,指出“人工智能可以是造福人類的全球公共產品”,要求加強國際合作,為中國人工智能發展指明了方向。
(六)顛覆性創新與顛覆性危害問題要同步觀察和考量
硅基生命闖入地球需要尋求正確打開方式。人工智能是既具有技術屬性又具有社會屬性的技術領域,它的社會屬性要比一般技術領域更強。以往科技革命和產業變革大都建立在可解釋的科學原理和透明技術路線基礎上,而當今大模型的智能涌現具有不完全可解釋性,由此帶來一定的不確定性和不可控性。人工智能發展水平越高,越接近通用人工智能,越需要與人類緊密互動,越需要保持科技倫理、社會規范上的敏捷治理,形成技術創造與社會發展之間良性互動格局,否則帶來的危害也可能是顛覆性的。如隨著自動駕駛、人形機器人等快速發展,需要探索建立社會就業底線看守機制,包括建立政府預警機制以及政府、企業、就業者的社會協商機制來保障社會就業穩定。由于顛覆性創新爆發有一定的突然性,其影響也存在著不確定性,只有技術能力進步與治理能力進步始終伴隨、保持均衡,才能避免不出現“治理意外”和顛覆性危害。
相比較而言,人們對顛覆性技術、顛覆性創新的探索比較重視,而對治理需求的認識存在兩極分化現象,要么輕視而置之不顧,要么自己嚇唬自己,比如“人工智能將毀滅人類”之類的預警。但隨著大模型推理能力增強,治理問題就顯得越來越重要。有開發者發現大模型越聰明越不聽話,更難完全遵守用戶給定的指令要求,模型的大小與其遵守指令的能力不呈正相關,有時可能會出現負相關,這種現象值得警惕。現在國際上忽視治理的現象抬頭,美國有重量級人物提出停止監管十年,歐洲也改變了過去監管從嚴的思路。中國一貫重視治理問題,真發展也真治理。我國多年前開展了一項有特色的工作,即人工智能社會治理實驗,這是人工智能社會治理的一項基礎性工作,由清華大學主持,已納入國家規劃實施工作。該實驗在各地布點,從記錄人們對人工智能的期待、參與、收獲、擔憂、受損等點滴開始,觀察智能化對社會變遷潛移默化的影響,雖然現在還沒有驚人的收獲,相信若干年后人們對這件事也會有顛覆性的感覺。
三、在實踐層面如何迎接顛覆性創新
(一)研發顛覆性創新大模型,打造感知、判別、評測、篩選新工具
如何度量“顛覆性”?學術界一直沒有找到有效辦法。羅素·芬克提出的“引用度量”是一個新探索,但未有太多響應。匹茲堡大學吳令飛認為,目前學術界還沒有就應該采用哪些指標來度量顛覆性達成共識。在這樣的情況下應當請大模型登場。大模型是解決復雜問題的高手,系統越復雜、影響因素越多、相互關系模糊,越需要大模型來揭示規律和內在關系。現實存在的能效比維度以及技術維度、市場維度、影響效果維度等多維度相交織的復雜關系,可以通過大模型來揭示規律。
(二)通過場景創新在“最后一公里”跨越“顛覆”障礙
各種細分的新技術、單一的創新要想產生“顛覆性”效果,最后必須在場景創新、“殺手級應用”中實現。互聯網從出生發展到“互聯網+”經歷了幾十年,人工智能經過70年才走進人工智能+,其中重要的經驗是場景創新的帶動。互聯網在出現早期并沒有找到合適的應用場景,以至于當時出現了一個詞叫“內容產業”。20多年前在展廳里經常可以看到一個簡易機器模擬網購的場景,而今天各種技術融合已經發展出網購、外賣、快遞、共享單車等新流通產業,成就了京東、淘寶、美團、拼多多等企業。人工智能發展70年來路徑眾多、流派眾多,直到最近幾年才走進“人工智能+”場景。有些曾經被視為劃時代的創新如大數據、元宇宙、Libra等目前尚未迎來屬于自己的時代,也是因為沒有“殺手級應用”,當然它們發展出來的技術體系是寶貴的,在人工智能時代將發揮非常重要的作用。多年前出現的“iPhone時刻”,主要是便捷驅動;近年出現的“ChatGPT時刻”是性能驅動,能力優先、高不可攀;“DeepSeek時刻”是能效比驅動,成本低但性能等效。這些“時刻”都是在應用中實現了跨越,最終由新技術演變成為顛覆性創新、產生顛覆性影響。
(三)不宜過度神化“顛覆性”
所謂“顛覆性”是能引起格局變化的創新,如何區別具有顛覆性創新潛力的成果和一般創新潛力的成果,大家各有所見,實踐中也不容易把界限劃清楚。有人說工業革命以來有25項通用技術,如蒸汽機、電力、計算機、互聯網、人工智能等,這些當然算得上“顛覆性”水平,但無論是微觀上技術、能力和產品的替代,還是宏觀上范式轉換即技術革命、產業革命那樣的顛覆性創新、顛覆性技術,畢竟都很稀少。如果我們只關注那些可能幾十年、上百年才出的成果,其研究的社會價值會打折扣。當然也不能泛化顛覆性,把一般的技術進步當成顛覆性創新。地方有些機構每年都組織顛覆性技術大賽,雖然選出來的成果很難說都有“顛覆性”,但已經成為催生顛覆性技術、顛覆性創新的重要途徑。
(四)具備交叉融合能力的人才將發揮更大作用
學科交叉和知識融合是當前大力倡導的,也是教育、科技、人才“一體化”部署的一個重要方向。從事后總結經驗看,主持和參與顛覆性創新的領軍人才往往是多種能力融合于一身,因此人才的內涵要從知識交叉向能力交叉進化。復合創新、“組合—顛覆”最終都將落腳到什么樣的人才挑大梁上。當前要鼓勵更多年輕的研究人員和工程技術人員、企業家基于問題導向挑戰理論、技術、工程難題,在實踐中鍛煉積累交叉能力。挑戰難題的人多了往往會有出其不意的科學發現和技術突破。
本文刊載于《科技中國》雜志 2025年第6期 特別關注欄目,系第十四屆全國政協委員、教科衛體委員會委員、中國可持續發展研究會第六屆理事會理事長李萌在6月26日“浦江創新論壇——科學學上海論壇·2025 科技創新智庫國際研討會”開幕式上所作的報告。文章觀點不代表主辦機構立場。
◆ ◆ ◆
編輯郵箱:sciencepie@126.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.