- 編輯部 整理自 MEET2026
量子位 | 公眾號 QbitAI
涌現(xiàn),AI沙場如今兵家爭鋒所期待出現(xiàn)的「境界」。
自從Scaling Law為模型帶來驚人的能力增長后,幾乎所有模型廠商都被卷入了一場無止境的FOMO,沒人敢停下來。
- 我覺得大模型最有魅力的地方,在于它是非線性變化,代表著極大的不確定性,但一旦出現(xiàn)性能涌現(xiàn)就將遠超想象。
在量子位MEET2026智能未來大會上,清華大學(xué)人工智能研究院常務(wù)副院長,歐洲科學(xué)院外籍院士孫茂松如此感慨。
![]()
只要算力還能堆、參數(shù)還能漲,就不能停止燒錢。
然而,在Scaling的邊際成本越來越高的背景下,萬一最后發(fā)現(xiàn)這是條死胡同,投入全打水漂了怎么辦?
孫茂松的建議是,可以「致廣大」,但更要「盡精微」。
就企業(yè)界而言,少數(shù)實力極其雄厚的團隊,可以嘗試在「致廣大」方向上繼續(xù)跟隨國際前沿;但絕大多數(shù)AI公司,都應(yīng)該把主要精力放在「盡精微」上。
為了完整呈現(xiàn)孫茂松的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進行了整理編輯,希望能提供新的視角與洞察。
MEET2026智能未來大會是由量子位主辦的行業(yè)峰會,近30位產(chǎn)業(yè)代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關(guān)注與報道。
核心觀點梳理
- 當(dāng)模型規(guī)模、數(shù)據(jù)規(guī)模持續(xù)增大時,可能會出現(xiàn)能力涌現(xiàn)。這種高度非線性變化所帶來的不確定性體現(xiàn)了大模型最有魅力之處。預(yù)計未來幾年,有標(biāo)準(zhǔn)答案的人類最難考試可能也難不住機器。
- 當(dāng)下大模型和具身智能面臨的本質(zhì)挑戰(zhàn)在于——如何理順「言、知、行」的關(guān)系,讓機器真正實現(xiàn)「知行合一」。這個問題的「求解」,非常困難,關(guān)涉AI的重大理論和基礎(chǔ)方法創(chuàng)新。
- Scaling Laws到底能走多遠,具有相當(dāng)?shù)牟淮_定性。任何信息系統(tǒng)發(fā)展到一定階段通常就會呈現(xiàn)趨于飽和的傾向。不過,一旦出現(xiàn)了新的涌現(xiàn)現(xiàn)象,又能打破這種飽和。所以國內(nèi)仍需有少量頂級團隊緊跟全球前沿發(fā)展,探索Scaling極限。
- 未來幾年內(nèi),人形機器人要進入通用開放環(huán)境自主進行較為復(fù)雜的工作幾乎是不可能的。應(yīng)立足于在盡可能多的特定真實場景或真實任務(wù)上實現(xiàn)AI應(yīng)用「星火燎原」式的落地發(fā)展。這是完全可能的(但機器人不一定是人形),也應(yīng)該是絕大多數(shù)企業(yè)應(yīng)下大力氣去做的。
以下是孫茂松的演講全文:
突飛猛進的八年
我演講的題目是《生成式AI和大模型:前沿態(tài)勢、核心挑戰(zhàn)及發(fā)展路徑》。坦率說,這個題目不太好講,全世界都在講這個問題,我講講自己的一些粗淺的認識。
基于深度學(xué)習(xí)的AI,在2017年前后進入了預(yù)訓(xùn)練模型和大模型時代。到現(xiàn)在,只花了8年時間。
![]()
這8年里有幾個比較關(guān)鍵的時間節(jié)點:
- 2020年GPT-3發(fā)布,距今大約5年;
- ChatGPT發(fā)布至今約3年;
- DeepSeek出現(xiàn),也才剛滿1年。
這8年走過了好幾重天,應(yīng)了一句古話——「茍日新、日日新、又日新」,這基本就是這幾年大模型發(fā)展的常態(tài)。
特別是最近幾年,通過長思維鏈,大模型解決復(fù)雜任務(wù)的能力急劇上升,呈現(xiàn)出千帆競發(fā)的態(tài)勢。
我們?yōu)槭裁磳Υ竽P瓦@么癡迷?它最重要的特點是:當(dāng)模型越來越大,數(shù)據(jù)量越來越大時,普遍會產(chǎn)生能力涌現(xiàn),這是過去模型所沒有的。
一旦出現(xiàn)能力涌現(xiàn),就變成了一個非線性變化,不知道從哪就一下拐上去了。
如果你去做一件事沒有產(chǎn)生性能涌現(xiàn),可能就平淡無奇。可一旦產(chǎn)生了涌現(xiàn),可能就把你的競爭對手遠遠甩在后面。而這件事能不能發(fā)生,又無法提前知道。這是大模型最有魅力也頗令人困惑的地方。
這幾年的發(fā)展進展很快,像文本大模型、圖文大模型,幾乎把所有Benchmark都踏平了。
![]()
有個叫作「Humanity’s Last Exam」的測試集(即所謂「人類最后的考試」),為了考住AI,到全世界征集難題,要以前沒出過、在網(wǎng)上沒有答案的。
頂尖高手做這種題,可能拿5分就不錯,但是現(xiàn)在大模型,能拿到三四十分。
可以預(yù)期,未來幾年一切有標(biāo)準(zhǔn)答案的考試可能都難不住機器了,這是文本大模型的發(fā)展情況。
代碼大模型的發(fā)展同樣迅猛,今年的世界大學(xué)生程序競賽,人類第一名已經(jīng)做不過大模型了。此外,對多模態(tài)大模型的亮眼表現(xiàn)大家也都多有領(lǐng)教。
總體來看,文本、代碼、多模態(tài)這幾類大模型,已經(jīng)發(fā)展到一個相當(dāng)高的基礎(chǔ)能力水平,這構(gòu)成了我們今天討論AI的「基本態(tài)勢」。
在《思考,快與慢》一書中,Daniel Kahneman提出了著名的系統(tǒng)一(快系統(tǒng))和系統(tǒng)二(慢系統(tǒng))
經(jīng)過這幾年的發(fā)展,機器已經(jīng)有了相當(dāng)強的系統(tǒng)一和系統(tǒng)二的能力,這為AI走出文本世界、走向具身智能,奠定了非常重要的基礎(chǔ)。特別是如果沒有系統(tǒng)一的感知能力,機器進入現(xiàn)實世界后會「懵頭懵腦」,什么也做不了。
我們常提到1950年的圖靈測試。在語言層面,已經(jīng)可以認為通過了圖靈測試。
但在同一時期,控制論之父維納在《控制論》中提出過一個同樣重要的觀點:
- 機器想具有智能,一定要讓它走到現(xiàn)實世界去,它能夠感知這個世界,能和世界打交道,在反饋中得到獎勵或懲罰,并據(jù)此不斷自我調(diào)整、自我學(xué)習(xí)。在這個過程中,才可能形成真正的智能。
![]()
今天看來,我們有了一定的條件去踐行維納的控制論,這會讓AI再上一個臺階。
古話講「言易行難」,陸游有句詩叫「紙上得來終覺淺,絕知此事要躬行」。
語言模型很擅長「言」,但一旦走到「行」,會有一個質(zhì)的差異。
同時還有一句古話叫作「知難行易」。
大模型現(xiàn)在雖然「言」得很行,全世界知識好像都被參數(shù)化裝進模型了,但它的「知」仍然是不完整的、不體系化的,缺乏自知之明。
如果完全沒有「知」,「行」是沒有意義的。
不過,雖然大模型的「知」并不完善,但畢竟七八成的「知」他知道了。所以現(xiàn)在做具身智能,有可能追求「知行合一」。
當(dāng)然,「從「言」到「知」要難得多。這就構(gòu)成了今天AI最大的挑戰(zhàn)——怎么處理好「言、行、知」,做到「知行合一」?
AI的巨大投入讓華爾街「冒冷汗」,前路充滿挑戰(zhàn)
AI發(fā)展是靠Scaling Law,大模型、大數(shù)據(jù)、大算力。近幾年有新的擴展:預(yù)訓(xùn)練、后訓(xùn)練、測試時。
但這里有一個前提條件:這個Scaling要起作用。
任何系統(tǒng)到一定階段都會遇到瓶頸。一旦性能開始飽和,Scaling Law就可能失效,再往里投錢,可能就會得不償失。
我剛才特別強調(diào)一個點:大模型可能出現(xiàn)涌現(xiàn),一旦出現(xiàn)涌現(xiàn),往里砸的錢就砸對了。
但Scaling Law到底能走多遠,這件事是個很大的問號。支撐Scaling的代價極其昂貴,太燒錢,太費電了。
法國《回聲報》(法國經(jīng)濟類日報之一)11月3日有一篇報道:「AI領(lǐng)域的巨額投資,讓華爾街直冒冷汗。」
華爾街向來是冒熱汗的,能「冒冷汗」,說明這個投入確實太大了。
報道里提到幾個數(shù)字:
- OpenAI目前的計算能力大約是2GW;
- 計劃到2033年提升125倍,達到250GW;
- 對應(yīng)的投資規(guī)模,可能高達10萬億美元,而這還不包括電力。
大家可以換算一下,一個核反應(yīng)堆的平均發(fā)電能力,還不到1GW。250GW,相當(dāng)于250個核反應(yīng)堆。這是一種極其激進的投入,同時也蘊含著很高的風(fēng)險。
問題在于:我們現(xiàn)在不能不跟,萬一它出現(xiàn)涌現(xiàn),就又把我們甩到比較遠的后面了。但跟的話,可能又跟不起。
再者具身智能。
李飛飛提出空間智能,本質(zhì)上就是前面講的「行」,這里面也面臨一個理論和實踐問題,Next Token Prediction到底能走多遠?
![]()
文本是完全靠Next Token Prediction做出來的。后來做了各種強化學(xué)習(xí),但也是基于這個基礎(chǔ)之上。圖像生成,包括視頻生成,很大程度也是借重這個策略。
這個策略在文本中其實已經(jīng)近乎完美,雖然還有幻覺,但已經(jīng)是專家水平的。但到圖像就不那么順手,需要和其他策略配合,視頻生成更難,要生成一個10分鐘邏輯連貫的視頻相當(dāng)吃力。
再到具身智能,這個東西往下走,是一個大問號。
語言之所以能成功,因為它是線性序列,有「Discrete infinity(離散無限性)」的特點。
比如,apple主要有兩個意思,一個是吃的蘋果,一個是特定公司。其語義指向簡明,詞邊界是清晰的,句子序列又是線性的,Next Token Prediction就非常有效。
但到了圖像就不行了,圖像的比較明確的Token在哪兒不知道,只能搞成一個「補丁」(Patch)
如一個3×3的黑塊,可能是衣服的一部分,也可能是桌面的一角,還可能是屏幕上的一個圖標(biāo),語義指向高度不確定。而且沒有整體性,這個黑塊可能由一堆黑色螞蟻組成,也可能是衣服中一個補丁中的一小部分。
到了視頻,從二維變成三維,就更困難。具身是四維,三維空間再加上時間,大千世界、變化無窮,如此復(fù)雜的場景靠Next Token Prediction到底能不能做到,不好說。
未來五年之內(nèi),指望人形機器人可以到現(xiàn)實世界自主完成較為復(fù)雜的開放式任務(wù),我覺得是不可能的。如,構(gòu)建一個在家庭里能照顧老人的具身機器人?實在是太難了。
圖靈獎得主Hinton最近在討論AI與失業(yè)問題時說過一句話:
- 如果有人建議你去做水管工,不要輕易拒絕這個建議。
這個建議是合理的,AI要具備水管工的能力,還差得很遠。
可能的是什么?
一定是一個比較簡化的任務(wù)空間。比如剛才講靈巧手,處理相對單一、簡單的任務(wù)。其實要做好也很不容易,但是完全可能的。
因此,具身智一定是在有限的領(lǐng)域,有限的應(yīng)用,這個發(fā)展空間也足夠大。我們要量力而行,知難而進,但進退有度。
我們現(xiàn)在經(jīng)常說要構(gòu)建世界模型,但這件事極其困難。目前還沒有太清晰的可行技術(shù)路徑。
短期內(nèi),依然只能期待Next Token Prediction。但如果沿著這條路走,肯定對算力、數(shù)據(jù)的要求是數(shù)量級提升。
當(dāng)然,如果再次出現(xiàn)能力涌現(xiàn),說不定機器人在相對開放任務(wù)空間中也能具備更高程度的自由。
「致廣大而盡精微」
目前看來,發(fā)展路徑應(yīng)該是相對明晰的。
美國這邊不用多說。國內(nèi)也出現(xiàn)了非常有代表性的模型,比如DeepSeek、千問,都做得非常好。從對比圖來看,差距已經(jīng)不大了。
![]()
中國一句古話,叫作「致廣大而盡精微」
「致廣大」,把這個事往大了想,往大了做,這是目前美國典型的做法。
10萬張卡、100萬張卡,未來甚至上億張卡,大手筆,連華爾街都覺得吃力。
但這條路,如果走成了,在某個關(guān)鍵節(jié)點出現(xiàn)涌現(xiàn),就有可能形成斷層的領(lǐng)先優(yōu)勢。
我們?nèi)绻刂@條路去「正面跟」,在工業(yè)界,只有極少數(shù)國內(nèi)大廠可能具備條件,但也會比較艱辛。
所以,雖然今天從大模型性能上看中美差距不大,但在「致廣大」這條路上,未來幾年依然存在非常大的不確定性。
在這樣的背景下,我認為國內(nèi)當(dāng)前重點抓AI的垂直領(lǐng)域應(yīng)用,即「盡精微」,應(yīng)該是一個正確的戰(zhàn)略選擇。
以DeepSeek、千問為代表的開源基座模型已經(jīng)具備了相當(dāng)扎實的基礎(chǔ)。在基座之上,深入到各行各業(yè)做垂直領(lǐng)域的深度融合,是完全有可能做到世界領(lǐng)先的。
但這同樣很有挑戰(zhàn),指望直接把現(xiàn)成的大模型拿來用一用就真的管用,是不現(xiàn)實的。
某種情況下,垂直領(lǐng)域本身甚至可能會孕育出新的人工智能算法。從這個意義上講,「盡精微」本身,也是一種「致廣大」
![]()
因此,我們的路徑應(yīng)該是:
- 少數(shù)實力極其雄厚的團隊,可以嘗試在「致廣大」方向上繼續(xù)跟隨國際前沿;
- 但絕大多數(shù)AI公司,都應(yīng)該把主要精力放在「盡精微」上。
垂直領(lǐng)域應(yīng)用具有高度挑戰(zhàn)性,但風(fēng)險較小,我們有條件做得比美國好。我們的應(yīng)用場景比較豐富,工業(yè)基礎(chǔ)也較好,加上中國人聰明勤勞,都使得我們能在「盡精微」方面取得優(yōu)勢。
至于「致廣大」的話,其實涉及到整個教育體系能不能培養(yǎng)出0到1的人才,包括回答錢學(xué)森之問,那是更復(fù)雜的事。沒關(guān)系,這幾年不放先放一放,先把「盡精微」做好,然后調(diào)過頭做「致廣大」,但得有一只眼緊緊盯著它。
在座各位很多都是做「盡精微」的工作,我覺得非常好,是我們目前應(yīng)該做的。
以上是我個人的一些觀察和感受,不一定對,謝謝大家!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.