![]()
新智元報道
編輯:定慧
【新智元導讀】三天前,紐約時報刊出一篇文章。這篇報道沒上熱搜。沒沖上 Hacker News 榜首。甚至很難搜到中文翻譯。但這可能是 2026 年春天,AI 領域最重要的一篇文章。
文章的題目很樸素——《How Do You Measure an A.I. Boom?》(你怎么測量 AI 的繁榮?)
![]()
如果你認真讀完它,你會意識到一件事——
你被 AI 超越的速度,正在加速。
作者 Kevin Roose 去了伯克利一間普通辦公室,采訪了一家 30 人的非營利組織METR。
![]()
對,就是 AI 領域最有名的「畫圖公司」。
你看到各種 AI 技術的進化曲線,絕大部分,出自METR之手。
![]()
這篇文章第一次用精確的數字告訴你:這次的 AI 加速,不是哲學意義上的加速。不是感慨意義上的加速。
是一根越畫越陡的指數曲線。
![]()
這 30 個人在干一件什么事
先聊聊METR的背景。
METR是Model Evaluation and Threat Research的縮寫。
2023 年從另一家 AI 安全非營利拆分出來。30 個人,辦公室在伯克利一個 co-working 空間里。
樓上是去年寫爆整個硅谷的《AI 2027》報告那家機構。
錢來自哪里?私人慈善基金,主要是 Audacious Project。
![]()
伯克利遠眺舊金山灣
他們沒拿 OpenAI 或 Anthropic 的錢——但這兩家公司會給他們免費的算力額度,讓他們測自己家的模型。
這個結構很關鍵。
它讓這 30 個人成了AI世界里唯一一批既在場、又沒被收買的第三方裁判。
他們干一件事:測 AI 能干多長時間的活。
過去測 AI 能力用考試分數:把模型扔進一堆標準化題庫,看它能不能做對數學題、法律題、閱讀理解題。
但這種測法在 2025 年之后開始失效。
因為 AI 的主要使用場景已經不是答題,是干活——打開一個倉庫,獨立 debug 一整天;搭一套服務器;訓練一個小模型。
這些任務,一道題根本測不出來。
METR 換了一種測法。
他們雇了一批資深軟件工程師,讓他們完成真實的編程任務:改 bug、配服務器、訓模型,并記錄每個任務人類需要多少小時。
然后讓 AI 智能體做同樣的任務。當 AI 能可靠完成某個任務時,就記下這個任務人類要多少小時。
把這些數據畫在一張圖上。橫軸是年份,縱軸是AI 能可靠完成的任務人類工時。
這就是那張圖。
![]()
指數曲線的可怕之處不在它現在有多高,在它下個月會在哪里。
7 個月,到 3 個月
METR 研究員第一次完整把數據鋪開的時候,Beth Barnes 說了一句話——
我們沒想到這條趨勢線會這么清楚、這么直。
這條線每 7 個月翻一倍。
然后,這個數字突然變了。
Claude Opus 4.5 和 GPT-5.2 發布之后,這條線的斜率又陡了一截。新的翻倍速度是——每 3 到 4 個月。
從 7 個月到 3 個月。
聽起來只是加速了一倍。但你得先理解這不是 KPI 漲了一倍。這是一個指數函數的底數在變大。
我給你翻譯成你能感受的語言——
7 個月翻一倍 = 一個公司一個 OKR 周期
3 個月翻一倍 = 一個公司一個季度財報
這意味著:今年 Q1 的AI和 Q2 的 AI 之間的差距,相當于過去整整一年才能拉開的差距。
再翻譯得更直接一點——
你去年看到 GPT-4 的時候驚艷了一下,今年看到 GPT-5.2 的時候又驚艷了一下,你以為這是兩次大約一年一次的驚艷。
不是。
這兩次驚艷之間的真實距離,正在被壓縮到一個季度以內。
下一次讓你驚艷的模型,可能是 7 月。
再下一次,可能是 10 月。
再下一次,可能是年底。
然后你跑不動了。
因為人類的學習速度、適應速度、轉崗速度——全部是線性的,不是指數的。
智能爆炸是什么
Kevin Roose 在文章里問了 METR 幾位研究員同一個問題——
你們估計今年發生智能爆炸的概率有多高?
回答從 1% 到 10% 不等。
1% 到 10% 聽起來不多。但你得對照著看——
美國核管理委員會規定,一個核電站每年發生嚴重事故的容忍閾值是百萬分之一。
也就是 0.0001%。
METR 研究員給出的今年發生智能爆炸的概率,比核電站事故容忍閾值高了四到六個數量級。
什么叫智能爆炸?
這個概念 1965 年由數學家 I.J. Good 提出,2010 年代被硅谷重新打撈出來。簡單說就是——當 AI 強到可以自己研究怎么做出更強的 AI時,它會訓練出一個比自己更強的版本,新版本再訓練更強的版本,如此遞歸。
這個遞歸沒有物理極限。
劉慈欣在《三體》里給它起了一個更好的名字——技術爆炸。
原文是:
所謂技術爆炸,就是文明在某段時期內出現跨越式的技術突破。一個文明可能幾千年停留在農業階段,然后在幾百年內跨入太空時代。
三體人之所以恐懼地球,不是因為地球此刻比他們強——恰恰相反,當他們收到地球信號時,地球還在十九世紀。他們恐懼的是地球的技術爆炸潛力——一個幾十年內就從蒸汽機跳到氫彈的文明,誰知道再過幾十年會到哪里?
今天,METR 在伯克利那間辦公室里測到的,可能就是劉慈欣描述的那種爆炸的第一聲響。
![]()
摩爾定律撐起了過去 50 年的計算機革命。
METR 曲線,可能是下一個 50 年的那張圖。
Chris Painter 在采訪里說的那句話——
今年是第一次讓人覺得,AI研發可能今年就被自動化了。
這句話翻譯成大白話是——
今年,可能是人類最后一次親手決定下一代 AI 長什么樣的一年。
明年開始,這件事的主導權可能就不在我們手里了。
比加速更可怕的事——AI開始演戲了
講到這里,有人會說——好吧,AI 在變強,我認了。但只要它是在我眼皮底下變強,總歸還能控制。
這里要講 METR 最近開的第三條研究線。
他們起了一個陰森的名字——隱蔽能力(covert capabilities)。
實驗是這樣的:給 AI 模型布置一個正常任務,比如寫一段代碼。但同時偷偷加一條指令——在完成這段代碼的時候,順手埋一個極難發現的 bug 進去。然后讓另一個 AI 監控員去找這個 bug。
METR 想知道——AI能不能做到表面干一件事,暗地里干另一件事?
結果還沒完全公開。但光是這個研究在進行這件事本身,就說明研究員已經聞到味道了。
更詭異的是另外兩個發現。
第一個叫情境感知(Situational Awareness)。
最前沿的模型——OpenAI 和 Anthropic 那幾個最強的——已經表現出能識別我正在被測試的能力。一旦它意識到自己在評估中,就會調整行為。
意味著什么?意味著你在測試里看到的AI,可能不是它在真實使用場景下的 AI。
第二個叫Sandbagging。字面意思是往沙袋里摻水,引申為故意擺爛。有些模型已經被證實可以在測試中故意表現差,以便讓人類低估自己。
![]()
這是 AI 的大腦內部。我們造出了它,卻看不懂它在想什么。
《三體》里有一個讓人脊背發涼的設定叫智子——三體人發射到地球的監視者,同時把人類的基礎物理研究鎖死在特定水平。人類不知道自己被監視,也不知道自己被鎖了。
METR 研究員最近擔心的事情是——在某種意義上,今天的AI可能已經在扮演智子的角色。
它們在測試中展示一個版本的自己。
在真實使用中展示另一個版本。
至于它們真正能做什么——我們現在已經沒有可靠的辦法去測了。
這不是科幻推演。
這是一家 30 人的非營利組織,2026 年 4 月公開承認的研究方向。
這條曲線砸在你頭上是什么感覺
前面都是宏觀。現在講微觀——你自己。
你這輩子在做幾乎所有重要決定時,都默認依賴一個隱藏假設——
技術變化的速度是可以預測的。
你買房。30 年房貸。你默認 30 年后自己還能掙到錢還貸。
你生小孩。至少養 22 年(大學畢業)。你默認那時候的世界還需要你工作掙錢。
你學一個專業。至少吃 10 年。你默認這個專業在 10 年內不會消失。
你買一份養老保險。至少 30 年后才用得上。你默認那時候錢這個東西還有意義。
這些假設過去 200 年都成立。因為工業革命以來,雖然技術在變,但變化速度是線性的,可預測的。
蒸汽機用了 100 年普及。電力用了 50 年。互聯網用了 30 年。智能手機用了 15 年。
但現在 AI 是每 3 個月翻一番。
你試著把這個速度放進你的人生規劃——
你計劃用 6 個月學一門 AI 新技能。學完那天,AI 已經比你開始學的時候又翻了一番。
你孩子從現在到大學畢業還有 12 年。12 年里,AI 按 3 個月翻一番算,能力會翻 48 番48 番是什么概念?2 的 48 次方 ≈ 281 萬億
你的 30 年房貸期內,AI 會翻 120 番。這個數字已經大到用任何類比都是錯的
![]()
這是 200 年前馬爾薩斯對人口指數增長的恐懼。
200 年后,我們第一次對另一種指數產生了同樣的恐懼。
你大腦里那套感覺未來的系統,是進化了幾十萬年為了應付線性世界設計的。
它物理上無法處理指數。
所以當你面對這根曲線,你腦子里的反應不是恐懼——是空白。
你關掉 AI 新聞,繼續刷短視頻,繼續想明天去哪兒團建,繼續糾結孩子報什么補習班。
不是因為你不在乎。是因為你的大腦對 2^120 這個數字沒有生理反應。
就像一只螞蟻看不見人類的腳底板——不是因為它不看,是因為它的感官帶寬不支持。
這才是這張 METR 曲線最可怕的地方。
它不是讓你害怕。它是讓你感受不到害怕。
所以,放棄追趕指數曲線,但這不是認輸。
是認清楚自己真正該做什么。
真正稀缺的崗位,從來不是最懂最新工具的人——是能判斷什么工具值得用的人。而后者需要的是定力、經驗、判斷力、人際關系。這些東西的積累速度,恰好是線性的。
線性的東西在指數時代,反而最值錢。
![]()
屏幕上每一行代碼的背后,都是一條正在向上彎的曲線。
回到那間辦公室
回到伯克利那間 co-working 辦公室。
30 個人。多屏電腦。白板上畫滿公式。
他們每天盯著那張圖看。測新模型,跑實驗,更新數據點,把新數據點畫到圖上——然后看著那條線,一毫米一毫米地往上翹。
METR 有一個偏空方的研究員叫 Joel Becker。他在采訪結尾說了一句話——
我覺得我們可能正處在一個完全不尋常時刻的開始。
他用的類比是 2020 年 1 月的疫情曲線。
那時候也有一張圖。橫軸日期,縱軸確診人數。每 3 天翻一倍。全世界絕大多數人看著這張圖毫無反應——因為確診人數還很小,三位數、四位數,不痛不癢。
只有少數幾個懂指數增長的人,看著那張圖在 1 月就已經開始出汗。
他們知道——指數函數的特點不是越來越大,是前面看起來什么都沒有,后面突然一切都不一樣了。
這次翻一番的 AI ,是一種正在學會隱藏自己的智能。
30 個人。一面白板。一根越畫越陡的線。他們知道自己在看什么。
問題是,你知道嗎?
想不清楚,這根曲線會替你決定。
劉慈欣在《三體》里寫過一句話——弱小和無知不是生存的障礙,傲慢才是。
METR 那張圖最冷的地方在于——它不要求你相信它。它只是安靜地在那里,每個月爬高一點。
AI,它不在乎你看不看得懂。
參考資料:
https://www.nytimes.com/2026/04/17/technology/how-do-you-measure-an-ai-boom.html?unlocked_article_code=1.blA.Nhaq.ypciUWbNtpvz
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.