當OpenClaw在中國市場迅速走紅,從開發者社區到普通用戶層面掀起一輪“本地AI智能體”熱潮,其意義顯然已不止于一個開源項目的成功。在某種程度上它更像一面鏡子,折射出中國AI產業在應用層面快速落地、場景豐富、體驗驅動的強大創新能力。
![]()
但如果我們將視角拉長,這場熱潮同樣暴露出一個更深層的問題,那就是支撐這些應用繁榮的底層能力,我們仍然存在不小的差距。無論是基礎大模型,還是高端算力體系,中國AI仍處在“追趕與突破并存”的階段。從這個角度看,OpenClaw的火爆,與其說是一次勝利,不如說是一種提醒。
OpenClaw火爆,其根基基礎大模型差距猶存
OpenClaw之所以能夠迅速破圈,本質上并不只是產品設計或工程實現的成功,而是站在大模型能力已經足夠“可用”的拐點之上,即智能體(Agent)形態的爆發,依賴的是模型在理解、推理和執行任務方面的綜合能力達到一個臨界值。
換言之,沒有基礎大模型能力的支撐,就不會有OpenClaw的應用繁榮。但問題在于,這一“底座”本身,我們與國外主流大模型相比仍存在客觀差距。
根據Epoch AI今年年初發布的報告(《Chinese AI models have lagged the US frontier by 7 months on averagesince 2023》,以下簡稱報告),自2023年以來,處于AI能力前沿的頂級模型幾乎均出自美國,中國最佳模型在EpochCapabilities Index(ECI)上的平均“時間差”約為7個月。報告給出的區間是在開源快速迭代期(如DeepSeek?R1奮力追近Claude 3.5)時差距可縮小至約4個月,而在美國閉源新模型(如o3 系列)剛發布的窗口期,差距一度拉大到約14個月,均值則相對穩定在7個月左右。趨勢雖在緩慢改善,但尚未收斂到“零差距”。
![]()
具體到節奏上,美國AI模型的更新頻率極高,從GPT?4到o1,再到GPT?5和新一代Gemini系列,幾乎不存在長時間的停滯窗口,且能力躍遷并不完全依賴參數規模,而更多來自訓練范式、推理路徑設計、對中間狀態的顯式建模等方向的系統創新。例如o1系列在推理路徑、思考過程建模上的工程化嘗試。
相比之下,中國AI模型呈現出典型的“跳躍式追趕曲線”。從Baichuan2、Qwen?14B 到Yi?34B,再到DeepSeek?V2、Qwen2.5、Qwen3 Max,每一步間隔都能看到大幅躍遷,但提升往往更多依賴參數規模擴展、MoE架構以及工程層面的極致優化。雖然這種“臺階式追趕”在短期內頗為高效,但也意味著在連續迭代頻率、訓練范式創新等維度仍存在差距。
此外,報告還特別強調了“開源vs閉源”的結構性差異。當前中國領先模型幾乎清一色選擇開源或開放權重(如Qwen系列、DeepSeek系列),而美國最前沿的一批模型(如GPT?5、o3)則保持閉源。這兩種路徑各有優勢,例如開源降低復現門檻、放大社區協作效應,但閉源更容易圍繞新范式構筑高壁壘。報告同時指出,中國模型在ECI曲線上首次超越 GPT?4出現在2024年5月左右(比GPT?4發布滯后約14個月),但截至2025年底尚無模型在整體能力上超越o3級別模型。
這背后反映的并非工程實力,而是范式創新的主導權問題。雖然開源生態在代碼、數學、對話等單一維度上可以快速追平甚至在部分榜單上反超,但在決定下一代AI范式躍遷的關鍵能力——持續學習、自我反思與規劃、更強的Agent級系統能力,仍主要掌握在具備閉源模型與巨量算力資源的少數美國公司手中。
需要說明的是,ECI指數綜合語言理解、推理、多任務泛化與專家校準,量化了真實能力差距。所以上述7個月的差距并非只是抽象的數字,而是它會在OpenClaw的典型使用場景中得到具象的體現。
例如長上下文的穩健性。眾所周知,OpenClaw的一個關鍵特點,是會話歷史和任務狀態往往會被完整地保留并反復引用,對于一些復雜的企業流程,一個會話輕松突破10萬token,甚至逼近20萬token。而在這樣長的上下文下,模型不僅要記住“你之前說過什么”,更要持續做出高質量的規劃決策(例如決定何時調用工具、如何修改既有計劃、怎樣解釋外部系統返回的復雜結果等)。但當前在這一維度表現最穩健的仍然是GPT?5和少數幾款最新的前沿閉源模型,而不少國產模型在超過特定上下文長度之后,開始出現遺忘前文指令、邏輯跳躍、工具調用混亂等問題。
又如Agent化推理能力。OpenClaw之所以被視為“數字員工框架”,就在于它不僅能回答問題,還能把“完成任務”拆分成多步執行,例如先查收合同郵件,再在CRM系統里更新客戶狀態,然后根據對方時區安排會議,最后生成一條總結發送給內部群。而這個過程背后,需要模型具備相當程度的任務分解、規劃和反思能力,即業界常說的agentic reasoning。事實是,美國的最新前沿模型在這方面已經形成了一套從架構到訓練范式的系統性方法,而中國模型盡管在代碼、數學、對話等單一維度上成績亮眼,但在Agent鏈路上的一致性方面仍稍遜一籌。
更值得我們警惕的是安全性與對抗魯棒性。安全公司Palo Alto Networks在分析OpenClaw風險時,將此類自動化Agent系統視為“高危組合”的一部分,理由很直接,一個可以自動讀取郵件、瀏覽網頁、操作企業系統的Agent,一旦在提示注入、權限邊界控制、越權調用等環節存在缺陷,就可能演化為“帶AI的自動化攻擊腳本”。在這一點上,部分美國前沿模型廠商已經投入大量資源,用于對抗式訓練、權限分級、敏感操作的多輪確認等機制,而不少國產模型和應用方仍更多處在“補齊基礎安全能力”的階段。當OpenClaw 與真實業務系統深度綁定,這種安全能力的差距就會被成倍放大。
![]()
基于上述,我們發現OpenClaw在中國的流行呈現出某種矛盾的兩面性。一方面,它是中國在應用層和生態組織能力上的一場勝利,證明了我們自己極擅長“把好模型用起來”“把框架玩出花兒來”;另一方面,它也折射出一個殘酷的現實,即在最關鍵的基礎大模型領域,我們仍然在以大約半年的時差追逐前沿,而這無疑決定了OpenClaw的性能上限。
高端算力不足,拉低中國大模型上限
如果說上述的基礎模型差距是表象,那么算力,則是決定這一差距能否縮小的根本變量。原因很簡單,在AI體系中,算力不僅決定模型訓練的規模上限,也直接影響模型迭代速度和實驗空間。尤其是在當前大模型進入“規模+算法”雙輪驅動的階段后,算力的重要性被進一步放大。而事實是,中國在高端算力上的結構性短板,正成為基礎模型迭代的“阿喀琉斯之踵”。
據Epoch AI另一份報告顯示,2019年后中國頂級中文語言模型訓練計算能力迅速增長,2021年底曾追平全球,但此后放緩,這導致自2021年底以來,前十中文模型每年訓練計算能力增長約3倍,遠低于全球其他地區自2018年起每年5倍的增速。而按照當前發展速度,中國需約數年才能達到全球頂級模型的計算水平。
![]()
如果說Epoch AI的報告代表了海外視角,那么在今年年初國內舉行的AGI?Next前沿峰會(以下簡稱峰會)上,來自清華、智譜AI、阿里巴巴通義千問等多位一線大佬及從業者,也給出了與之相呼應的判斷。
例如當英偉達發布新一代 Rubin 芯片時,首批主要客戶名單中幾乎難見中國互聯網或 AI頭部企業的身影。對此,智譜AI聯合創始人唐杰在會上直言,中國與美國在算力資源上的差距“有可能不但沒有縮小,反而在擴大”,這種差距不僅體現在單枚芯片性能上,更體現在總算力規模、算力利用效率和供應可預期性等維度。而阿里巴巴通義千問(Qwen)前技術負責人林俊旸在峰會上給出的評估稱,美國頂級實驗室擁有的算力資源,普遍比中國實驗室高出1到2個數量級。
盡管這類估算并非精確測量,但結合公開披露的GPU規模、融資能力和云基礎設施布局,我們可以大體勾勒出了一個事實,即由于高端算力受制于成本和供應,中國企業不得不將大量資源優先用于支撐既有業務的推理與在線服務,而像OpenAI、Anthropic這樣的對手,卻可以持續將海量算力資源投入到下一代模型的“飽和式研發”之中。
林俊旸同時提醒,Agent在執行長尾任務時暴露出來的各種“棘手問題”,不可能完全通過Prompt工程或應用層代碼修補,必須回到模型層面,通過針對性的大規模訓練與后訓練(“燒卡”)來解決—“模型即產品”,沒有系統性的模型訓練能力,就很難構建真正可持續的技術壁壘。
更令人擔憂的是,為了打破這種“算力鎖死”,中國企業正陷入一種“打游擊式”的生存困境。據峰會透露,不少國內團隊為了獲取高端算力支持,不得不通過錯綜復雜的步驟,去租用東南亞或中東數據中心的算力,這不僅帶來了極高的成本,更意味著研發效率的攤薄。而這種結構性的落后,讓業內精英們保持著清醒的悲觀。例如當被問及未來三到五年中國公司有多大概率超越美國頂尖AI企業時,林俊旸給出的猜測是20%或更低。
正是在上述背景下,中國廠商近年來通過工程優化與架構創新,在一定程度上“對沖”了算力不足的影響。例如通過MoE架構、推理優化等方式提升效率,甚至在部分場景中實現對海外模型的成本優勢。
但我們必須看到,這種優勢更多是“效率創新”,而非“資源優勢”。而當模型競爭進入更高維度(例如更長上下文、更復雜推理、更大多模態融合),直至Agent時,底層算力的差距仍然會成為限制上限的關鍵因素。
因此,從長期看,如果算力基礎設施無法實現質的突破,中國AI在基礎模型層面的追趕將持續面臨“天花板效應”。而要打破這個“天花板”,僅靠應用層面的“用法創新”是不夠的,必須依賴更扎實、也更漫長的底層技術創新投入。
中國AI向未來,需押注算力底層創新
提及所謂“底層創新”,在我們看來,其不應是寬泛的口號,而是一系列極其具體、需要長期投入的系統工程。具體到基礎大模型,其是在架構、訓練范式、對齊技術、安全機制上的持續突破,是在多語言、多模態、多任務一體化上的深耕,是在數據治理與標注體系上的扎實建設;至于算力體系,則是從芯片、互聯網絡、系統軟件到調度平臺的一整套協同優化,力圖用更高的系統效率,抵消部分在單卡性能與供應上的外部約束。而這之中,如前述,算力是重中之重。
基于此,國內廠商正在嘗試從不同層面補齊底層算力的缺口。
以中科曙光近期推出的scaleFabric國產原生RDMA網絡為例,其價值并不只是替代某一類進口產品,而是在算力體系中重構“網絡”這一關鍵變量。
眾所周知,在大規模訓練中,通信開銷往往占據30%—50%,而scaleFabric通過全棧自研實現高帶寬、低時延和無損傳輸,本質上是在提升算力的“有效利用率”。雖然這類創新不直接體現在模型參數規模上,卻可以讓同樣規模的算力集群釋放出更高的訓練效率,從而間接提升模型能力的上限。
類似的底層創新,并不只發生在網絡層。
例如在芯片層面,以華為昇騰、寒武紀、海光、壁仞等為代表的廠商,正在通過不同技術路徑推動國產算力體系從“可用”走向“高效”。這之中,有的廠商通過架構設計提升通用性與擴展性;有的則在特定場景中優化算力密度或能效比;有的通過兼容主流軟件生態降低遷移成本,逐步構建起從芯片到服務器乃至數據中心的一體化能力。而這些路徑的共同點在于不再簡單追求“對標某一款GPU”,而是圍繞實際應用重構算力效率。
與此同時,一些更具前瞻性的創新開始出現在“系統級組織方式”上。例如以華為CloudMatrix為代表的超節點架構,通過高速互聯將數百顆芯片組成一臺“超級AI服務器”,以系統能力彌補單芯片性能差距;又如光互連、硅光交換等新型網絡技術,也在嘗試從物理層突破傳統電子互聯的帶寬與延遲瓶頸。
![]()
類似的思路也體現在國內算力系統的工程實踐中。以中科曙光ScaleX萬卡集群為代表,其通過在萬卡規模下對計算、存儲與網絡進行一體化設計與調度,實現跨節點的大規模協同訓練能力。在這種體系中,真正重要的已不再是單一芯片或單臺服務器的性能,而是整個集群在通信效率、任務調度與資源利用率上的整體表現,本質上也是在通過系統級設計提升整體算力的可用性和有效性,為大模型迭代提供更穩定、高效的運行基礎。
![]()
其實無論是華為,還是曙光,其探索的共同點在于,它們不再局限于單一硬件指標的比拼,而是通過重構算力的組織方式,在既有條件下逼近甚至重塑性能邊界。
此外,在計算范式層面,中國廠商也在嘗試“繞開約束”。例如圍繞FP8低精度計算的實踐,已經證明在不依賴最先進制程的情況下,通過算法與硬件協同優化,同樣可以實現大模型訓練效率的大幅提升,而這類創新路徑,本質上是在重寫“算力=先進制程”的單一邏輯。
如果我們把這些探索放在一起不難發現一個重要變化,那就是中國AI算力正在從過去的“單點替代”,逐步走向“體系化重構”。
寫在最后:綜上,我們認為,OpenClaw的爆火,是中國AI應用能力的一次集中釋放,但并沒有改變一個更深層的現實,即基礎大模型仍在追趕,算力體系仍存約束。
不可否認,應用可以放大能力,但卻無法替代能力本身。而當行業沉浸于“又一個爆款”的熱鬧時,更需要看到底層的差距與方向。基于此,對中國AI的未來,不在于還能誕生多少個中國版的OpenClaw,而是我們能否憑借在模型、算力與系統架構等的底層創新完成從追趕到定義的躍遷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.