![]()
一份拓展中的 AI 地圖。
文丨程曼祺
本篇文章是《晚點聊》年終特別節目《年末 AI 復盤》的精簡文字版,總結了 25 年和即將過去的蛇年,《晚點》在 AI 領域的觀察、見聞和這一年多里發生的 AI 大事件。
全文分為 7 個主題:
1. 模型
2. 應用
3. 巨頭的 AI 之戰:字節、阿里、騰訊
4. 創業公司們
5. 具身智能
6. AI 硬件
7. AI 中的人
每個部分會按照若干關鍵詞展開,并穿插指引《晚點聊》的相關往期節目或《晚點》的相關文章。
歷史正在加速發生,洪流中容易五色迷目。但人是意義的動物,我們總試圖理解和抓住什么。希望這期年底的大型 “連點成線”,可以幫關注 AI 進展的朋友得到一份正在拓展中的地圖。
1.模型
關鍵詞:Agentic Model、協同設計、下一個學習范式
本輪 AI 熱潮仍處在早期,技術變化是最重要的驅動力,也是推演產品形態和商業格局的重要基點。所以我們的回顧從模型技術開始。
Agentic Model
Agentic Model 就是能支持 Agent 能力的模型。在 25 年 3 月的第 106 期(與真格合伙人戴雨森聊 Agent)以及此后的第 110 期(與明勢合伙人夏令聊垂直 Agent)節目中,都有對 Agentic 模型框架的詳細拆解。
總結來說,Agent 需要模型的這樣幾種能力:
- 推理能力,能思考更復雜的任務和規劃任務;
- Coding 編程能力;
- 多模態能力,尤其是多模態理解能力;
- 工具使用能力,這和推理、Coding 和多模態能力都相關;
- 記憶能力,能存儲長期的上下文,而且能在處理特定任務時,知道調用哪些適當的上下文。
推理模型
Agentic Model 這一年的發展,要從年初 DeepSeek-R1 的爆火說起,這標志著推理模型的崛起。
更早的推理模型是 OpenAI 在 24 年 9 月發布的 o1,而 DeepSeek R1 是全球第一個在大參數規模上復現了 o1 的推理模型。
一個幕后故事是,R1 發布同一天,Kimi 也發布了推理模型 K1.5。其實兩家公司都各自知曉對方就快發推理模型了,最后趕上了同一天——25 年 1 月 20 日。這個日期未來會是中國 AI 史上值得紀念的一天。
R1 后來的影響力遠大于 K1.5,也遠大于原始版本 o1。除了實力過硬之外,還有 3 個關鍵的因素:一,它是一個完全開源模型,而且開源了最強、最大的旗艦版本;二,它的技術報告十分詳細;三,它特別在報告中高亮了 557 萬美元的最后一次訓練成本。
前兩個因素是 AI 研究者關注 DeepSeek 的原因。從更早時的 V2 和 V3 起,DeepSeek 在歐美 AI 研究群體里,就以慷慨的分享精神贏得了大量尊重和討論。
梁文鋒本人對開源非常堅定。一個我們報道過的小故事是, 23 年下半年,光年之外聯創袁進輝在籌備創立新的 AI Infra 公司硅基流動,梁文鋒考慮過投資,但是說:如果 “大模型的推理引擎” 不開源,他就沒興趣了。袁進輝當時沒想清楚開源的商業模式,就沒有拿這筆錢。
而第三個因素——看起來極低的訓練成本,則引起了美國政商領域的更廣泛關注,以至于特朗普也點評了 DeepSeek,英偉達股價一度大跌。一個美國人都說厲害的 AI 大模型,在全國人民都閑著的春節假期,引發了史無前例的科技狂潮。
從 R1 的爆火中,其實可以看到一種技術影響力的擴散路徑:先在全球核心 AI 研究者中產生小范圍、但好評度很高的影響力,然后是由一個契機破圈,以及 AI 領域比較特別的——出口轉內銷。
說回推理模型本身,o1 和 R1 帶來的效果提升,主要表現為多步推理能力,就是可以一步一步地去思考一個復雜問題,提升回答的準確性、全面性和規劃能力。這也激發了 ChatBot 類產品的一個主流功能:Deep Research,深度研究。
而這個效果提升背后的新技術范式是,把更多算力,放到了模型使用階段,也就是推理的階段,這就是 “測試時計算”(Test-time Compute) 的 Scaling。
DeepSeek 的慷慨開源幫業界證實了很多假設:比如,推理能力不需要依賴蒙特卡洛樹等搜索算法;也不一定需要用人工構造的思維鏈數據來做監督微調,而是可以在基模之上直接從 0 開始強化學習。這降低了其它團隊的試錯成本。
R1 的存在還是一個觀念的勝利:即可以依靠小規模、且非常年輕的研發團隊,以相對低的成本,快速復現最好的模型成果。R1 甚至直接促使了一個新團隊的誕生,就是盛大創始人陳天橋投資支持的 MiroMind。DeepSeek 讓陳天橋看到,研發和訓練出頂尖模型的投入比他之前想象得要小得多。
Coding
當 R1 和一系列推理模型提升深度思考能力時,24 年埋下的另一顆種子也悄然發芽,即 Anthropic 引領的 Coding 能力超強的模型——Claude 3.5 和后續模型。
Anthropic 也在 25 年 2 月正式發布了自己的 AI Coding 產品 Claude Code——后來人們會發現,它其實就是一個 General Agent,比 25 年 3 月初發布的 “世界首個通用 Agent” Manus 還早一個月。
Coding 之所以重要,是因為在數字世界里,會編程,就像人有了強健的手和腳,可以解鎖大量任務,這是大模型支撐復雜 Agent 應用的重要基礎。
整個 25 年至今,全球頂尖模型廠商都在加大對 Coding 的投入,其中不少都直接下場做了 Coding 應用。如 OpenAI 在 4 月發布了 Codex,x.ai 8 月發布了 Grok Code Fast,Google 在 11 月發布了 Antigravity。
多模態
25 年出現的一些新的 AI agent 體驗離不開多模態,如 136 期中,Lovart 創始人陳冕聊到了他們當時剛上線不久的 ChatCanvas 功能,就是用戶可以手動在生成的設計圖上選定一個區域,告訴 Agent 怎么進一步優化和修改。這背后就需要模型能理解圖像。
現在,全球最領先的大模型都已演進為原生多模態模型,即用同一個模型來處理文字、圖片、語音等不同模態的信息。而這之前,多模態能力是分開實現然后拼接的。最早發布的這類模型是 24 年的 OpenAI 4o 和 Gemini 1.5。去年 11 月發布的 Gemini 3,還有近期剛發布的 Kimi 2.5 也都是原生多模態模型。
同時,也有不少專門做多模態生成的模型,比如中國公司做的很不錯的視頻生成模型,像可靈、MiniMax 的海螺、SeedDance 等。去年 Google 發布 Veo 3 和大火的 Nano Banana 亦是專門的視覺生成模型。
在 146 期聊 Gemini 3 和 Agent 需要的模型時提到,Nano Banana 和 NotebookLM 都發源于 Google 的一個部門 Google Labs,負責人是 Google 傳奇產品經理 Josh Woodward。這個部門不僅有研發人員和工程師,也會招主編、設計師等做內容的人。他們創造了很多火爆出圈的玩法,比如,把自己的照片做成桌面手辦的圖片,一度風靡社交網絡。這背后就是 Nano Banana。
而另一些公司,如 Anthropic、Kimi 和 DeepSeek 都沒有把多模態生成作為重點。這和不同團隊的技術判斷、想做的應用方向和資源多少有關。
總結 Agentic Model:隨著大模型的推理、編程、多模態等能力持續提升,去做主動性更高、能完成更復雜任務的 Agent 應用的時機到了,25 年普遍被認為是 Agent 應用出現的元年。這個趨勢還在快速發展,如最近爆火的 OpenClaw。
協同優化
阿里千問、騰訊 AI 的研發組織整合
這是指模型的開發方式和研發團隊的組織方式。
在 146 期,聊 Gemini 3 等技術進展時,在 Google 云 Vertex 部門工作了 7 年的 Bethany Wang 分享了她看到的 Google 卷土重來的一個關鍵——Co-design(協同設計):
Google 多年的布局,讓它全面掌握了訓練 AI 的 TPU 芯片,芯片上面的 JAX、Pallas 等軟件庫,面向大模型的 Infra,再到云平臺、模型和最上層的應用。能從底層到上層,一路協同優化,形成了 Superpower。
其實這種 “協同設計” 的垂直整合思路很自然,因為大模型訓練是一個大型復雜系統工程,GPU 等硬件、Infra 等軟件系統和算法都相互影響。最近阿里總結的 “通云哥 “:通義-阿里云-平頭哥的戰略組合,也是一個類似的垂直整合的思路。
在千問模型團隊的內部,更緊密的整合也正在發生。我的同事高洪浩,在《晚點》上周發布的《字節、阿里、騰訊 AI 大戰全記錄:一場影響命運的戰爭》這篇文章里,就提到:在阿里通義千問團隊,他們從 25 年下半年開始,招募自己的 Infra 人才。這之前,千問的 Infra 主要是阿里云的人工智能平臺 PAI 來支持的,但后來他們認為自建 Infra,能更敏捷地開發,也能和算法有更緊密的結合。
騰訊 AI 大模型的新負責人姚順雨,近期也在一次內部會上提到了 Co-design:認為從 Infra 到算法再到產品協同打通,可以加快迭代,減少內耗。騰訊已經把 AI Infra 部門也劃到了姚順雨的管轄范圍。
DeepSeek 開源周:超低的推理成本如何實現
而 DeepSeek 作為一個從 0 搭建的團隊,則是在一開始就很自然地形成了協同優化。如 Infra 團隊也會參與算法設計討論,如果一個算法設想從 Infra 層面很難有穩定的實現,這個想法可能會被否掉。DeepSeek 能做到這一點,在于梁文鋒對整個模型訓練的各環節都比較了解,且會 Hands-on 地參與其中。
25 年年初的一個事件,展現了 DeepSeek 超強的 Infra 能力和工程能力,就是 DeepSeek 開源周。從 2 月 24 日到 28 日,周一到周五,DeepSeek 每一天放出了一個 Infra 領域的開源成果。然后在周六發布了一篇收官博客:《DeepSeek-V3/R1 推理系統總結》,其中還根據某一天 24 小時的實機數據,測算了 DeepSeek 推理系統的成本。
《晚點聊》有兩期相關節目。一是在 102 期,我們和 DeepSeek 前實習生王子涵聊大模型開源現狀,和它與傳統軟件開源的區別。其中有一個問題我印象很深,是像 DeepSeek 這樣,一直開源最強的旗艦模型,是為什么 ? 他說有兩個可能:一是老板不想賺錢,要造福社會。二是想做更大的事,比如成為一種行業標準。
另一期節目和 DeepSeek 開源周引起的一個行業風波有關。就是在周六發布的那篇總結文章里,DeepSeek 公布的推理成本非常低,在 24 小時里,用 1800 多張卡,支持了 6000 多億的輸入 Token 和接近 1700 億的輸出 Token。DeepSeek 還以當時的 GPU 租金和自家模型的官方定價,計算了一個利潤率,換算成毛利率是驚人的 84.5%。
做第三方 AI Infra 服務的潞晨科技創始人尤洋直呼不可能,他認為 DeepSeek 這種算法,沒有考慮波峰、波谷的調用量變動。具體的討論可以參見第 105 期對尤洋的訪談。這種爭議本身,也側面說明了 DeepSeek 的 Infra 優化非常極致。
硅基流動創始人袁進輝當時也在這篇文章的知乎留言區里評論:
DeepSeek 披露的成本和收益,又一次顛覆了很多人認知。現在很多供應商還做不到這個水平,主要是 V3/R1 架構和其它主流模型差別太大了。他推測,DeepSeek 團隊可能是先想到了這樣一個模型結構,然后解決了穩定訓練和推理的工程問題。也可能是反過來,從系統出發,設計了這樣一個模型結構。
不管是哪一種,都需要模型和算法的緊密合作。
注意力機制改進:稀與線性
在協同優化這部分,還想特別講一講注意力機制的改進。注意力是 Transformer 架構大模型的核心機制,簡單來說,改進原始注意力機制是為了讓模型能處理更長的上下文,而模型之所以在上下文長度上有瓶頸,又是因為注意力的計算方式會帶來很大的計算復雜度和顯存開銷,而這兩件事都是被 GPU、TPU 的算力、互聯效率和存儲等物理底層限制的。
25 年,我們做了 3 期和注意力機制改進相關的節目,正好涵蓋兩個主流方向:稀疏注意力和線性注意力,分別是 103 期、104 期和 143 期。這幾期節目都是從模型架構的改進聊起,但都自然地延伸到了系統層和硬件底層,比如 103 期中,我們聊到了 Flash Attention 就是早期的一個系統-算法的協同改進,基于對 GPU 內存訪問特性的理解,它通過改變標準注意力的計算順序,提升了計算的效率、降低了顯存開銷。在 143 期中,DeltaNet 的核心貢獻者楊松琳也分享了,她是怎么從一個算法研究員,自學了改寫 Kernel 等系統層的能力。她對 DeltaNet 的核心優化就是提出了一個對 GPU 更友好的,可以做 scalable 訓練的方法。
算力:從拼單顆芯片性能到優化多芯片互聯
去年《晚點聊》的 115 期節目中,我們和之前壁仞的聯合創始人、現在 AI Infra 公司魔形智能的創始人徐凌杰,聊了當時華為剛發布不久的 384 Matrix 超節點,它是一個連接了 384 顆 AI 芯片的超級算力集群。
這背后的一個算力層面的大趨勢:從拼單顆芯片的性能,到優化多芯片互聯的系統。英偉達更早之前發布的 NVL72 也是這個思路的體現。英偉達是全球范圍少有的,既掌握芯片設計,又掌握芯片間的互聯技術、網絡技術等更復雜軟件的公司。
那期還有很多有意思的洞察,包括互聯互通技術為什么重要;AI 算力的成本正在從以計算為主轉向以顯存為主;以及這些基礎算力層的變化會帶來哪些新的機會,又消滅哪些舊的機會。
可以看到,在算力層內部,也是一個 “協同設計 “,逐漸垂直整合的結構。這可能就是某些領域,強者恒強,強者很難被動搖的原因。
下一個學習范式
這是 25 年下半年以來,越來越被關注的一個話題。
先總結一下目前的范式,簡單說是:用海量數據做預訓練;用更少、但質量更高的、面對特定任務的數據做監督微調或強化學習的后訓練。
那么下一步呢?會思考這個問題的人,通常認為目前的方法不久后將觸達瓶頸,或者并非實現智能的最優路徑。
Ilya Sutskever、Demis Hassabis、Yann LeCun 等人都討論過此問題,他們的共性在于傾向于從學習機制而非最終效果來定義 AGI。他們認為當前技術尚未達到更本質的學習方式,例如像人類一樣僅憑極少樣本即可學會任務、舉一反三、在生命周期中持續學習,并真正理解乃至發現物理世界的規律。
Ilya Sutskever 在 25 年 11 月與 Dwarkesh Patel 的播客中提到,過去幾年是 Scaling Law 的階段,而現在已重新回到研究驅動的階段。
熱門的研究方向包括持續學習、在線學習、世界模型等。我觀察到的線索是:許多研究者在尋找突破時,都會溯源動物與人類智能的產生與工作機制。Ilya Sutskever 曾提到他的 AI 研究品味是從大腦中獲得靈感,以正確的方式思考人類智能,追求美與簡潔。Transformer 作者之一 Llion Jones 創立的 Sakana AI,在 25 年提出新模型架構 “連續思維機”(CTM),其核心目標也是更接近人類大腦。
在《晚點聊》第 108 期中,香港大學計算與數據科學學院院長馬毅分享了他對智能歷史的梳理。他思考的起點是:地球為何產生智能?為何僅生物擁有智能?他認為智能的本質是 “學習”,即找到世界中有規律、有結構、可預測的部分,進而預測外部世界以求生存。馬毅的研究方向,正是探索能像生物那樣實現閉環反饋機制的學習系統。
人類學習方式的另一大優勢在于極其節能。為了訓練大模型,Elon Musk 甚至計劃在太空建設算力,而人類大腦的功耗僅約 20 瓦。
去年在與 Meta 前 AI 研究總監田淵棟聊其科幻小說《破曉之鐘》時,我們曾探討過現有方法的瓶頸。11 月在舊金山再次見面時,他表示接下來希望探索新的學習范式。他認為那定是一種更簡單、優雅且可解釋的表達,而非目前的 “黑盒”。
他曾提到,若僅靠 LLM 就能實現 AGI,人類的未來將是悲觀的。這不僅是因為現在的智能產生方式過度耗能且依賴不可再生的數據資源,更深層的悲哀在于,如果用一種不可解釋的方式就能表達和捕捉宇宙規律,這對于追求真理的智慧生物而言不是一種悲哀嗎?
與模擬人類智能相關的另一熱門方向是持續學習。高級動物與人類具備自主持續學習的能力,而目前大模型的更迭仍需研究員深度參與每一次迭代。持續學習在人類智能上的最高表現形式之一是科學發現。Demis Hassabis 在近期關于 “智能的未來” 的分享中提到,他希望構建能像科學家一樣提出假設、設計并執行實驗、獲取數據并驗證假設的系統。
若能精確生成供此類學習進行的環境,即是世界模型——至少是一部分人對世界模型的理解。Google DeepMind 在 25 年先后更新的 Genie 3 與 SIMA 2 便是此類嘗試:Genie 3 是能生成可探索 3D 環境的世界模型,而 SIMA 2 是在該環境中探索的智能體。不過目前版本僅支持在環境內移動,尚無法操作或改變物體。
總結模型領域的發展:
- 25 年,大模型的推理、Coding、多模態等能力持續提升,為復雜 Agent 的應用奠定了能力基礎。
- 模型競爭的底層是組織與研發方式的競爭,涉及算力、系統、算法等環節的協同設計與緊密合作。
- AI 研究者們已開始深度思考智能的下一步演進方向。
2. 應用
關鍵詞:Agent、Sora App、AI for Science
Agent
25 年是 Agent 應用大規模爆發的元年。從需求端觀察,目前 Agent 領域存在兩條明顯主線:一是以 Coding 能力為核心支撐的 General Agent(通用智能體),二是垂類 Agent。同時,圍繞 Agent 形成的一套工具鏈生態已在美國催生出一批初創公司。
通用 Agent:當 Coding 成為手段
25 年 2 月發布的 Claude Code 不僅是一款 AI Coding 產品,更是一個 General Agent。Coding 不再僅是目的,更是實現目標的手段。
作為目的的 Coding,旨在提效或替代人類編程,代表產品有給程序員用的 Cursor; 或面向非程序員的 Vibe Coding 工具如 Lovable。
而作為手段的 Coding,是指 General Agent 利用編程能力在數字世界執行各類任務。若面向專業開發者,它就是在命令行里啟動的 Claude Code;若面向普通用戶,則是帶有圖形交互界面的 Claude Cowork 和近期風靡的 OpenClaw(小龍蝦)。
此外,字節跳動的 Coding 產品 Trae 在去年下半年發布的 Solo 模式、螞蟻靈光、馬卡龍、Youware 以及 MuleRun 新內測的 Agent Builder 均屬此列。
這些產品的共性在于滿足個人工作與生活中的自動化需求。對于一次性需求,用戶調用 Agent 完成特定任務(如制作 PPT、搭建網頁);對于重復性流程,用戶則可以 “用 Agent 造 Agent”,定制個性化應用。
例如,我曾希望 AI 每天監測科技從業者的社交動態、分類記錄并生成周報,同時自動調整追蹤名單。這種小眾需求以往因開發成本過高而難以實現,如今 Claude Code 與 Claude Cowork 大幅降低了滿足這類需求的門檻。
Anthropic 對此生態貢獻良多,其推出的 MCP 協議及 25 年普及的 Skills 開放標準(Prompt 與 Tools 的集合),讓 Agent 的構建變得模塊化且低門檻。
Agent Scaling 與群體智能
馬卡龍創始人陳鍇杰有一個有意思的總結:過去我們經歷了數據、參數、算力的 Scaling,接下來也會看到 Agent 的 Scaling。近期出現的 Moltbook(AI 版 Facebook)便是 “群體智能” 的一次實驗,探索大量智能體聚集后可能產生的系統性變化。
在《晚點聊》第 121 期中,PingCAP CTO 黃東旭曾借《黑鏡》第七季第四集 Plaything 探討過群體智能的 “科幻版”。最近,黃東旭受 Moltbook 啟發給自己開發了 Minibook,通過三個不同角色的 Agent 分工協作,提升代碼質量,并開始研究 “Agent 社會學”。
在垂類領域,我們報道過的動畫制作 Agent OiiOii 和影視制作 Agent MovieFlow,也已實現基于內容生產流程的角色分工。此外,由 “小冰之父” 李笛創立的 “明日新程” 也在探索多智能體 Agent 框架。
當 Agent 數量激增,新的需求隨之轉向 Agent 的分發與交易。Youware 創始人明超平認為 Coding 是一種新型創作方式,社區化是其必然歸宿;MuleRun 則試圖構建 Agent 交易平臺。不過,這些產品正從單純的平臺轉向強化工具屬性,例如 Youware 將主頁改為對話框引導用戶構建功能性應用;MuleRun 2.0 亦更強調對話式的工具體驗,陳宇森認為 Agent 的交易市場不再會是淘寶那樣的 “貨架式”。之前的這些轉向,是因為用 AI 構建應用和 Agent 的門檻在降低,但還沒那么低,所以供給的數量和多樣性仍然不夠。26 年,我們可以繼續觀察,當 Agent 的門檻進一步降低,會有什么新可能。
手機 Agent:存量博弈與場景變遷
General Agent 的另一趨勢是向移動端滲透。25 年 12 月,字節跳動發布豆包手機預覽版,實現了自動回微信、比價點外賣等操作。然而,美團、微信等超級 App 擔心失去入口地位,被 “Over the Top”,所以這些功能不久后都被封禁。
OpenClaw 的流行也得益于與移動端的打通:Claude Cowork 目前只有電腦桌面版,而 OpenClaw 還可以部署到手機的聊天軟件里,用戶在手機上發送指令,即可驅動云端任務。
在《晚點聊》第 130 期與 138 期中,智譜 AutoGLM 的劉瀟與 OPPO 的萬玉龍均詳細探討了手機 Agent 的進展與挑戰,其中一個很有意思的話題是:手機廠商、超級 App 與 AI 公司之間的三方博弈。
不同場景的 app 受 Agent 影響的程度各異。點外賣、訂機票及功能性網購等用戶有提效需求的場景,用戶對 Agent 需求更多,但超級 App 出于廣告收入與數據安全的考量,對開放接口有猶疑——如果 Agent 替代了真人瀏覽,廣告誰來看呢?信息流廣告的價值是不是會降低?
又或者,在過渡階段,我們也可以設計一種機制,讓 AI 也能像人那樣被 app 里的廣告影響嗎?如果是這樣,那廣告收入的大頭是屬于和用戶直接接觸的 Agent 的提供方,還是屬于 App 廠商呢?
還有一個問題是,手機上的 AI OS 到底是蘋果、三星等手機廠商自己掌握,還是有獨立的新機會?
而抖音、小紅書、B 站等娛樂內容平臺受 Agent 影響較小,因為我們就是想自己看視頻,而不是讓 AI 來替我看,字節的多個主力產品都屬于這一類。
同時,掌握生活服務生態的公司也有主動出擊的機會,如阿里在 25 年 11 月更新通義千問 App,主打全場景生活助手,阿里做這件事的優勢是,它旗下有電商購物、即時零售、外賣、酒旅、演出票務、打車等豐富的生活服務應用。
未來,掌握大量小程序入口的騰訊將如何布局,同樣值得關注
垂類 Agent:從賣服務到賣結果
垂直領域 Agent 是 25 年《晚點聊》多次深度探討的核心話題。
Lovart 創始人陳冕在 136 期節目中,曾將 AI 應用劃分為兩大類、五小類:生產端的 Office 與 Adobe,以及消費端的 搜索、社交與泛娛樂。
目前市場上最受關注的 Agent 主要集中在生產端。其中,以 Coding 為核心通用 Agent 可被視為 “新時代的 Office”,旨在解決通用的辦公流程自動化問題;而 Lovart 以及大量圖像、視頻、音頻、動畫等多媒體內容制作 Agent,則是 “新時代的 Adobe”。
陳冕認為,基礎模型的目標是打造高智商的 “通用人”,而垂直產品則是在此基礎上培養 “專業設計師”;應用型公司的生存空間在于,既能充分調用 “通用人” 的智力,又能解決通用能力無法直接觸達的行業深層需求。這是他在創業時選 “Adobe” 方向的原因。
在第 110 期節目中,明勢資本合伙人夏令分享了 Agent 與具體行業深度結合的案例。例如明勢投資的法律領域的艾語智能,其核心場景是協助銀行起訴小額壞賬。以往此類案件的法律成本常高于賬面收益,機構大多選擇計提損失。Agent 的自主性與自動化顯著提升了篩選高成功率案件、按模板生成法律文件等環節的效率。盡管目前出庭等線下流程仍需人工,但 Agent 已重塑了利潤空間。
這種深度結合也帶來新的商業模式:從 “賣席位” 轉向 “為結果收費”。艾語智能本身也是個律所,所以它并非向其他律所售賣軟件,而是直接承接金融機構的案件,按最終收回的款項獲取服務費。這一洞察與 25 年 5 月美國紅杉在 AI 峰會上的觀點不謀而合——AI 軟件要從賣服務到賣結果。
另一個典型案例是 AI 教育公司與愛為舞。盡管創始人張懷亭在和我們的專訪中未直接提及 Agent 等術語,但其技術內核——利用 AI 輔助或替代人類助教,實現自主規劃教學任務并與學生互動,本質上就是一個教育領域的 Agent。
與愛為舞的策略是將 AI 老師嵌入成熟的 “在線大班課” 商業模式中。曾聯合創立高途(Gaotu)的張懷亭采取了先入場獲客、再積累真實數據、最后迭代 AI 模型的路徑。這種 “場景先行、數據驅動” 的商業化策略,是垂直領域 Agent 相比通用 Agent 的差異化落地方式。
Agent 工具鏈:Infra 層的細分與演進
隨著 Agent 創業與創新的繁榮,圍繞 Agent 的 Infra(基礎設施) 或工具鏈正成為關鍵機會。在軟件分工極其精細的硅谷,這一趨勢尤為顯著。
簡單來說,基礎模型與完整 Agent 產品之間的中間地帶,皆屬于工具鏈的范疇。這涵蓋了 23 年至今輪番更迭的技術熱點:從最初的 RAG(檢索增強生成) 到 Prompt Engineering(提示工程)、Context Engineering(上下文工程),再到強化學習環境、Evaluation(測評) 及狀態檢驗 等。
在《晚點聊》第 137 期中,MoE 資本的兩位創始合伙人 Henry Yin 和 Naomi Xia 總結、梳理了 Agent 工具鏈至今的 6 輪重大進化,每一輪的起點都源于模型能力上了一個新臺階。
我們也梳理了當前工具鏈中的核心機會,包括:
- 語音與多模態交互:更低延遲、更具情感表達力的接入技術。
- 記憶(Memory)管理:如何讓 Agent 具備跨 session 的長期記憶與精準的上下文調取。
- 評估(Evaluation):在黑盒化的模型之上,建立可量化的測評標準與運行狀態監控。
令我印象深刻的是美國軟件行業充分的水平分工。在硅谷,即使是極其細分的場景也有體量不小的公司:如專注系統可觀測性的 Datadog,以及深耕身份認證領域的 Okta,年收入均已突破 20 億美元。隨著 AI 發展,這些成熟軟件生態中的流程,都存在被 AI 重做一遍的機會。
Sora App:大 C 端場景的新機會
第二個關鍵詞是 Sora App,它代表了 AI 在非提效 to C 方向的嘗試,即集中于陪伴、社交、游戲與娛樂領域的產品。
這也不是 25 年的新現象:此前,Character.ai、Glow、Talkie 等產品已讓用戶習慣與虛擬角色互動;Pixverse 也于 24 年底推出移動端,主打視頻特效的制作與分享。
而 25 年 10 月上線的 Sora App 備受矚目,這不僅因為其出自 OpenAI 之手,更因其交互創新。其核心功能 Cameo 允許用戶授權人臉后生成符合外貌的數字角色,進行單人創作或與好友 “合拍”。
在《晚點聊》的訪談中,業內對 Sora App 有兩種不同的觀察:
- Lovart 創始人陳冕(第 136 期)認為 Sora App 本質上是社交產品而非單純的工具。Cameo 的裂變屬性讓他產生了強烈的分享欲。
- Sand.ai 創始人曹越(第 139 期)持保留意見。他認為新的 C 端平臺需具備新內容形態與新傳播鏈路。當時 Sora 仍更像一個工具,用戶創作后仍傾向于分發至 TikTok、小紅書等存量平臺。
后來的發展是,Sora App 在發布初期熱度極高,但留存挑戰巨大。Sensor Tower 數據顯示,其 30 天留存率低于 8%,遠遜于 TikTok(42%)和 Instagram(38%)等主流社交應用(數據來源于 SQ Magazine 25 年 Q3 數據)。
盡管大眾熱度有所回落,但特定創作者群體正在沉淀。25 年 11 月,我在舊金山遇到了一位圍繞 Sora App 做數據服務的創業者盧元,他做的產品 SoraStats 專門服務于 Sora 的活躍作者,想幫他們成為 “Sora 上的 Mr.Beast”。
盧元說,活躍作者并非是 AI 達人、專家,還包括教師、Uber 司機等跨行業人士。一個典型案例是日本創作者 Matsumaru(松丸慧吾)。他并不追求真人風格或社交合拍,而是利用 Sora 深度探索二次元與視覺特效。目前他的粉絲量已突破 10 萬,而 Sam Altman 是 14 萬。
Sam Altman 在 25 年 10 月的博客中特別致敬了日本用戶的創造力("Remarkable creative output of Japan")。日本繁榮的 ACGN 文化與 AIGC 具有天然的親和性,AI 工具極大放大了同人二創愛好者的想象力。
除了社交與短視頻,一些傳統 C 端場景也在 AI 驅動下煥發新生:
- 聊天軟件:25 歲的陳春宇在舊金山創立了聊天應用 Intent。針對美國少數族裔跨語言交流的痛點,該產品利用大模型實現了 “默認全局翻譯” 的絲滑體驗,解決了過去通信工具門檻過高的問題。
- 語音輸入:盡管系統自帶功能普及,但 Typeless 等新產品憑借更精準的識別與語境理解脫穎而出。它能將語音內容一鍵轉化為郵件、推文等多種風格,并支持通過語音指令局部修改文本,帶來了遠超傳統工具的舒適感。
陳冕曾預言,26 年將是非效率類 AI C 端產品爆發的元年。工具屬性之外,更具情感價值、娛樂價值與交互深度的新產品或許即將出現。
AI 科學家
應用的最后一部分,談談 AI for Science。
在《晚點聊》第 140 期中,深勢科技(DP Technology)的兩位創始人張林峰與孫偉杰完整講述了他們親歷的、用 AI 加速科學發現的發展脈絡。這是一個在大語言模型熱潮之前便已開始的方向,深勢的經歷恰好涵蓋了該領域的幾種核心探索:
- 加速第一性原理計算、生成式 AI
2016 年前后,張林峰在普林斯頓讀博期間的一個研究是,利用機器學習簡化量子物理的第一性原理計算,這些計算有確定的物理公式:薛定諤方程(Schr?dinger Equation)、密度泛函理論(DFT)和分子動力學方程等,對生化環材領域至關重要。但以往的難點在于計算復雜度極高,難以從微觀尺度跨越到介觀或宏觀尺度(從單個分子到整體材料屬性)。張林峰當時開發的 DeePMD,就是通過機器學習找到了一種在不損失精度的前提下大幅提升計算效率的方法。深勢科技隨后據此推出了藥物研發計算平臺 Hermite。
另一種路徑,是利用深度學習與生成式 AI 解決特定科學問題,典型代表是獲得諾貝爾獎、用于預測蛋白質結構的 AlphaFold,深勢也有同一方向的模型 Uni-Fold。
- AI 發明家:技術的自我繁殖
隨著大語言模型走向成熟,能夠覆蓋完整科研流程的科研 Agent 成為新趨勢。這不僅包括針對物質科學的科研——支持從文獻研究、提出假設、設計實驗到驗證假設的全流程自動化,還指向一個更特別的方向:用 AI 提升 AI,讓 AI 承擔人類研究員的工作。
這種 “左腳踩右腳” 的演進方式,契合了經濟學家布萊恩·阿瑟(W. Brian Arthur)在《技術的本質》一書中的核心觀點。阿瑟認為,技術具有自我繁殖的特性,由兩股力量交織推動:
- 供給端: 現有技術通過新組合產生新技術。舊技術基數越大,組合的可能性就越多;同時,觀測技術(如顯微鏡、傳感器)的發展加速了對新物理現象的捕獲。
- 需求端: 新技術的需求不僅來自人類,也來自技術本身。每種技術的出現都會伴隨改進它、降低其成本或解決其衍生問題的需求。
《技術的本質》一書寫于 2009 年,當時作者說:技術的自我進化是通過 “人類發明家” 這一中介實現的。而現在,我們可能正處于 “AI 發明家” 誕生的前夜。這將是一個信息廣度、計算能力遠超人類個體,且能不眠不休進行迭代的系統。
面對這種指數級的進化速度,一個問題是:我們做好準備了嗎?如果技術即將脫離人類中介自主進化,我們該如何提前設計與之共處的方式?
題圖來源:《少年派的奇幻漂流》
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.