![]()
文章轉(zhuǎn)載于特工宇宙
2026 年的 AI 領(lǐng)域,會發(fā)生哪些變化?哪些技術(shù)會成為行業(yè)爭奪的焦點?在應(yīng)用層面,又有哪些變量可能徹底重塑市場格局?
模型、應(yīng)用、市場情緒等,每一個細(xì)微變化,都可能成為影響下一輪創(chuàng)業(yè)、投資和產(chǎn)品布局的關(guān)鍵因素。
每到年末,都有許多人站出來總結(jié)過去一年的趨勢、分析未來的可能。但我們相信,最一線的認(rèn)知,一定來自于最一線的大廠、投資人和創(chuàng)業(yè)者。綜合來看,目前大廠里表現(xiàn)最突出的當(dāng)屬字節(jié)跳動;投資最活躍的機(jī)構(gòu)包括紅杉、真格、奇績、藍(lán)馳、五源等;創(chuàng)業(yè)表現(xiàn)亮眼的基本也都是熱門 VC 的被投企業(yè)。
而在最近火山引擎 AI 領(lǐng)航者計劃的活動現(xiàn)場,就把這三個群體集齊了。
沒想到的是,這么多牛逼的年輕創(chuàng)業(yè)者朋友,竟然都在火山加速器。比如 RockFlow、One2X、Chat2Excel、Lessie、影眸科技、ListenHub、Pokee、論論、捏 Ta、馬卡龍等等(文末有名錄)。
在這些國內(nèi)最前沿的投資人和創(chuàng)業(yè)者的交談中,學(xué)習(xí)到了非常多有價值的洞見。于是將大佬們的高密度對談,反復(fù)學(xué)習(xí)后濃縮成了 18 條 insights,整理分享如下。
1
一、模型層
1. 強(qiáng) 化學(xué)習(xí)成為兵家必爭之地。
強(qiáng)化學(xué)習(xí)的算力消耗占比會在未來迅速攀升,其根本原因來自兩個趨勢:一是單任務(wù)的價值正在快速升高,過去客戶只是用 Bot 做些對話、聊天,單任務(wù)價值極低。但如今許多 Agent 已經(jīng)可以端到端完成價值幾塊錢甚至幾十塊錢的任務(wù),使得任務(wù)本身更貴了;第二,這也讓客戶對失敗率的容忍度隨之下降。
在這樣的場景下,要把高價值任務(wù)穩(wěn)定做好,就必須依賴強(qiáng)化學(xué)習(xí),而不是僅靠傳統(tǒng)的監(jiān)督學(xué)習(xí)。但強(qiáng)化學(xué)習(xí)本身遠(yuǎn)比深度學(xué)習(xí)復(fù)雜得多:深度學(xué)習(xí)像一個緊湊的實心球,即便用十萬張卡也仍是一個非常緊湊的體系;強(qiáng)化學(xué)習(xí)則更像一個太陽系,是一個高度組合化、多環(huán)節(jié)協(xié)同的系統(tǒng),因此把強(qiáng)化學(xué)習(xí)真正做好非常難。
于是我們將在 2026 年看到一個明確的矛盾:強(qiáng)化學(xué)習(xí)的需求會爆炸式增長,但其系統(tǒng)復(fù)雜度和調(diào)參難度又會顯著提高,使得“把 RL 做對”成為各大模型公司與云廠商之間的兵家必爭之地。
2. 全行業(yè)的總 Token 用量以每年 5 - 15 倍速度增長。
這個速率還將繼續(xù)持續(xù)可能 4 - 5 年的時間。
3. 語音模型的重要性長期被低估。
在 Twitter、Reddit、以及各類研究論文中,它的存在感都不算高,但它其實是一個典型的「沉默的變革者」。原因非常簡單:第一,在所有“取代人與人交流”的任務(wù)中,語音都是最核心的媒介。我們常說大模型會替代很多職業(yè)、替代很多人與人的溝通,而一旦溝通被機(jī)器承接,語音的比重就會巨大。
第二,如果大模型真的是一個比移動互聯(lián)網(wǎng)、互聯(lián)網(wǎng)本身更大的機(jī)會,那普通人就必須通過手機(jī)和 PC 之外的入口來接入這種能力。在這種新的入口體系里,語音是天然的交互層。所以,即便在 2026 - 2028 年,語音模型可能依舊不會在學(xué)術(shù)界或技術(shù)社區(qū)獲得太高的注意力,但它的戰(zhàn)略價值并不會因此減少。它將深刻影響產(chǎn)品體驗、交互習(xí)慣與入口形態(tài),是一個安靜但力量巨大的變革者。
4. 端到端語音模型將崛起。
但它的關(guān)鍵并不是單純追求低延遲,而是能否解鎖全新的應(yīng)用場景。如果僅僅把 ASR、語言模型和 TTS 串起來,其實已經(jīng)夠用了,但真正決定端到端語音模型流行速度的,是它能實現(xiàn)更豐富的語音情感表達(dá)——比如根據(jù)指令調(diào)整語調(diào)、氣口和情緒,以及能夠端到端調(diào)用工具完成操作。這類能力在傳統(tǒng)三段式系統(tǒng)里難以實現(xiàn)。
需要強(qiáng)調(diào)的是,端到端語音模型不會完全吞并現(xiàn)有的三段式語音架構(gòu),至少在未來兩到三年會并存。原因類似于圖像領(lǐng)域的自回歸大模型和 DiT:雖然端到端模型更智能、更自然,但三段式架構(gòu)依然穩(wěn)定、成本低、適合大量普通場景使用。未來行業(yè)將形成“雙軌制”,高復(fù)雜度、需要強(qiáng)交互和情緒表達(dá)的任務(wù)使用端到端模型,而低成本、標(biāo)準(zhǔn)化的場景繼續(xù)使用三段式系統(tǒng)。
總體來看,端到端語音模型能否快速普及,取決于它能解鎖多少新的交互場景,以及延遲、穩(wěn)定性和成本是否達(dá)到商業(yè)可用水平。
5. 個性化和長上下文記憶將成為關(guān)鍵競爭點。
這不僅影響模型能力,也決定用戶粘性。像 ChatGPT 的記憶功能已經(jīng)顯現(xiàn)其價值,用戶遷移成本高,因為系統(tǒng)能夠理解和保存大量個人上下文。要在這一賽道取得突破,企業(yè)不僅需要繼續(xù)提升模型和功能,更要通過用戶長期使用體驗來增強(qiáng)粘性,使用戶感受到價值提升,而非僅因新功能或 UX 改進(jìn)而遷移。
最終,賽道可能會呈現(xiàn)少數(shù)企業(yè)分割市場的態(tài)勢,而這些企業(yè)將專注于打造越來越懂用戶的智能助手,讓它不僅是工具,更像是一個理解用戶需求、主動提供服務(wù)甚至成為朋友的存在,這是豆包等產(chǎn)品未來希望達(dá)成的目標(biāo)。
6. 未來一年最大的變量,很可能出現(xiàn)在多模態(tài)一致性與多模態(tài)記憶的突破上。
用戶要能更好地表達(dá)與創(chuàng)造,無論是代碼、圖像、3D 還是視頻,只要最新技術(shù)能提高表達(dá)質(zhì)量,他們就會采用。
當(dāng)前多模態(tài)生成仍受制于語言模型的 OC 問題、圖像模型主體不穩(wěn)定、視頻模型的漂移與“做夢感”等一致性缺陷;等這些一致性與組合性問題被解決后,下一個關(guān)鍵挑戰(zhàn)就是如何讓多模態(tài)也擁有真正的上下文理解與記憶管理能力。
現(xiàn)在所有記憶方案都幾乎基于文本對話的范式,而缺乏對視覺、動作、場景等多模態(tài)上下文的可管理記憶。如果未來一年在這方面出現(xiàn)突破,將會對以“創(chuàng)作”、“角色表達(dá)”、“多模態(tài) Agent”為核心的產(chǎn)品形態(tài)帶來極大的變化。
1
二、應(yīng)用層
7. 視頻生成會正式走到舞臺中央。
過去三年,大眾與媒體的注意力大多集中在大語言模型,但從 2026 年開始,普通人最直觀感受到的模型能力變化,尤其是生成視頻。
視頻模型會全面進(jìn)入自回歸大模型的技術(shù)路徑,質(zhì)量和一致性都將出現(xiàn)斷代式的躍升。無論是生圖還是生視頻,在 2026 年都會出現(xiàn)一次質(zhì)變:你會非常明顯地覺得,“2025 年以前的效果怎么都這么粗糙”,而 2026 年的產(chǎn)品會徹底刷新普通人對生成視覺內(nèi)容的預(yù)期,讓生成式視頻真正成為 AI 競爭的主戰(zhàn)場之一。
8. Context 和應(yīng)用將逐漸解耦。
未來,個人上下文(Personal Context)可能會統(tǒng)一到一個賬號或 user ID 下,以便更好地理解用戶的潛在需求,同時必須保障隱私。不同應(yīng)用或功能可以基于同一上下文提供個性化體驗,但應(yīng)用容器不必完全統(tǒng)一。短期內(nèi),短視頻、UGC 內(nèi)容瀏覽或游戲等場景仍需獨(dú)立容器,而底層的 Context Sharing 和 memory 會逐漸跨容器合并。
未來,應(yīng)用容器和上下文、記憶,可能會逐漸解耦。就像 Google 或 Facebook 的賬號登錄系統(tǒng)(Login with Google/Facebook)一樣,第三方應(yīng)用可以調(diào)用這些賬號信息或社交信號,在 超級 ChatBot 中受益于統(tǒng)一的 context memory。這個趨勢是毋庸置疑的:上下文本質(zhì)上是一組 embedding,無論來源是語義信息還是行為特征,都可以被共享。相比過去主要依賴行為特征,現(xiàn)在有了 ChatBot 的語義理解,用戶的意圖和喜好能夠被更精確地捕捉和表達(dá),既能反映影視、閱讀或其他消費(fèi)行為,也可以呈現(xiàn)語言層面的偏好。總之,未來上下文共享將成為增強(qiáng)個性化和智能化體驗的核心方向。
9. 今年最關(guān)注的方向是 Agent。
原因很簡單:娛樂式的 Kill Time 場景誰都卷不過字節(jié),會更看重的是 Save Time —— 讓 AI 真正替用戶把事做完。而要做到這一點,AI 必須具備規(guī)劃、調(diào)用工具、評估結(jié)果、迭代行動的能力,因此 Agent 毫無疑問是行業(yè)公認(rèn)的演進(jìn)方向。它既依賴模型能力的提升,也不僅限于模型本身,還涉及 Context、工具與環(huán)境的協(xié)同,這些都是創(chuàng)業(yè)公司可能做出增量價值的地方。
當(dāng)然,Agent 的成熟是一個十年尺度的過程;現(xiàn)在的 Agent 更像剛?cè)肼毜膶嵙?xí)生,容易搞砸、容易忘、需要返工。但如果三五年后 AI 仍不能接手我們大部分工作,那整個行業(yè)如今投入的資源就顯得站不住腳。畢竟,今天人類所有生產(chǎn)力的上限是 80 億個大腦 × 15 瓦功率,如果 AI 能突破這一物理極限,它就能真正拉動人類整體生產(chǎn)力的提升 —— 正如 Satya 說的,AI 應(yīng)該讓全球 GDP 增長 10 個點。
10. AI 漫劇配音,可能是語音模型可規(guī)模化的切口。
語音模型的發(fā)展與文本模型不同:行業(yè)原本以為 2024 會迎來突破,但等了一年,真正可用的端到端語音模型全球加起來可能不到五個,而且整體質(zhì)量仍明顯不足。語音的未來方向很清晰 —— 更像人、更有情感、更自然表達(dá) —— 但在已有成熟場景(影視配音、視頻解說、短劇、配音工作流)里,今天的模型表現(xiàn)依然很差,真正“可落地”的只有播客類場景稍微可用。
不過也出現(xiàn)了一些新趨勢:語音模型若想真正進(jìn)步,必須像大語言模型一樣找到明確的 PMF。文本模型今年在口語化寫作方向找到了突破,而語音模型目前最有希望的突破點,反而出現(xiàn)在“AI 漫劇配音”這樣的新場景。在這些新內(nèi)容形式里,創(chuàng)作者愿意容忍一定不完美,也愿意為高頻、低成本的語音生成買單,這可能會成為語音模型的下一個可規(guī)模化切口。
11. 未來一年,個性化產(chǎn)品與反饋機(jī)制將升級。
產(chǎn)品端最重要的趨勢是 Personalized Software:從 Lovable 到 Wabi,應(yīng)用正從“服務(wù)開發(fā)者”轉(zhuǎn)向“用戶自己能做軟件”。這背后依賴更強(qiáng)的 Reasoning、Tool Use、Memory 等底層能力。
聊天本身的價值密度太低,未來會是更多動態(tài)界面、小應(yīng)用、mini-app 的交互形態(tài)。但要做到這一點,關(guān)鍵是構(gòu)建一個能持續(xù)獲得有效用戶反饋的環(huán)境。寫代碼與刷視頻都有天然的反饋,但“日常應(yīng)用的好或不好”在歷史上幾乎沒有被系統(tǒng)化收集過,這將影響模型訓(xùn)練和產(chǎn)品判斷的 ROI。
當(dāng) Personalized Software 與更好的反饋體系結(jié)合,明年的 Chatbot 會迎來一次非常大的升級。
1
三、產(chǎn)業(yè)層
12. 整個行業(yè)會變得更加務(wù)實。
從 OpenAI 開始,到各大模型公司乃至創(chuàng)業(yè)者,2026 年的主旋律將是:個性化、記憶、商業(yè)化。
越來越多的應(yīng)用,會圍繞“基于上下文和用戶行為的個性化體驗”來構(gòu)建,讓模型真正理解“每個用戶是誰、在做什么、偏好什么”。與此同時,應(yīng)用也會更強(qiáng)調(diào)效率改進(jìn)與商業(yè)回報,將個性化能力與明確的商業(yè)鏈路結(jié)合起來 —— 既讓模型更貼近用戶,也讓產(chǎn)品更有可持續(xù)的商業(yè)價值。換句話說,2026 年的大模型應(yīng)用世界,將從通用能力競爭,轉(zhuǎn)向個性化體驗競爭。
13. 創(chuàng)業(yè)公司可能的護(hù)城河:Context、Environment、Distribution。
整體來看,當(dāng)智能模型仍是 AI 應(yīng)用提供價值的核心時,創(chuàng)業(yè)公司需要在模型之外構(gòu)建差異化能力,包括三層方向:第一層是 Context,即行業(yè)知識和用戶交互形成的記憶;第二層是 Environment,即為模型提供的工具和操作環(huán)境;第三層是 Distribution,即自己的銷售或分發(fā)渠道。這三層構(gòu)成了短期的差異化優(yōu)勢,也是創(chuàng)業(yè)公司在面對大型模型公司的競爭時可采取的關(guān)鍵策略。
對于 AI 與業(yè)務(wù)結(jié)合的方向,投資人更傾向于尋找那些能夠利用專有數(shù)據(jù)或業(yè)務(wù)知識形成壁壘的應(yīng)用。比如美國的典型案例有 Harvey(AI + 法律)、Mercor(AI + 招聘)、Abridge(AI + 醫(yī)療),這些場景依賴專有或隱私數(shù)據(jù),是模型公司本身難以覆蓋的。
14. AI 創(chuàng)業(yè)者的核心特質(zhì)包括對技術(shù)變化的敏銳洞察力,以及快速學(xué)習(xí)和靈活適應(yīng)能力。
成功的團(tuán)隊能夠把技術(shù)進(jìn)步轉(zhuǎn)化為有吸引力的產(chǎn)品體驗,例如 Manus 團(tuán)隊將 A gentic 和 Coding 技術(shù)應(yīng)用于產(chǎn)品,HeyGen 團(tuán)隊早期預(yù)判生成式 AI 的發(fā)展方向并持續(xù)迭代。創(chuàng)業(yè)環(huán)境變化快、機(jī)會頻繁出現(xiàn),要求創(chuàng)始人持續(xù)試錯、靈活調(diào)整策略,并保持開放心態(tài)。此外,國際市場的理解和用戶行為認(rèn)知也至關(guān)重要,尤其是出海公司不能簡單照搬國內(nèi)模式,需要針對不同市場優(yōu)化產(chǎn)品和運(yùn)營策略。
15. 多模態(tài)和 Context 將無處不在。
在游戲、內(nèi)容生成和智能體驗這三個方向上,行業(yè)正在同時出現(xiàn)幾個清晰的拐點,而它們都指向同一個趨勢:多模態(tài)能力的飛躍疊加更豐富的 Context 獲取。
首先是視覺與視頻生成的質(zhì)變。行業(yè)里關(guān)于“AI Gaming 到了”的呼聲從未斷過,但過去都是偽命題,因為內(nèi)容生成無法滿足實時性、交互性和多樣性的要求。然而隨著多模態(tài)模型的突破,我們第一次看到了真正可供“實時互動”的生成能力。未來一到三年,這類視覺生成模型會成為內(nèi)容行業(yè)與游戲行業(yè)的重大拐點,它們不只是降本,而是把內(nèi)容供給側(cè)直接自動化。
第二個加速因子,是更豐富、更無處不在的 Context。手機(jī)只是第一塊入口:如果豆包可以在手機(jī)里運(yùn)行,自然也可以延伸到冰箱、門鎖、微波爐、床頭燈、車機(jī)乃至線下空間 —— 小米之家那種 Full Environment 的空間級交互。只要容器之間協(xié)同的壁壘夠低、賬戶體系聯(lián)動到位,人就可以被全域理解;各種傳感器(包括手表、家居設(shè)備、環(huán)境感知硬件等)共同生成一個持續(xù)、動態(tài)、細(xì)粒度的 Context 圖譜。
16. 廣告和 Save Time 是 AI 時代的商業(yè)模式。
隨著超級應(yīng)用形態(tài)逐漸成型,商業(yè)模式的演化方向也會隨之發(fā)生變化。首先,廣告依然重要,但會變得更「有機(jī)」:因為當(dāng)系統(tǒng)能精準(zhǔn)理解用戶需求,廣告不再以生硬插入的方式出現(xiàn),而是以真實、有用的內(nèi)容形態(tài)融入決策場景中。雖然單次廣告的收費(fèi)可能下降,但由于轉(zhuǎn)化率更高、觸達(dá)更恰當(dāng),整體商業(yè)效率反而會提升。
另一方面,隨著 AI 極大提升工作效率,人們會開始重新衡量“節(jié)省時間的價值”。當(dāng)一個本需八小時的任務(wù)被壓縮到八分鐘,用戶更愿意為“省下來的時間”付費(fèi),不再像以前那樣只計算幾分鐘的微小時間差。這種躍遷式的時間價值認(rèn)知,會推動付費(fèi)意愿的提升,使 Save Time 成為新的商業(yè)動力來源。從商業(yè)模式來看,也許不會立刻出現(xiàn)革命性的收費(fèi)方式,但“更自然的交易信息呈現(xiàn)”與“更顯性的時間價值付費(fèi)”會成為未來的重要邏輯。
17. 未來,用戶的理想購物體驗最終取決于個人 Context 的完整度。
只要 AI 掌握的用戶偏好、預(yù)算、生活情境足夠密集,它理論上能做到“你會選什么,它就能選什么”。問題從來不在商品信息不全,而在于對人的理解太稀疏。AI 要補(bǔ)齊 Gap,就必須通過“任務(wù)頻次 + 使用深度”不斷積累用戶 context,就像微信因為承載了大量行為,天然比任何電商更懂你。
當(dāng)主動式推薦變成真正的“基于真實意圖的分配”時,體驗上可能就是——你越多地把任務(wù)交給它,它越快變成那個最懂你的人。
18. 開源在 AI 時代格外關(guān)鍵,核心在于三個價值:傳播、共建、和標(biāo)準(zhǔn)化。
在傳播層面,開源天然自帶「Build in public」的病毒式擴(kuò)散效應(yīng),開發(fā)者、KOL 和社區(qū)會自發(fā)參與討論和傳播,遠(yuǎn)勝過閉源時的單向推廣。在產(chǎn)品本身上,由于做的是高度依賴多元輸入、覆蓋面極廣的系統(tǒng),開源能讓全球開發(fā)者自主貢獻(xiàn) PR,快速填充各種上下文來源,加速能力完善,這是閉源團(tuán)隊單獨(dú)構(gòu)建難以做到的。
同時,從更戰(zhàn)略的角度看,開源有助于引領(lǐng)標(biāo)準(zhǔn):當(dāng)一個能力成為生態(tài)共同貢獻(xiàn)、共同采用的基礎(chǔ)設(shè)施,它更有機(jī)會演變?yōu)槭聦崢?biāo)準(zhǔn),而不僅是一家公司的私有方案。
2026 年的大模型行業(yè),正在悄悄換一種敘事。
過去兩年,我們討論的是“能力有多強(qiáng)、參數(shù)有多大、模型有多快”;但走到今天會發(fā)現(xiàn),真正決定未來方向的,已經(jīng)不是單點突破,而是系統(tǒng)的演進(jìn):從強(qiáng)化學(xué)習(xí)的全面崛起,到語音與視頻的集體上位;從個性化與記憶的重新定義,到 Context、工具和環(huán)境共同構(gòu)成的新基建;從 Agent 的逐步實用化,到開源生態(tài)、反饋體系與商業(yè)模型的重新調(diào)整...
這些變化,正成為敲打每一個產(chǎn)品、每一家模型公司、乃至每一位創(chuàng)業(yè)者的現(xiàn)實問題。
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.