機(jī)器之心報(bào)道
編輯:Youli
2003 年,美國哈佛商學(xué)院教授克萊頓?克里斯坦森在《創(chuàng)新者的解答》中提出這樣一個觀點(diǎn):顛覆性創(chuàng)新常常通過讓復(fù)雜的產(chǎn)品或服務(wù)變得更簡單、更便宜、更易用,從而讓更多的人能夠參與進(jìn)來……
之后的二十多年里,各路互聯(lián)網(wǎng)先驅(qū)都把這一觀點(diǎn)奉為圭臬,在一次又一次的技術(shù)變革中反復(fù)驗(yàn)證。而進(jìn)入新一輪 AI 浪潮,技術(shù)的發(fā)展像是按下了加速鍵,從架構(gòu)到參數(shù)、從單一語言到多模態(tài)大模型、從基礎(chǔ)大模型到行業(yè)大模型……「卷生卷死」的背后是技術(shù)演進(jìn)曲線的陡峭攀升,產(chǎn)品服務(wù)的層出不窮,而這一觀點(diǎn)仍然適用。
對于「更多的人」來說,技術(shù)的演變、發(fā)展更像是冰山下的「不可見」,他們更關(guān)心的是冰山上的「可見」:AI 具體解決了什么問題。
這也是各大互聯(lián)網(wǎng)廠商和新的模型玩家創(chuàng)新的出發(fā)點(diǎn)。淘寶是其中的一個典型玩家,具體做法是力求將 AI 功能融入到淘寶應(yīng)用場景的每一個毛細(xì)血管深處,去解決每一個具體的用戶問題。為著這一目標(biāo),淘寶的 AI 技術(shù)團(tuán)隊(duì)不斷發(fā)力。
今年 3 月,淘寶全面升級 AIGX 技術(shù)體系,具備基礎(chǔ)研究、應(yīng)用開發(fā)和產(chǎn)業(yè)化的完整鏈條,覆蓋了 AIGI(索引)、AIGR(推薦)、AIGB(出價(jià))、AIGA(拍賣)、AIGC(創(chuàng)意)、AIGD(數(shù)據(jù))等電商商業(yè)經(jīng)營所需的全部場景。用阿里巴巴中國電商事業(yè)群首席科學(xué)家、技術(shù)總裁鄭波的話來說,「AI 已經(jīng)成為淘寶算法的基因。」
近日,在 CNCC2025 大會上,鄭波首次公開了淘寶全模態(tài)大模型的最新進(jìn)展,并系統(tǒng)介紹了多模態(tài)智能在淘寶 AIGX 技術(shù)體系的研究應(yīng)用。另外,結(jié)合 AI 模型技術(shù)在淘寶應(yīng)用中的實(shí)踐,他認(rèn)為,「狹義 AGI 很可能在 5-10 年內(nèi)到來。」
![]()
以下為鄭波的主題分享內(nèi)容,機(jī)器之心在不改變原意的前提下進(jìn)行了整理。
AI 時代,生成式 AI 將帶來生產(chǎn)力的代際躍升
回望過去幾年,我們一次次被 AI 技術(shù)突破的速度震撼 —— 兩年多以前還在討論 ChatGPT,接著就是今年年初的 Deepseek、Claude Code,再到近期發(fā)布的 Sora 2,AI 技術(shù)的迭代速度之迅猛,仿佛每年都是一個跳躍式發(fā)展的時代。
如果我們將視線放遠(yuǎn),仔細(xì)翻看過去二十多年互聯(lián)網(wǎng)發(fā)展與變遷的「史書」,各種各樣的技術(shù)升級、產(chǎn)品迭代故事案例,其實(shí)都是在圍繞著技術(shù)發(fā)展與商業(yè)變革雙向驅(qū)動的螺旋軌跡演進(jìn)。
![]()
PC 互聯(lián)網(wǎng)時代的關(guān)鍵詞是「數(shù)字基石」,開放式硬件架構(gòu)、圖形化操作系統(tǒng)和軟件生態(tài)重塑世界,門戶網(wǎng)站與搜索引擎推動全民數(shù)字化啟蒙。而就是在這一時期,2003 年淘寶上線,正式開啟中國「電商元年」,并率先在搜索中應(yīng)用機(jī)器學(xué)習(xí)模型,奠定技術(shù)驅(qū)動商業(yè)的基因。
等到進(jìn)入無線互聯(lián)網(wǎng)時代,「時空折疊」成為這一時期的關(guān)鍵詞,智能手機(jī)與 4G 催生移動互聯(lián)網(wǎng)革命,信息流推薦與社交網(wǎng)絡(luò)打破空間限制,而淘寶也正式開啟移動端敘事。2013 年,手機(jī)淘寶實(shí)現(xiàn)雙 11 個性化推薦,推動首頁信息流化,「猜你喜歡」進(jìn)入首屏,并開源高維稀疏框架 X-DeepLearning 等,引領(lǐng)行業(yè)技術(shù)標(biāo)準(zhǔn)。
再之后,從 AlphaGo 戰(zhàn)勝圍棋高手李世石,AI 浪潮興起,到 ChatGPT 開啟大模型敘事,Sora 引入多模態(tài)敘事,再到 DeepSeek 改寫大模型落地新篇章,以及近期 Sora2 的再次重磅來襲,不可否認(rèn),我們正站在一個全新的 AI 時代進(jìn)程中……
如果用一個關(guān)鍵詞來形容,我們認(rèn)為應(yīng)該是「智能增強(qiáng)」。AI 時代以數(shù)據(jù)、模型和算力為引擎,「智能增強(qiáng)」使得人類與技術(shù),第一次可以用「共生」來形容。
更為重要的是,與前兩次技術(shù)革命主要解決連接效率、便捷性的命題不同的是,AI 時代的最大驚喜,應(yīng)該就是生成式 AI 對于生成力的代際提升。其中,「多模態(tài)智能」,正在成為最為關(guān)鍵核心的技術(shù)域,它使得 AI 能夠像人類一樣,綜合理解和生成文字、圖像、語音、視頻,實(shí)現(xiàn)從單一感知到跨模態(tài)推理的飛躍,以及產(chǎn)生交互行為,執(zhí)行復(fù)雜任務(wù)。而這意味著 AI 可以更自然地與人協(xié)作,更好地解決人類生活中的真正實(shí)際問題。
對于淘寶來說,從 2023 年起就開始大力布局 AI,自研多模態(tài)、搜推廣、視頻生成等大模型家族,通用能力已然達(dá)到國內(nèi)第一梯隊(duì)水平。基于全面升級后的 AIGX 技術(shù)體系,AI 萬能搜、AI 試衣、萬相營造、廣告大模型 LMA 等 AI 產(chǎn)品和模型不斷涌現(xiàn)。
我們可以看到,技術(shù)創(chuàng)新驅(qū)動商業(yè)生態(tài)升級,而商業(yè)的海量場景反哺技術(shù)突破,形成「技術(shù)創(chuàng)造價(jià)值 — 價(jià)值反哺技術(shù)」的雙螺旋演進(jìn)。
多模態(tài)智能是淘寶最重要的 AI 技術(shù)域,已在 AIGX 技術(shù)體系「深度應(yīng)用」
今年 7 月,淘寶發(fā)布了一個名為 RecGPT 的百億參數(shù)推薦大模型,實(shí)現(xiàn)了生成式推薦( AIGR )的技術(shù)升級,并全面接入手機(jī)淘寶首屏「猜你喜歡」信息流。可以說,淘寶是業(yè)內(nèi)第一個嘗試用 LLM 能力來「系統(tǒng)化」改造推薦算法的,也就是說,在其他玩家還在布局基礎(chǔ)模型的時候,我們已經(jīng)在思考技術(shù)與場景的緊密結(jié)合,該如何使算法更懂用戶,讓用戶的購物行為更為「絲滑」。
具體來看是這樣,傳統(tǒng)推薦算法通過協(xié)同過濾、深度學(xué)習(xí)等,使用用戶同商品或內(nèi)容的交互數(shù)據(jù),來預(yù)測點(diǎn)擊和成交概率,計(jì)算效率高,適合結(jié)構(gòu)化數(shù)據(jù),但會受到歷史數(shù)據(jù)和冷啟動的制約,還容易陷入「信息繭房」。
生成式推薦算法,則基于多模態(tài)大模型,結(jié)合世界知識,來生成符合用戶偏好的新內(nèi)容或個性化推薦序列。它的創(chuàng)造力強(qiáng),支持多模態(tài)輸入輸出,能適應(yīng)復(fù)雜非線性關(guān)系。
![]()
簡單來說,傳統(tǒng)推薦系統(tǒng)只能匹配現(xiàn)有實(shí)體來進(jìn)行關(guān)聯(lián)和預(yù)測,更適合標(biāo)準(zhǔn)化、結(jié)構(gòu)化的需求;而生成式推薦,能夠跳出原有的數(shù)據(jù)局限,生成新內(nèi)容或動態(tài)策略,進(jìn)行創(chuàng)造和推理,更適合多元化、個性化和發(fā)現(xiàn)性的需求,讓算法更懂用戶。
比如,當(dāng) RecGPT 發(fā)現(xiàn)一些用戶群體從去年 3 月開始持續(xù)購買嬰兒床、1 段奶粉、安撫玩具等商品,就會推斷出該用戶群體可能有寶寶出生。
因此,根據(jù)時間推斷,當(dāng)寶寶可能滿 1 周歲時,系統(tǒng)會主動推薦學(xué)步車、3 段奶粉、早教玩具等適齡商品。而等到「雙十一」期間,系統(tǒng)則會結(jié)合用戶的歷史品牌傾向和店鋪關(guān)注,精準(zhǔn)推薦冬季童裝的優(yōu)惠組合。
之所以能夠做到這樣,是因?yàn)槲覀兊耐扑]大模型 RecGPT 以淘寶百億參數(shù)的多模態(tài)大模型為基礎(chǔ),對 10 萬量級的上下文進(jìn)行總結(jié),理解長達(dá)十年的用戶在淘寶的行為信息,全模態(tài)認(rèn)知數(shù)以億計(jì)的商品信息,再結(jié)合世界知識進(jìn)行推理,為用戶推薦之前沒看過甚至沒想過、但又有潛在需求的商品。
又比如今年 8 月,在有些天文愛好者還不知道 9 月 8 日將會迎來月全食的時候,他們的信息流推薦中已經(jīng)出現(xiàn)了月全食觀測設(shè)備……
![]()
可以說,不同于傳統(tǒng)推薦,RecGPT 更像個貼心的生活小助手。
最新數(shù)據(jù)是,搭載 RecGPT 大模型的推薦信息流,實(shí)現(xiàn)用戶點(diǎn)擊量增長超過 16%,用戶加購次數(shù)和停留時長則提升 5% 以上。
在多模態(tài)生成方面,AIGC 正以前所未有的效率重塑電商場景的內(nèi)容生態(tài)。
我們可以結(jié)合具體的案例來看一下。
商家有一條碎花連衣裙,且只有一張普通的平鋪照片,以往情況下,在商品頁面也只能這樣展示,但現(xiàn)在不同了。僅基于這樣一張照片,系統(tǒng)便能夠匹配生成一個虛擬模特,之后生成多張模特穿著此連衣裙,在不同場景的擺拍照片。
更進(jìn)一步,視頻生成模型還可將照片生成為視頻片段,并根據(jù)首尾幀生成視頻轉(zhuǎn)場,再生成虛擬模特講解視頻之后,多模態(tài)劇本生成和自動剪輯技術(shù)將全自動的制作出一條完整的「帶貨視頻」,從而大幅降低商家的內(nèi)容制作成本。
![]()
一件普通的連衣裙,可以全自動制作出完整帶貨視頻的背后,便是淘寶自研的專注電商的視頻生成模型 ——淘寶星辰?視頻生成模型。從第一版推出以來,以其懂客戶、懂電商的特點(diǎn)受到廣大商家的歡迎。
此次,我們推出了升級版 ——淘寶星辰?視頻生成模型 3.0,這一版視頻生成模型采用了更緊湊的 16x16x4 時空壓縮 VAE,在大幅增加 DIT 參數(shù)的情況下,保持推理的高效。此外,高品質(zhì)、類別平衡的訓(xùn)練數(shù)據(jù),搭配大幅提升的語義理解模塊,使得模型動作更加靈動,語義更精確,畫面更原生。升級后的版本即將上線淘寶多個電商產(chǎn)品。
![]()
不僅如此,要全自動生成前面的帶貨視頻,需要優(yōu)秀的多模態(tài)模型,一方面要理解圖像和劇本,另一方面要支持音視頻等輸出,這也離不開全模態(tài)大模型「TStars-Omni」的功勞。我們的「TStars-Omni」支持輸入文本、圖像、視頻、音頻,輸出文本和音頻,能夠極大程度對齊人類感官。
- 在 LLM 方面,我們采用 MLA 和 MTP,顯著提升了模型的吞吐,提供了極致性價(jià)比的模型基座;
- 視覺編碼器方面,支持原生分辨率輸入,很好適配了不同尺寸、不同寬高比的圖片理解;
- 音頻理解方面,重點(diǎn)打磨語音識別能力,尤其是電商場景的用戶語音,在中英文混合、方言、背景多樣等方面重點(diǎn)優(yōu)化;
- 語音合成方面,重點(diǎn)優(yōu)化情感合成、音色克隆等能力,打磨特色音色,應(yīng)用到廣告短視頻配音等業(yè)務(wù)。
此外,基于 TStars-Omni 模型,我們打造了全面的商品理解,輸入商品的所有多模態(tài)信息,包括標(biāo)題、圖片、屬性、詳情頁圖文等,可以生成商品各方面的理解,并進(jìn)行深度推理。
比如,當(dāng)用戶分別輸入一張冰箱和廚房的平面圖后提問:「我可以把這個冰箱放進(jìn)我的廚房嗎?」TStars-Omni 模型就會對圖片進(jìn)行分析推理,繼而回答可以還是不可以,如果答案是「無法直接嵌入」后,還會給出相關(guān)的建議和提醒。
接下來,再來介紹一下我們的 AI Agent :iFlow CLI。iFlow CLI 的核心理念是「一個內(nèi)核,多種應(yīng)用方式」:程序員可以把它當(dāng)做 terminal 命令行,也可以作為 IDE 插件,業(yè)務(wù)開發(fā)者則可以通過 Agent SDK 快速集成。這種設(shè)計(jì)讓不同用戶都能找到適合自己的使用方式。
![]()
另外,iFlow CLI 打造了一個開放平臺,真正做到開箱即用。通過內(nèi)置的 Hooks、各種輸出樣式、智能體市場和命令市場,用戶可以直接安裝使用。同時非常安全,從結(jié)果準(zhǔn)確性到權(quán)限管控,讓大家用得安心。更重要的是,iFlow CLI 提供完全免費(fèi)的多款國產(chǎn)模型。
在性能表現(xiàn)上,我們針對國內(nèi)開源模型進(jìn)行了深度優(yōu)化。在多項(xiàng)基準(zhǔn)測試中,iFlow CLI 相比 Claude Code 等工具在使用國產(chǎn)模型的情況下都展現(xiàn)出了更優(yōu)的綜合性能。iFlow CLI 遠(yuǎn)不止于編程,它可以應(yīng)用到廣告創(chuàng)意、學(xué)術(shù)寫作、旅游攻略制定,甚至流程圖繪制等各種場景。關(guān)鍵的一點(diǎn),iFlow CLI 面向個人用戶永久免費(fèi)開放。
綜合以上的分享可以看出,多模態(tài)智能已經(jīng)在淘寶 AIGX 技術(shù)體系發(fā)揮著越來越重要的作用。
![]()
這背后正是淘寶對于技術(shù)發(fā)展與商業(yè)變革雙向驅(qū)動的發(fā)展趨勢的判斷。我們認(rèn)為,面對未來在生活消費(fèi)場景越來越復(fù)雜的任務(wù),用戶需求將呈現(xiàn)跨模態(tài)、具身化演進(jìn),多模態(tài)的理解和生成將成為標(biāo)配,也唯有多模態(tài)智能,才能支撐「所想即所得」的終極消費(fèi)體驗(yàn)。
淘寶一直致力于建設(shè)「萬能的淘寶」,我們也將構(gòu)建全球領(lǐng)先的多模態(tài) AI 能力體系 —— 這不僅是技術(shù)演進(jìn)方向,更是生態(tài)級電商平臺的升級所必需。
更為重要的是,經(jīng)過不斷在自家內(nèi)部場景打磨、驗(yàn)證后,淘寶還想與業(yè)界一同「共享」AIGX 技術(shù)體系的創(chuàng)新能力。
技術(shù)開放與生態(tài)共振
今年 6 月,淘寶正式開源了全新一代強(qiáng)化學(xué)習(xí)訓(xùn)練框架 ROLL(Reinforcement Learning Optimization for Large-scale Learning)。
![]()
ROLL 以用戶體驗(yàn)為核心設(shè)計(jì)理念,專為「高效?可擴(kuò)展?易用」而打造,徹底打通從小模型到 600B + 超大模型的 RL 訓(xùn)練落地路徑,在諸如人類偏好對齊、復(fù)雜推理和多輪自主交互場景等關(guān)鍵領(lǐng)域顯著提升了 LLM 的性能,同時具備超高的訓(xùn)練效率,已在淘寶多個內(nèi)部業(yè)務(wù)場景中應(yīng)用,為業(yè)務(wù)創(chuàng)新提供了強(qiáng)大的技術(shù)支持。
而在 10 月初,我們的生成式預(yù)估訓(xùn)練框架 RecIS 也正式開源,這是一個專為超大規(guī)模稀疏 - 稠密計(jì)算設(shè)計(jì)的統(tǒng)一架構(gòu)深度學(xué)習(xí)框架,基于 PyTorch 開源生態(tài)構(gòu)建,為推薦模型訓(xùn)練,或是推薦結(jié)合多模態(tài)大模型訓(xùn)練提供了完整的解決方案,且已廣泛應(yīng)用在阿里巴巴廣告、推薦、搜索等場景中。
不難看出,淘寶正在逐步將內(nèi)部場景驗(yàn)證后的能力向外部釋放,形成生態(tài)擴(kuò)張動能,從而促進(jìn)整個行業(yè)加快邁向「超級智能(ASI)」時代的步伐,這是整個人類的星辰大海。
從過去兩年多的發(fā)展來看,AI 處理問題的復(fù)雜度每年以 5-10 倍速度增加,而 AI 的錯誤率每年降低 50%,模型 inference(推理)的成本每年也降低一個數(shù)量級。
假如我們把 「超越人類智能」定義為 ASI,把「在多數(shù)開放環(huán)境任務(wù)完成度超過 95% 的人類」定義為狹義 AGI,那么,如果模型能保持這個速度進(jìn)化,狹義 AGI 很可能在 5-10 年內(nèi)到來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.