(點擊收聽本期音頻)
![]()
采訪|泓君
圖文|泓君 朱婕
兩年前《硅谷101》在播客里聊大模型的時候,大家的普遍感受還是"有意思,但不好用"——幻覺、慢、貴,總覺得離真正的生產力還差那么幾步。
2026年,變化比想象中來得更快。阿里云千問大模型業務總經理徐棟告訴《硅谷101》,一個五六人的小團隊現在用AI一天能生成6000條廣告視頻,成本壓到10元以下,低于市場售價20至50元——商業閉環已經跑通了。AI漫劇也在爆發,國內短劇市場規模已經超過電影市場,視頻生成模型正從5秒進化到15秒,年底有望突破1分鐘。
成本端的變化更加劇烈。徐棟分享了一組數字:千問的推理成本正以每半年接近10倍的速度下降,推理速度從30-50 TPS飆升到80-100+,首包延遲從2秒降到500毫秒。他說,今天端側4B的小模型,能力已經超過兩年前最大的閉源模型,70%以上的通用任務可以在手機和車機上本地處理。
2025年被很多人稱為"AI應用元年"。如果說前兩年的關鍵詞是"模型能做什么",那今年所有企業都在問同一個問題——用AI,到底劃不劃算?
本期播客,《硅谷101》邀請了阿里云千問大模型業務總經理徐棟、影石Insta360研究院總監亓魯教授、語憶科技聯合創始人兼CEO呂瀛杰,一起拆解大模型在商業前線"開荒"的邏輯、成本和隱藏關卡。
![]()
歡迎關注《硅谷101視頻號》的音頻欄目直接收聽本期播客。如 果 你喜歡我們的 節目,更推 薦大家使用 音頻客戶端來收聽,《硅谷101 》已覆蓋各大 主流音頻 平臺(渠道見文末),歡迎訂閱!
以下是這次對話內容的精選:
01
模型的技術進步與商業化
泓君:很開心你能來做客我們的播客,因為在2025年底到2026年初,大家討論最多的一個是AI Agent,還有一個就是AI應用,真的開始走進大家的生活了。今天很開心請你能跟大家聊一聊大模型在商業化方向的一些趨勢。在此之前,你要不要先簡單介紹一下你在阿里的工作,以及你主要負責什么?
徐棟:阿里做大模型時間比較久了,最早的模型可以追溯到2021年左右。首先有一個在海外尤其有名的模型叫千問,英文名叫Qwen。在開源領域,它已經是一個體量非常大的模型,很多北美公司也會用它作為基座模型。它代表的是我們的語言模型,我們會用它去挑戰AI的智慧,看看它能不能用更多工具、進入更多生產環節。這是我們非常主力的一個模型。
第二個是視覺生成類的模型,叫萬相,英文名叫Wan,它可以生成圖片、視頻,也能做圖片和視頻的編輯,同時也有成為未來世界模型的范式的可能性。最近三個月我們重點發布了2.5的preview版和2.6版,在視頻創作方面收到了很多新反饋。
第三個基礎模型是去年云棲大會發布的Fun,一個純音頻模型,它涵蓋ASR、TTS,也包括聲音克隆。我們在這個模型上追求更擬真、支持多語言、不同方言和口音,讓它能更好地理解和表達。
我們的模型還是比較結構化的。在這幾個基座模型基礎上,我們開始與很多客戶交流合作,包括制造業、實體企業、品牌商,還有很多互聯網公司。但最近一年,我的感受是出現了大量AI Native公司,它們通過模型取得了不錯的成果,在很多碎片化的市場里實現了非常好的ROI。
泓君:你剛剛提到了幾個大模型。你覺得過去2025年,模型技術最重要的進化是在哪幾個方向?
徐棟:最近半年進化特別多。以“萬相Wan”為代表的視頻生成模型,如果類比GPT-3.5到4的狀態,我認為它已經達到了GPT-4的水平。過去視頻生成模型更多用于特效、娛樂,但現在它可以進入生產領域,比如最近很火的AI漫劇,增長速度非常快,還有自動化生成廣告視頻。很多15秒的切片廣告已經開始自動化生成,形成完整管線,可能五個人一天就能生成6000個視頻,這是一個非常明顯的趨勢。
從技術角度看,有幾個特點很有意思:
第一,生成時間變長了。視頻生成從過去的5秒、10秒,進入15秒時代,未來可能到一分鐘,這樣內容連貫性會更好。
第二,鏡頭語言更豐富。模型可以切換不同鏡頭,調整光影效果,接近專業影視級能力,用戶通過簡單提示詞就能實現。
第三,角色一致性保持
(Carry)能力。這是受Sora2啟發,在角色扮演中,保持人物、物體、背景、音色的一致性,也就是“保ID”,讓后續創作有更好延展空間。
簡單來說,我們希望從15秒進一步延長生成時長,目前我們已經做到國內最長的視頻生成模型;讓鏡頭切換、光影變化這些原本需要專業導演、攝像、美術協作的能力,現在通過模型門檻大大降低;最后,角色扮演,保持一致的能力,我相信會成為未來所有視頻生成模型的標配。
![]()
萬相模型生成的AI動漫 圖片來源:萬相Wan
泓君:角色扮演具體是指什么?
徐棟:舉個例子:你可以用手機自拍一段5秒鐘視頻,抬頭或轉頭,說幾句話,類似試鏡。模型輸入這段視頻后,可以對人物形象和聲音進行“保ID”,后續創作中這個形象和聲音可以被復刻出來。
泓君:也就是說以后只需要真人出鏡5秒,后面的內容可以由AI生成、模型化運作。
徐棟:對,這意味著生成內容的可控性更高。以前可能依賴抽卡
(隨機生成),現在可以在輸入端提供更多參考維度,在動漫創作領域其實挺多的,以前是參考圖,現在開始參考視頻。
泓君:你剛剛提到,比如五個人一天可以生成6000個視頻,AI漫劇也比較火了,你覺得基于模型能力提升,你看到哪些比較好的商業化案例或應用?
徐棟:國內短劇市場已經超過電影市場。在視頻宣傳方面,很明顯短劇從原來的真人拍攝或大量人工編輯,開始有一定比例轉向AI生成。最近最火的是漫劇,它從動態漫發展過來的,劇情連貫,商業化能力強,已經成為與AI結合的一個典型。
泓君:像短劇市場、AI生成短劇、真人IP短劇,還有批量生成AI廣告,大家最關心的問題是,用AI做的成本和用人做的成本分別是多少?廠商在考慮接入模型時看重什么?
徐棟:現在按品質分為S級、A級、B級。一部短劇,如果成本合理,AI可能能做到2萬元以下,加上投流和ROI計算,有可能打正或實現不錯收入。如果對精品要求更高,需要投入更多后期制作資源,成本會更高,但劇集品質也會更好。
廣告方面,15秒視頻的AI成本可以控制在10元到15元以下,在市場上有比較好的商業空間。一般來說,一個合格的15秒廣告市場價在25元到50元之間,這樣就形成了較好的商業循環。
![]()
萬相模型生成的AI短片 圖片來源:萬相Wan
泓君:這個成本確實挺低的。阿里有淘寶電商生態的,是這些電商賣家在用AI做廣告嗎?
徐棟:這個結構是比較復雜的。現在每個流量平臺會給廣告主或代理公司一定的編輯能力,以匹配其平臺。廣告主自己也有大量素材,可能是自己做的,也可能是第三方代理公司做的。在廣告生成方面,有可能是代理公司做,也可能是代理公司分包給AI Native的創業公司做。這類創業公司越來越多,它們將萬相和千問模型結合成管線,形成剛才說的五六個人一天生成6000個廣告的能力,再交給代理公司或流量平臺的廣告組。
泓君:挺有意思的。這是視頻生成模型方面。你們還有音頻生成模型和千問模型,你覺得另外兩個模型在2025年有哪些進步和突破?
徐棟:語言模型正在發生持續而深刻的變化,雖然我們很難再看到一個巨大的范式上的改變,我簡單說一下我們在做的事情。
第一,高質量數據集越來越少,大家都在精耕細作,通過調整數據順序、角度,提升模型知識學習效率,使模型在一些corner case
(邊緣案例)上表現越來越好。
第二,模型結構會越來越稀疏,多Token預測
(MTP)等技術在不同模型中實踐,速度會更快,甚至成倍提升。未來首包響應可能從2秒縮短到500毫秒都是有可能的,TPS可能從30-50提升到80-100以上,在性能要求高的場景下表現就會變得非常棒。
其實大家也可以從機器吞吐角度來去理解,模型稀疏化后,推理成本也會下降,可能以一個量級下降。
此外,指令遵循能力、Agent能力(尤其是工具調用)、上下文長度等都在持續迭代。疊加coding能力提升,未來可能會出現大量連續運行的Agent,它不像今天的Chatbot那樣,馬上給我個結果,而是能利用閑時計算資源做AI for science研究或生成深度報告,這背后它可能調用檢索引擎、CRM、ERP等工具。如果它會用了這么多工具,我們相信輸出質量一定會比純文本模型更好。
泓君:你講了很多基礎模型在細微點上的提升。去年我們追蹤大模型和Agent發展趨勢時,注意到2025年是AI從模型走向應用的關鍵一年,Agent大爆發,中國應用創新尤其活躍。為什么是去年這個時間點?是因為模型基礎能力提升,還是有其他關鍵點推動?
徐棟:第一是推理能力。2024年底OpenAI推出o1后,模型不再依賴所謂的概率,開始表現出邏輯偏好,這是我覺得是非常根本性的改變。
第二是模型規模變大,原本存在的挑戰是你訓不動它,但通過預訓練改進,模型變大的同時可控性也提高了,復雜指令能力越來越強。以前依賴確定性的workflow,但現在模型指令遵循和理解能力增強,只要有準確上下文,就能在泛化性和準確性之間找到平衡。
第三是工具調用
(Tool Use)。隨著Claude Skills、MCP等標準逐漸被大家接受,越來越多工具顯性化,今天的模型開始跳脫了輸入輸出窗口,開始進入更多生產環節。這個環節可能不是一個框,而是一個標準的SaaS流程或硬件交互方式。
泓君:我注意到剛剛結束的CES展上有一個趨勢,所有產品都想與AI搭上關系,比如耳機、智能眼鏡、剪輯拍攝工具等。今年有很多中國客戶參展,背后也有千問大模型的影子。你能否聊聊,在AI硬件產品中,大模型扮演什么角色?
徐棟:模型與硬件結合不是新鮮事,早在十年前,ASR、CV模型都與硬件有關,但商業價值不大。這一次,我覺得最重要的是,模型變得更擬人,可以執行更多任務了。以前只能識別,現在能聽懂、看懂,給出你想要的結果。今天通過千問App,你可以通過自然語言直接訂咖啡、訂座位等。如果是眼鏡,通過自然語言完成這些任務,就跟過去是很大的區別。這背后離不開語音、視覺理解和文本模型。
泓君:通過眼鏡訂咖啡已經實現了嗎?
徐棟:準確說,早就實現了。千問App通過自然語言可以點咖啡、完成商業閉環,全部在一個基于大模型的架構里面去完成。我剛剛試過,它會生成卡片,如果大模型操作界面和原來App一樣,可能會有挑戰,推薦咖啡時會考慮距離、偏好、歷史選擇,因為戴眼鏡時希望AI懂我、有記憶,這樣更方便。你可以切換,點開就是完整菜單。
![]()
圖片來源:千問APP發布會
泓君:我們可以看看未來這類應用的發展情況。今天我們主題是大模型商業化,你能否整體介紹一下阿里千問是如何商業化的?
徐棟:做大模型與做云的最大區別是,云的覆蓋是比較慢的,最早是手游,慢慢覆蓋到金融和制造業。大模型這一波的改變是全行業覆蓋,每個行業都在用,只是滲透率不同,我們從兩個方向看:
第一,模型與企業結合,提升企業生產力。企業內部有很多流程和角色,大模型可以在設計、編程、研發、銷售等環節發揮作用。
第二,產品與大模型結合。很多互聯網公司和消費電子硬件天然與用戶交互,經過大模型改造后,交互體驗發生很大變化,產品定位發生根本改變,所以我們與之有深入合作,不僅限于云上合作,像一些手機和車廠有低延時和本地化需求,我們發布了Omni模型(4B參數),他們對這類端側模型很感興趣。
泓君:這是類似賣端側模型嗎?
徐棟:是。這個場景更多針對算力較強的手機廠商和車廠,畢竟涉及功耗、發熱等問題。經過兩三年打磨,很多車廠和手機廠開始考慮端云結合架構。因為需求越來越旺盛,僅靠云模型不夠,我們今天已經進入到一個深水區了,端云模型結合,都成為大家關心的話題了。
泓君:從消費者視角看,未來每部手機甚至每輛車都可能具備智能化交互能力,變得很智能,它是一開始就嵌入到手機里的。
徐棟:對,智能設備是每個人的貼身入口,涉及隱私、高時效性任務,所以一些硬件廠商的規劃里就會考慮這些因素。
泓君:我們把比如Omni的這個模型,放到一個手機或者是一個車里,它有一些任務是在云上處理的,會接入阿里云,還是客戶自己的云?
徐棟:絕大部分企業,基本上都在阿里云上面提供這樣的云服務,通過MaaS服務平臺“百煉”直接與設備交互。這個平臺的核心要求就是高并發、低延時、可觀測,支持鑒權管控,是一個相對完整的平臺。可以理解為絕大多數企業通過這個平臺連接業務。
泓君:什么場景可以直接在端側處理?什么場景移到云上?端側跟云,大概會占到一個什么樣的比例?
徐棟:這是動態變化的。現在端側模型效果比兩年前的百B模型還好,現在只要一個4B的模型可能就效果發生改變。通用類任務、基本交互任務、語音和視覺理解,七成以上可以由端側模型較好地去解決了。
泓君:客戶與阿里合作時,最關心什么問題?
徐棟:這是一個變化過程。最早關心的是效果,因為模型效果還不夠好,客戶會提很多垂直任務,構建評測集。最近半年到一年,客戶從效果轉向性能和成本。因為我們的模型體量增長了幾十倍,客戶也進入了嚴肅的生產環節,模型效果基本得到驗證了。
客戶關心TPS、首包延時,甚至精細化到4K輸入和10萬輸入,有分別不同的TPS跟首包的要求。
有些業務有高并發需求,比如智能外呼,半小時內完成10萬通電話,對并發要求很高。
最后是成本,當使用量增長幾十倍、上百倍后,成本勢必成為客戶非常關心的話題。像一開始說到的視頻生成模型,目前還比較貴,如果客戶要批量生成自動化的廣告,他對成本訴求也會進一步提高。
泓君:聽起來客戶對行業理解已經很深,知道什么場景用小模型,什么場景用大模型。我感覺行業商業化已經不是起步階段,大家開始提出具體需求,對垂直細分和精細化程度有了更多的考量。
徐棟:是的,最近小模型需求特別多,重復性的任務,用小模型會更有性價比。意圖理解、意圖抽取等場景,很多企業的Chatbot或Agent第一步就是對用戶的理解和判斷,這方面小模型需求也很多。中小模型的post-training
(后訓練)或fine-tuning
(微調)需求最近三個月開始越來越多,客戶希望基于閉源模型混合自己的數據,訓練出適合他的小模型。
泓君:成本是大家非常關注的。從阿里角度看,推理成本降了多少?
徐棟:推理成本基本上每半年下降近一個量級(十倍)。成本下降受多個因素影響:
第一,模型結構稀疏化、混合精度、MTP等技術的應用。
第二,芯片與模型的垂直一體化設計帶來潛在紅利。
第三,調度優化,提高利用率。我們通過不同模型切換、時間段任務切換、夜間跑批任務等,帶來了利用率的提升。利用率非常高的話,成本就會下降。
補充一個具體案例吧,2025年底我們發布了Qwen3-Next,一個80B參數、3B激活的模型,稀疏比很高,相信很多開發者已經試過了,它的推理效率、效果和速度都有很大提升。
泓君:除了模型結構和算法,芯片設計和軟硬一體化對推理成本下降非常有幫助。谷歌TPU早期推理成本是OpenAI、Anthropic的十分之一,就是因為它是根據模型算法專門去設計的。
徐棟:所以我們看阿里巴巴的科技板塊,有云、有模型,有芯片的投入,三位一體,聽起來和谷歌有點接近。垂直一體化的好處很多,不僅是芯片和模型,還涉及到云,比如剛剛說的調度優化,就是跟云相關的。
泓君:我注意到你們是全球最全面的開源大模型,當時為什么決定開源?
徐棟:2023年8月前后,我們的7B模型得到非常大的市場反饋,基于這個模型,我們打開了全球格局。千問和萬相在海外社區活躍度很高。開源有幾個好處:
第一,增強人才吸引力,很多頂尖科研工作者或學生在學校就開始用千問模型,對其特性很了解。
第二,社區反饋幫助我們快速迭代,早期的時候非常明顯,社區里面包括推理框架、推理引擎,甚至端側部署等開發者圍繞生態幫我們做建設,提出的數據集和失敗案例問題,對我們模型快速迭代的幫助非常多。
我們在開源這塊是投入非常大的,國內外企業幾乎沒有開發者不知道千問,企業內部或多或少都會用到千問的一些能力。尤其是我們開過小參數模型,如1.5B、3B以下,我們還有一個最“甜點”的模型是32B(單顯卡可運行),在企業中有大量應用。
![]()
圖片來源:Hugging Face
泓君:開源和閉源,你們怎么做商業化平衡?客戶拿到開源模型就可以免費用,閉源模型是有商業化收入在里面的。
徐棟:首先,阿里云是一家云公司,開源對我們云業務的帶動非常明顯,形成了商業化的正循環。第二,開源模型在發布時是離線版本,我們會在API版本(閉源)會進行修正和能力提升。很多開源生態用戶也希望使用更簡單易用、并發更高的MaaS服務。另外,開源模型考慮開發者易用性,參數不會太大。我們最大的模型千問3 Max沒有開源,因為部署成本很高,有需求的客戶會選擇千問3 Max。
泓君:2025年春節前后,DeepSeek發布開源模型,讓中美眼前一亮。你覺得他們的發布對阿里有沖擊嗎?包括商業化方面。
徐棟:市場還處于中早期階段,更多模型公司推動技術進步是最重要的。他們的論文清晰有參考意義,對整個行業是很好的推動。開源后反而帶動了開源生態活躍,讓千問開源得到進一步發展。千問從0.5B到235B版本跨度大,企業不同場景都可以用到,更新節奏快,基本上我們一個月發三個小版本,三個月到半年發五個左右的大版本。這是一個相互促進的過程。
泓君:今年大家討論如何衡量應用是否火爆,行業常用方法是看用了多少Token。你覺得未來如何評價大客戶或火爆應用?Token量是合理的評估指標嗎?
徐棟:我認為階段性有參考意義,很多公司用Tokens衡量創業估值,但長期來看,一定會回歸到收入,不一定是Token直接帶來的收入,也可能是封裝成Agent的收入。我們內部探討Model As Service
(模型即服務)和Agent As Service
(智能體即服務)。Tokens有一些弊端,比如最小模型和最大模型的成本、收入可能差1000倍,商業價值也會有很大不同。再比如說多模態,語音模型和文本模型的Token度量衡也沒有清晰地統一起來。但Token依然是目前觀察業務使用量的較好指標,我們比較關注。
泓君:Model As Service
(模型即服務)和Agent As Service
(智能體即服務),有什么區別?
徐棟:Model As Service強調的是模型的服務能力,比如你能不能時刻推出最新的模型、你的API應用性是否足夠高,包括實時API、跑批任務等,這些都是它衍生出的很多產品的用法。
Agent As Service可能按場景或行業劃分,它可能用到多個模型,最后封裝出標準的任務結果給客戶使用,比如Deep Research就是一種智能體即服務能力。
泓君:你覺得現在大家在大模型研發上的投入還多嗎?我指的是基礎大模型最前沿的、性能最高的、再把模型推向極限的模型研發。我的感受是,現在大家也關注模型進化,但討論熱度不如商業化高。
徐棟:這可能是一個小的反共識,或誤區。從模型角度看,我覺得模型研發投入反而變大了。市場上每家公司、實驗室都說自己缺算力,這意味著他們的工作結果可以被定量衡量的,這是一個高度競爭的過程。只是它可能不像過去那么顯性,比如突然推出o1模型,它具有推理能力了,或者突然有了Nano Banana,它可以做編輯了。現在模型進入精耕細作階段,可能沒有太多極端的范式上的改變,但是有大量工程細節需要推敲。所以為什么成本在以量級下降?就是因為可以做的工作太多了,比如數據清洗、評價標準等,過去用規則,現在可以用模型,有大量細節工作可以做。
![]()
圖片生成質量在4個月里的進化 圖片來源:千問Qwen
泓君:現在模型研發主要表現在哪些方向?剛才我們講到了多模態是大家關注的重點,去年Agent大爆發,比如在Coding Agent方面,Anthropic和硅谷幾家大的模型廠商在代碼提升方向放了更多數據配比和優化。你覺得未來行業趨勢中,大家的模型研發在拼哪些方向?
徐棟:籠統講是Agentic能力。Agent或者Agentic這個詞,每個人定義都不一樣。從結果表現看,我期待的是一個模型能連續運行兩個星期,并拿到好結果。在這個過程中,它需要與環境不斷交互,它需要自己做思考判斷和假設。這樣的模型結果一定會是非常棒的。回到一開始講到的語言模型的投入方向:工具調用能力、上下文能力、復雜指令遵循能力、推理能力。這些能力不斷提升,組合起來會帶來實際業務落地的很大改變。
泓君:所以主要是精耕細作,而不是在模型智能上?
徐棟:對,這取決于智能的定義。如果智能可以打分,這些精耕細作都是讓智能分數越來越高。
02
從全景理解到自動剪輯
泓君:亓教授先來講一下,你們Insta360的產品是怎么樣跟AI結合的?
亓魯:我們是一家影像公司,使命是讓用戶更好地記錄和分享生活。所以與阿里的合作中,比較典型的是云端自動剪輯。我們希望用戶拍了一天或一整年的素材,能夠智能地剪輯成一條拿得出手或愿意分享的視頻,這對我們公司的戰略非常關鍵。
泓君:影石是我非常喜歡的公司,亓教授您可不可以詳細講一講,你們是怎么用到AI工具在視頻剪輯中的?
![]()
圖片來源:Insta360
亓魯:自動剪輯本身是一件特別主觀、玩法比較多的事情。難點不是把用戶片段拼起來,而是能命中用戶的剪輯意圖。不同人喜好不同:有的用戶在意故事延續性,希望視頻像一部小型紀錄片;有的用戶想要高光瞬間,讓影片節奏更快;還有的用戶注重氛圍和表達,比如配樂情緒、鏡頭語言、轉場風格。
所以我們與阿里的合作主要集中在兩個方面:一個是千問的多模態理解模型,另一個是萬相的視頻生成模型。前者偏感知和理解,后者偏特效生成。
泓君:假設我給AI工具輸入指令:“剪輯我所有從雪山滑下來失敗的瞬間。”它首先要理解語義,其次要在視頻里分析哪些是失敗的瞬間。
亓魯:對。我們的多模態理解負責看懂用戶素材,理解每個片段發生了什么,進一步做高光提取、人物與事件判斷,最后將片段以結構化形式編排,讓素材成為有邏輯、有主線的內容組合。
泓君:你覺得現在整個模型的能力,它能理解到哪一步?能剪輯到哪一步?
亓魯:現在多模態理解在語義層面能滿足一定需求,更大的問題是如何進行用戶意圖識別。用戶意圖可能與素材無關,更多是用戶行為或給出的指示詞。但很多時候用戶自己也不知道如何表達想剪輯成什么樣。這是一個比較大的難點:怎么讓剪輯算法理解用戶到底想要什么。
泓君:就像用戶是不是一個好甲方,能否讓乙方清楚理解意圖。比如“失敗的瞬間”可能不夠,要說“從雪橇上飛出來的畫面”,給出更清晰客觀的定義,是這一步很難嗎?
亓魯:對。如果要求用戶給出清晰定義,那這個體驗也會很差。我們更希望用戶用模糊語句,我們就能理解。這在模型層面還比較難。
泓君:在你們用AI做影片時,推出了哪些具體功能?如何用到多模態的?可以跟大家講一講嗎?
亓魯:影石最核心的產品是全景相機,秉承“先拍后剪”理念:拍攝時用360度全角度覆蓋記錄現場,剪輯時再挑選最佳視角、最合適節奏,把內容講成故事。
全景素材與普通廣角相機不同,是360度全景圖。雖然通用大模型在預訓練階段會用到360度素材,但在海量平面素材面前,全景數據量就顯得很少,導致模型對360度全景素材理解較差。
影石會分為自研和調用API兩部分。我們通過自研的全景理解模型,先對全景素材進行高光提取,這是影石的核心技術壁壘,然后接入通用大模型進行平面內容編排。
泓君:哪部分自研,哪部分調用API?補充一句:從全景相機中提取可用素材,這個需求很硬核,因為你有一個主方向,可能三分之二素材是沒用的。
亓魯:如果是360度素材,即使場景相對單一,加上各種運鏡玩法,也可以讓素材更為生動。我們自研的部分主要是基于全景的多模態理解模型,后面更傾向于用通用大模型幫助理解平面素材。
泓君:比如用戶拍一段三分鐘左右的360度視頻,AI把最有亮點的環節剪出來,大概消耗什么成本?卡在哪?成本下降的核心驅動力是什么?
亓魯:用戶剪一段這樣的素材可能需要十幾塊錢成本,還是蠻貴的。我們希望在技術上解決,包括對模型輸入做更高的信息壓縮,因為全景素材可壓縮率較高。我們更希望結合全景特性,從技術手段上把Token數量壓下來。
03
不止是降本,更是增效
泓君:接下來聊第二個案例,語憶科技如何幫助大型零售公司用AI提升業務能力。呂總,我知道雀巢、寶潔、泡泡瑪特等都是你的客戶。可以先介紹一下你們主要做什么嗎?
呂瀛杰:我們是為國內和跨境消費品牌提供全域消費者洞察分析的、AI ToB的一家SaaS公司。
泓君:可以分享一下你們怎么做AI,怎么與客戶合作嗎?
呂瀛杰:以前,中國消費品電商企業主要運營方式是通過產品買流量直接轉化客戶,非常依賴流量紅利。2023年后,流量紅利見頂,很多頭部企業逐漸意識到要從流量思維進化到“流量+消費者思維”,這就誕生了大量消費者調研需求。
企業在電商領域有很多消費者與客服溝通的數據,很多客戶曾用大模型直接對原始數據進行意圖理解和抽取,但他們自己做準確率連70%都達不到。
我們想幫他們解決這個問題。我們從2021、2022年開始用GPU跑顯卡,做了一個非常垂直的、針對不同行業的消費者意圖識別小模型。客戶希望我們對原始語料打標,打出消費者畫像,并且識別意圖,幫他們搭建意圖識別Agent。
這些畫像不同于傳統投流用的年齡、職業等,而是與產品興趣直接相關,比如一個頭部美妝品牌,希望了解消費者膚質情況、使用產品后的反饋、是否過敏等。
泓君:這些信息怎么收集?我覺得這些信息很有用,比如我買護膚品或化妝品時,覺得選擇太復雜,研究清楚要花很久。
呂瀛杰:比如您買東西時,我們會讓客戶在接待話術中做埋點改造。客戶進線后,客服主動說:“我是您的護膚美妝顧問,為了更好地推薦產品,希望了解您的膚質情況。”這樣改造后,消費者提及率會高很多。
這是一個方向。在處理過程中我們發現幾類意圖:第一類是消費者畫像;第二類是消費者對產品、服務、物流、營銷的反饋(正面或負面);第三類是歸因,舉個例子,一個國內頂級日化品企業,原來有六個員工人工登記退貨原因,對應責任部門,用于績效評定。我們幫他們搭建Agent歸因模型后,現在只有一個人復審。
泓君:你們與這些企業合作,他們用AI有好幾層動力。我們可以一個一個分析,取代客服可能是最常用的AI功能,你覺得效果好嗎?
呂瀛杰:我們不覺得是完全替代客服。客服工作流分售前接待和售后處理。售前接待中,客戶問產品問題,大模型經過知識庫訓練校準后,回答準確率可能比人還要好,非常棒。但客戶的真實咨詢場景更復雜,比如客戶問優惠券,大模型可能直接回答金額,但客戶接著問浙江地區能否參加國補,大模型再調取政策,如果再復雜到怎么湊單最能優惠,這樣延展下去,AI的準確率可能就不夠好。
泓君:在這些環節中,你們與基礎模型如何合作?以千問大模型為例,它們提供哪部分能力?
呂瀛杰:基座模型能提供消費者問題的意圖識別。其次,普遍做法是為客戶搭建AI知識庫,通過大模型識別意圖后,進入下一個工作流,用RAG方式獲取外掛知識庫。此外,大模型對知識庫清洗也有很大幫助,因為企業內部知識可能不是標準化文檔,可能有詳情頁圖片、Xmind工作流等。這么多復雜的知識源,都需要大模型梳理到知識庫中。這也是基座模型能力的重要體現。
泓君:你們選模型時最看重什么?是基座模型能力,還是調用接口?
呂瀛杰:我們的核心是幫品牌做消費者意圖識別理解,所以非常看重基座模型在這方面的能力。我們也有一些跨境的客戶,也有一些多語言的數據,我們測試過國內外模型,發現阿里的千問在電商場景的消費者意圖理解能力還是比較強的。
泓君:你們的位置很有意思:上游是基座模型,你們是中間層,下游連接想應用AI的企業客戶。你覺得這些客戶用AI是為了省成本還是增銷量?是做存量還是增量市場?
呂瀛杰:這是個動態發展的過程。2023年大家探索如何用AI幫助企業時,非常關注降本。但去年市場變化很大,很多企業發現用AI自動化節省一些人工,雖然能打平用人成本,但也沒有帶來特別大的效益價值。2024年下半年開始,越來越多企業想用AI增效,希望AI去幫他們發現深度的產品機會、消費者需求點,或老產品的新場景。
舉個例子,一個國內頂級家電品牌的高端產品線(客單價2萬以上),通過我們提供的AI消費者畫像識別和產品反饋分析,針對客戶功能需求設計營銷賣點、主播話術、客服話術。合作一年半后,整體銷量漲幅23%,高端線產品客單價提高6%以上。因為我們和這一個事業部合作效果很好,2025年他們把我們推薦給整個集團,每個事業部都接入了AI識別模型和SaaS產品、Agent能力。
泓君:像你們這樣一端連模型、一端連客戶的中間服務層,核心競爭力是什么?是對業務的理解深度,還是技術能力?
呂瀛杰:我們兩方面都有。我們會訓練針對不同行業意圖識別的模型,形成自己的數據飛輪。客戶看到的是意圖識別標簽和成品Agent,但我們會留存數據訓練垂直模型,在意圖識別場域越來越準,尤其是對同類目的客戶。
更重要的是,客戶希望我們不僅是技術供應商,還能以行業專家的身份提供行業know-how,比如頭部企業如何應用AI產品,所以我們的客戶成功團隊
(CSM)也會配置不同行業的專家提供服務。
泓君:有個更未來的問題:AI在意圖識別后匹配更精準商品,確實能帶來銷量提升和轉化。那么隨著越來越多行業和大品牌把AI打入工作流和銷售環節,最終所有企業都用上AI后,效果會不會慢慢變弱甚至追平?我們現在是否還在紅利期?
呂瀛杰:這個問題有意思。大家都升級軍火庫后,還有什么競爭力?我認為AI未來的價值核心還是掌握在人手里,看如何使用它。在意圖識別、方向匹配、Deep Research報告生成上,各企業可能大體一致。但最終決策者如何看待這些數據、挖掘AI處理后的洞察,非常看人的洞察能力。最后還是要人找到真正的機會點。
泓君:這個總結特別好。現在是在AI紅利期,越往后歸因,未來真正的好產品才最具競爭力。
呂瀛杰:對。所以好的產品經理、好的伙伴永遠有機會。我再提個題外話:AI對To B SaaS行業在客戶收費意識教育上起到了非常好的效果。以前中國To B企業客戶付費意愿和金額不高,因為他們認為誰都可以做軟件,價值不大。但AI這波影響很大,客戶明確認識到AI按Token計費,用了多少數據量就有相應成本,如果不付錢,就無法提供服務。在付費意識這塊,我們也在朝著美國To B市場同步。
【音頻收聽渠道】
公眾號:硅谷101
收聽渠道:蘋果|小宇宙|喜馬拉雅|蜻蜓FM|網易云音樂|QQ音樂|荔枝播客|嗶哩嗶哩
海外用戶:Apple Podcast|Spotify|TuneIn|Amazon Music
聯系我們:podcast@sv101.net
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.