<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      應用爆發之年:聊聊模型技術進化與商業化

      0
      分享至

      (點擊收聽本期音頻)


      采訪|泓君

      圖文|泓君 朱婕

      兩年前《硅谷101》在播客里聊大模型的時候,大家的普遍感受還是"有意思,但不好用"——幻覺、慢、貴,總覺得離真正的生產力還差那么幾步。

      2026年,變化比想象中來得更快。阿里云千問大模型業務總經理徐棟告訴《硅谷101》,一個五六人的小團隊現在用AI一天能生成6000條廣告視頻,成本壓到10元以下,低于市場售價20至50元——商業閉環已經跑通了。AI漫劇也在爆發,國內短劇市場規模已經超過電影市場,視頻生成模型正從5秒進化到15秒,年底有望突破1分鐘。

      成本端的變化更加劇烈。徐棟分享了一組數字:千問的推理成本正以每半年接近10倍的速度下降,推理速度從30-50 TPS飆升到80-100+,首包延遲從2秒降到500毫秒。他說,今天端側4B的小模型,能力已經超過兩年前最大的閉源模型,70%以上的通用任務可以在手機和車機上本地處理。

      2025年被很多人稱為"AI應用元年"。如果說前兩年的關鍵詞是"模型能做什么",那今年所有企業都在問同一個問題——用AI,到底劃不劃算?

      本期播客,《硅谷101》邀請了阿里云千問大模型業務總經理徐棟、影石Insta360研究院總監亓魯教授、語憶科技聯合創始人兼CEO呂瀛杰,一起拆解大模型在商業前線"開荒"的邏輯、成本和隱藏關卡。


      歡迎關注《硅谷101視頻號》的音頻欄接收聽本期播客如 果 你喜歡我們的 節目,更推 薦大家使用 音頻客戶端來收聽,《硅谷101 》已覆蓋各大 主流音頻 平臺(渠道見文末),歡迎訂閱!

      以下是這次對話內容的精選:

      01

      模型的技術進步與商業化

      泓君:很開心你能來做客我們的播客,因為在2025年底到2026年初,大家討論最多的一個是AI Agent,還有一個就是AI應用,真的開始走進大家的生活了。今天很開心請你能跟大家聊一聊大模型在商業化方向的一些趨勢。在此之前,你要不要先簡單介紹一下你在阿里的工作,以及你主要負責什么?

      徐棟:阿里做大模型時間比較久了,最早的模型可以追溯到2021年左右。首先有一個在海外尤其有名的模型叫千問,英文名叫Qwen。在開源領域,它已經是一個體量非常大的模型,很多北美公司也會用它作為基座模型。它代表的是我們的語言模型,我們會用它去挑戰AI的智慧,看看它能不能用更多工具、進入更多生產環節。這是我們非常主力的一個模型。

      第二個是視覺生成類的模型,叫萬相,英文名叫Wan,它可以生成圖片、視頻,也能做圖片和視頻的編輯,同時也有成為未來世界模型的范式的可能性。最近三個月我們重點發布了2.5的preview版和2.6版,在視頻創作方面收到了很多新反饋。

      第三個基礎模型是去年云棲大會發布的Fun,一個純音頻模型,它涵蓋ASR、TTS,也包括聲音克隆。我們在這個模型上追求更擬真、支持多語言、不同方言和口音,讓它能更好地理解和表達。

      我們的模型還是比較結構化的。在這幾個基座模型基礎上,我們開始與很多客戶交流合作,包括制造業、實體企業、品牌商,還有很多互聯網公司。但最近一年,我的感受是出現了大量AI Native公司,它們通過模型取得了不錯的成果,在很多碎片化的市場里實現了非常好的ROI。

      泓君:你剛剛提到了幾個大模型。你覺得過去2025年,模型技術最重要的進化是在哪幾個方向?

      徐棟:最近半年進化特別多。以“萬相Wan”為代表的視頻生成模型,如果類比GPT-3.5到4的狀態,我認為它已經達到了GPT-4的水平。過去視頻生成模型更多用于特效、娛樂,但現在它可以進入生產領域,比如最近很火的AI漫劇,增長速度非常快,還有自動化生成廣告視頻。很多15秒的切片廣告已經開始自動化生成,形成完整管線,可能五個人一天就能生成6000個視頻,這是一個非常明顯的趨勢。

      從技術角度看,有幾個特點很有意思:

      第一,生成時間變長了。視頻生成從過去的5秒、10秒,進入15秒時代,未來可能到一分鐘,這樣內容連貫性會更好。

      第二,鏡頭語言更豐富。模型可以切換不同鏡頭,調整光影效果,接近專業影視級能力,用戶通過簡單提示詞就能實現。

      第三,角色一致性保持

      (Carry)
      能力。這是受Sora2啟發,在角色扮演中,保持人物、物體、背景、音色的一致性,也就是“保ID”,讓后續創作有更好延展空間。

      簡單來說,我們希望從15秒進一步延長生成時長,目前我們已經做到國內最長的視頻生成模型;讓鏡頭切換、光影變化這些原本需要專業導演、攝像、美術協作的能力,現在通過模型門檻大大降低;最后,角色扮演,保持一致的能力,我相信會成為未來所有視頻生成模型的標配。


      萬相模型生成的AI動漫 圖片來源:萬相Wan

      泓君:角色扮演具體是指什么?

      徐棟:舉個例子:你可以用手機自拍一段5秒鐘視頻,抬頭或轉頭,說幾句話,類似試鏡。模型輸入這段視頻后,可以對人物形象和聲音進行“保ID”,后續創作中這個形象和聲音可以被復刻出來。

      泓君:也就是說以后只需要真人出鏡5秒,后面的內容可以由AI生成、模型化運作。

      徐棟:對,這意味著生成內容的可控性更高。以前可能依賴抽卡

      (隨機生成)
      ,現在可以在輸入端提供更多參考維度,在動漫創作領域其實挺多的,以前是參考圖,現在開始參考視頻。

      泓君:你剛剛提到,比如五個人一天可以生成6000個視頻,AI漫劇也比較火了,你覺得基于模型能力提升,你看到哪些比較好的商業化案例或應用?

      徐棟:國內短劇市場已經超過電影市場。在視頻宣傳方面,很明顯短劇從原來的真人拍攝或大量人工編輯,開始有一定比例轉向AI生成。最近最火的是漫劇,它從動態漫發展過來的,劇情連貫,商業化能力強,已經成為與AI結合的一個典型。

      泓君:像短劇市場、AI生成短劇、真人IP短劇,還有批量生成AI廣告,大家最關心的問題是,用AI做的成本和用人做的成本分別是多少?廠商在考慮接入模型時看重什么?

      徐棟:現在按品質分為S級、A級、B級。一部短劇,如果成本合理,AI可能能做到2萬元以下,加上投流和ROI計算,有可能打正或實現不錯收入。如果對精品要求更高,需要投入更多后期制作資源,成本會更高,但劇集品質也會更好。

      廣告方面,15秒視頻的AI成本可以控制在10元到15元以下,在市場上有比較好的商業空間。一般來說,一個合格的15秒廣告市場價在25元到50元之間,這樣就形成了較好的商業循環。


      萬相模型生成的AI短片 圖片來源:萬相Wan

      泓君:這個成本確實挺低的。阿里有淘寶電商生態的,是這些電商賣家在用AI做廣告嗎?

      徐棟:這個結構是比較復雜的。現在每個流量平臺會給廣告主或代理公司一定的編輯能力,以匹配其平臺。廣告主自己也有大量素材,可能是自己做的,也可能是第三方代理公司做的。在廣告生成方面,有可能是代理公司做,也可能是代理公司分包給AI Native的創業公司做。這類創業公司越來越多,它們將萬相和千問模型結合成管線,形成剛才說的五六個人一天生成6000個廣告的能力,再交給代理公司或流量平臺的廣告組。

      泓君:挺有意思的。這是視頻生成模型方面。你們還有音頻生成模型和千問模型,你覺得另外兩個模型在2025年有哪些進步和突破?

      徐棟:語言模型正在發生持續而深刻的變化,雖然我們很難再看到一個巨大的范式上的改變,我簡單說一下我們在做的事情。

      第一,高質量數據集越來越少,大家都在精耕細作,通過調整數據順序、角度,提升模型知識學習效率,使模型在一些corner case

      (邊緣案例)
      上表現越來越好。

      第二,模型結構會越來越稀疏,多Token預測

      (MTP)
      等技術在不同模型中實踐,速度會更快,甚至成倍提升。未來首包響應可能從2秒縮短到500毫秒都是有可能的,TPS可能從30-50提升到80-100以上,在性能要求高的場景下表現就會變得非常棒。

      其實大家也可以從機器吞吐角度來去理解,模型稀疏化后,推理成本也會下降,可能以一個量級下降。

      此外,指令遵循能力、Agent能力(尤其是工具調用)、上下文長度等都在持續迭代。疊加coding能力提升,未來可能會出現大量連續運行的Agent,它不像今天的Chatbot那樣,馬上給我個結果,而是能利用閑時計算資源做AI for science研究或生成深度報告,這背后它可能調用檢索引擎、CRM、ERP等工具。如果它會用了這么多工具,我們相信輸出質量一定會比純文本模型更好。

      泓君:你講了很多基礎模型在細微點上的提升。去年我們追蹤大模型和Agent發展趨勢時,注意到2025年是AI從模型走向應用的關鍵一年,Agent大爆發,中國應用創新尤其活躍。為什么是去年這個時間點?是因為模型基礎能力提升,還是有其他關鍵點推動?

      徐棟:第一是推理能力。2024年底OpenAI推出o1后,模型不再依賴所謂的概率,開始表現出邏輯偏好,這是我覺得是非常根本性的改變。

      第二是模型規模變大,原本存在的挑戰是你訓不動它,但通過預訓練改進,模型變大的同時可控性也提高了,復雜指令能力越來越強。以前依賴確定性的workflow,但現在模型指令遵循和理解能力增強,只要有準確上下文,就能在泛化性和準確性之間找到平衡。

      第三是工具調用

      (Tool Use)
      。隨著Claude Skills、MCP等標準逐漸被大家接受,越來越多工具顯性化,今天的模型開始跳脫了輸入輸出窗口,開始進入更多生產環節。這個環節可能不是一個框,而是一個標準的SaaS流程或硬件交互方式。

      泓君:我注意到剛剛結束的CES展上有一個趨勢,所有產品都想與AI搭上關系,比如耳機、智能眼鏡、剪輯拍攝工具等。今年有很多中國客戶參展,背后也有千問大模型的影子。你能否聊聊,在AI硬件產品中,大模型扮演什么角色?

      徐棟:模型與硬件結合不是新鮮事,早在十年前,ASR、CV模型都與硬件有關,但商業價值不大。這一次,我覺得最重要的是,模型變得更擬人,可以執行更多任務了。以前只能識別,現在能聽懂、看懂,給出你想要的結果。今天通過千問App,你可以通過自然語言直接訂咖啡、訂座位等。如果是眼鏡,通過自然語言完成這些任務,就跟過去是很大的區別。這背后離不開語音、視覺理解和文本模型。

      泓君:通過眼鏡訂咖啡已經實現了嗎?

      徐棟:準確說,早就實現了。千問App通過自然語言可以點咖啡、完成商業閉環,全部在一個基于大模型的架構里面去完成。我剛剛試過,它會生成卡片,如果大模型操作界面和原來App一樣,可能會有挑戰,推薦咖啡時會考慮距離、偏好、歷史選擇,因為戴眼鏡時希望AI懂我、有記憶,這樣更方便。你可以切換,點開就是完整菜單。


      圖片來源:千問APP發布會

      泓君:我們可以看看未來這類應用的發展情況。今天我們主題是大模型商業化,你能否整體介紹一下阿里千問是如何商業化的?

      徐棟:做大模型與做云的最大區別是,云的覆蓋是比較慢的,最早是手游,慢慢覆蓋到金融和制造業。大模型這一波的改變是全行業覆蓋,每個行業都在用,只是滲透率不同,我們從兩個方向看:

      第一,模型與企業結合,提升企業生產力。企業內部有很多流程和角色,大模型可以在設計、編程、研發、銷售等環節發揮作用。

      第二,產品與大模型結合。很多互聯網公司和消費電子硬件天然與用戶交互,經過大模型改造后,交互體驗發生很大變化,產品定位發生根本改變,所以我們與之有深入合作,不僅限于云上合作,像一些手機和車廠有低延時和本地化需求,我們發布了Omni模型(4B參數),他們對這類端側模型很感興趣。

      泓君:這是類似賣端側模型嗎?

      徐棟:是。這個場景更多針對算力較強的手機廠商和車廠,畢竟涉及功耗、發熱等問題。經過兩三年打磨,很多車廠和手機廠開始考慮端云結合架構。因為需求越來越旺盛,僅靠云模型不夠,我們今天已經進入到一個深水區了,端云模型結合,都成為大家關心的話題了。

      泓君:從消費者視角看,未來每部手機甚至每輛車都可能具備智能化交互能力,變得很智能,它是一開始就嵌入到手機里的。

      徐棟:對,智能設備是每個人的貼身入口,涉及隱私、高時效性任務,所以一些硬件廠商的規劃里就會考慮這些因素。

      泓君:我們把比如Omni的這個模型,放到一個手機或者是一個車里,它有一些任務是在云上處理的,會接入阿里云,還是客戶自己的云?

      徐棟:絕大部分企業,基本上都在阿里云上面提供這樣的云服務,通過MaaS服務平臺“百煉”直接與設備交互。這個平臺的核心要求就是高并發、低延時、可觀測,支持鑒權管控,是一個相對完整的平臺。可以理解為絕大多數企業通過這個平臺連接業務。

      泓君:什么場景可以直接在端側處理?什么場景移到云上?端側跟云,大概會占到一個什么樣的比例?

      徐棟:這是動態變化的。現在端側模型效果比兩年前的百B模型還好,現在只要一個4B的模型可能就效果發生改變。通用類任務、基本交互任務、語音和視覺理解,七成以上可以由端側模型較好地去解決了。

      泓君:客戶與阿里合作時,最關心什么問題?

      徐棟:這是一個變化過程。最早關心的是效果,因為模型效果還不夠好,客戶會提很多垂直任務,構建評測集。最近半年到一年,客戶從效果轉向性能和成本。因為我們的模型體量增長了幾十倍,客戶也進入了嚴肅的生產環節,模型效果基本得到驗證了。

      客戶關心TPS、首包延時,甚至精細化到4K輸入和10萬輸入,有分別不同的TPS跟首包的要求。

      有些業務有高并發需求,比如智能外呼,半小時內完成10萬通電話,對并發要求很高。

      最后是成本,當使用量增長幾十倍、上百倍后,成本勢必成為客戶非常關心的話題。像一開始說到的視頻生成模型,目前還比較貴,如果客戶要批量生成自動化的廣告,他對成本訴求也會進一步提高。

      泓君:聽起來客戶對行業理解已經很深,知道什么場景用小模型,什么場景用大模型。我感覺行業商業化已經不是起步階段,大家開始提出具體需求,對垂直細分和精細化程度有了更多的考量。

      徐棟:是的,最近小模型需求特別多,重復性的任務,用小模型會更有性價比。意圖理解、意圖抽取等場景,很多企業的Chatbot或Agent第一步就是對用戶的理解和判斷,這方面小模型需求也很多。中小模型的post-training

      (后訓練)
      或fine-tuning
      (微調)
      需求最近三個月開始越來越多,客戶希望基于閉源模型混合自己的數據,訓練出適合他的小模型。

      泓君:成本是大家非常關注的。從阿里角度看,推理成本降了多少?

      徐棟:推理成本基本上每半年下降近一個量級(十倍)。成本下降受多個因素影響:

      第一,模型結構稀疏化、混合精度、MTP等技術的應用。

      第二,芯片與模型的垂直一體化設計帶來潛在紅利。

      第三,調度優化,提高利用率。我們通過不同模型切換、時間段任務切換、夜間跑批任務等,帶來了利用率的提升。利用率非常高的話,成本就會下降。

      補充一個具體案例吧,2025年底我們發布了Qwen3-Next,一個80B參數、3B激活的模型,稀疏比很高,相信很多開發者已經試過了,它的推理效率、效果和速度都有很大提升。

      泓君:除了模型結構和算法,芯片設計和軟硬一體化對推理成本下降非常有幫助。谷歌TPU早期推理成本是OpenAI、Anthropic的十分之一,就是因為它是根據模型算法專門去設計的。

      徐棟:所以我們看阿里巴巴的科技板塊,有云、有模型,有芯片的投入,三位一體,聽起來和谷歌有點接近。垂直一體化的好處很多,不僅是芯片和模型,還涉及到云,比如剛剛說的調度優化,就是跟云相關的。

      泓君:我注意到你們是全球最全面的開源大模型,當時為什么決定開源?

      徐棟:2023年8月前后,我們的7B模型得到非常大的市場反饋,基于這個模型,我們打開了全球格局。千問和萬相在海外社區活躍度很高。開源有幾個好處:

      第一,增強人才吸引力,很多頂尖科研工作者或學生在學校就開始用千問模型,對其特性很了解。

      第二,社區反饋幫助我們快速迭代,早期的時候非常明顯,社區里面包括推理框架、推理引擎,甚至端側部署等開發者圍繞生態幫我們做建設,提出的數據集和失敗案例問題,對我們模型快速迭代的幫助非常多。

      我們在開源這塊是投入非常大的,國內外企業幾乎沒有開發者不知道千問,企業內部或多或少都會用到千問的一些能力。尤其是我們開過小參數模型,如1.5B、3B以下,我們還有一個最“甜點”的模型是32B(單顯卡可運行),在企業中有大量應用。


      圖片來源:Hugging Face

      泓君:開源和閉源,你們怎么做商業化平衡?客戶拿到開源模型就可以免費用,閉源模型是有商業化收入在里面的。

      徐棟:首先,阿里云是一家云公司,開源對我們云業務的帶動非常明顯,形成了商業化的正循環。第二,開源模型在發布時是離線版本,我們會在API版本(閉源)會進行修正和能力提升。很多開源生態用戶也希望使用更簡單易用、并發更高的MaaS服務。另外,開源模型考慮開發者易用性,參數不會太大。我們最大的模型千問3 Max沒有開源,因為部署成本很高,有需求的客戶會選擇千問3 Max。

      泓君:2025年春節前后,DeepSeek發布開源模型,讓中美眼前一亮。你覺得他們的發布對阿里有沖擊嗎?包括商業化方面。

      徐棟:市場還處于中早期階段,更多模型公司推動技術進步是最重要的。他們的論文清晰有參考意義,對整個行業是很好的推動。開源后反而帶動了開源生態活躍,讓千問開源得到進一步發展。千問從0.5B到235B版本跨度大,企業不同場景都可以用到,更新節奏快,基本上我們一個月發三個小版本,三個月到半年發五個左右的大版本。這是一個相互促進的過程。

      泓君:今年大家討論如何衡量應用是否火爆,行業常用方法是看用了多少Token。你覺得未來如何評價大客戶或火爆應用?Token量是合理的評估指標嗎?

      徐棟:我認為階段性有參考意義,很多公司用Tokens衡量創業估值,但長期來看,一定會回歸到收入,不一定是Token直接帶來的收入,也可能是封裝成Agent的收入。我們內部探討Model As Service

      (模型即服務)
      和Agent As Service
      (智能體即服務)
      。Tokens有一些弊端,比如最小模型和最大模型的成本、收入可能差1000倍,商業價值也會有很大不同。再比如說多模態,語音模型和文本模型的Token度量衡也沒有清晰地統一起來。但Token依然是目前觀察業務使用量的較好指標,我們比較關注。

      泓君:Model As Service

      (模型即服務)
      和Agent As Service
      (智能體即服務)
      ,有什么區別?

      徐棟:Model As Service強調的是模型的服務能力,比如你能不能時刻推出最新的模型、你的API應用性是否足夠高,包括實時API、跑批任務等,這些都是它衍生出的很多產品的用法。

      Agent As Service可能按場景或行業劃分,它可能用到多個模型,最后封裝出標準的任務結果給客戶使用,比如Deep Research就是一種智能體即服務能力。

      泓君:你覺得現在大家在大模型研發上的投入還多嗎?我指的是基礎大模型最前沿的、性能最高的、再把模型推向極限的模型研發。我的感受是,現在大家也關注模型進化,但討論熱度不如商業化高。

      徐棟:這可能是一個小的反共識,或誤區。從模型角度看,我覺得模型研發投入反而變大了。市場上每家公司、實驗室都說自己缺算力,這意味著他們的工作結果可以被定量衡量的,這是一個高度競爭的過程。只是它可能不像過去那么顯性,比如突然推出o1模型,它具有推理能力了,或者突然有了Nano Banana,它可以做編輯了。現在模型進入精耕細作階段,可能沒有太多極端的范式上的改變,但是有大量工程細節需要推敲。所以為什么成本在以量級下降?就是因為可以做的工作太多了,比如數據清洗、評價標準等,過去用規則,現在可以用模型,有大量細節工作可以做。


      圖片生成質量在4個月里的進化 圖片來源:千問Qwen

      泓君:現在模型研發主要表現在哪些方向?剛才我們講到了多模態是大家關注的重點,去年Agent大爆發,比如在Coding Agent方面,Anthropic和硅谷幾家大的模型廠商在代碼提升方向放了更多數據配比和優化。你覺得未來行業趨勢中,大家的模型研發在拼哪些方向?

      徐棟:籠統講是Agentic能力。Agent或者Agentic這個詞,每個人定義都不一樣。從結果表現看,我期待的是一個模型能連續運行兩個星期,并拿到好結果。在這個過程中,它需要與環境不斷交互,它需要自己做思考判斷和假設。這樣的模型結果一定會是非常棒的。回到一開始講到的語言模型的投入方向:工具調用能力、上下文能力、復雜指令遵循能力、推理能力。這些能力不斷提升,組合起來會帶來實際業務落地的很大改變。

      泓君:所以主要是精耕細作,而不是在模型智能上?

      徐棟:對,這取決于智能的定義。如果智能可以打分,這些精耕細作都是讓智能分數越來越高。

      02

      從全景理解到自動剪輯

      泓君:亓教授先來講一下,你們Insta360的產品是怎么樣跟AI結合的?

      亓魯:我們是一家影像公司,使命是讓用戶更好地記錄和分享生活。所以與阿里的合作中,比較典型的是云端自動剪輯。我們希望用戶拍了一天或一整年的素材,能夠智能地剪輯成一條拿得出手或愿意分享的視頻,這對我們公司的戰略非常關鍵。

      泓君:影石是我非常喜歡的公司,亓教授您可不可以詳細講一講,你們是怎么用到AI工具在視頻剪輯中的?


      圖片來源:Insta360

      亓魯:自動剪輯本身是一件特別主觀、玩法比較多的事情。難點不是把用戶片段拼起來,而是能命中用戶的剪輯意圖。不同人喜好不同:有的用戶在意故事延續性,希望視頻像一部小型紀錄片;有的用戶想要高光瞬間,讓影片節奏更快;還有的用戶注重氛圍和表達,比如配樂情緒、鏡頭語言、轉場風格。

      所以我們與阿里的合作主要集中在兩個方面:一個是千問的多模態理解模型,另一個是萬相的視頻生成模型。前者偏感知和理解,后者偏特效生成。

      泓君:假設我給AI工具輸入指令:“剪輯我所有從雪山滑下來失敗的瞬間。”它首先要理解語義,其次要在視頻里分析哪些是失敗的瞬間。

      亓魯:對。我們的多模態理解負責看懂用戶素材,理解每個片段發生了什么,進一步做高光提取、人物與事件判斷,最后將片段以結構化形式編排,讓素材成為有邏輯、有主線的內容組合。

      泓君:你覺得現在整個模型的能力,它能理解到哪一步?能剪輯到哪一步?

      亓魯:現在多模態理解在語義層面能滿足一定需求,更大的問題是如何進行用戶意圖識別。用戶意圖可能與素材無關,更多是用戶行為或給出的指示詞。但很多時候用戶自己也不知道如何表達想剪輯成什么樣。這是一個比較大的難點:怎么讓剪輯算法理解用戶到底想要什么。

      泓君:就像用戶是不是一個好甲方,能否讓乙方清楚理解意圖。比如“失敗的瞬間”可能不夠,要說“從雪橇上飛出來的畫面”,給出更清晰客觀的定義,是這一步很難嗎?

      亓魯:對。如果要求用戶給出清晰定義,那這個體驗也會很差。我們更希望用戶用模糊語句,我們就能理解。這在模型層面還比較難。

      泓君:在你們用AI做影片時,推出了哪些具體功能?如何用到多模態的?可以跟大家講一講嗎?

      亓魯:影石最核心的產品是全景相機,秉承“先拍后剪”理念:拍攝時用360度全角度覆蓋記錄現場,剪輯時再挑選最佳視角、最合適節奏,把內容講成故事。

      全景素材與普通廣角相機不同,是360度全景圖。雖然通用大模型在預訓練階段會用到360度素材,但在海量平面素材面前,全景數據量就顯得很少,導致模型對360度全景素材理解較差。

      影石會分為自研和調用API兩部分。我們通過自研的全景理解模型,先對全景素材進行高光提取,這是影石的核心技術壁壘,然后接入通用大模型進行平面內容編排。

      泓君:哪部分自研,哪部分調用API?補充一句:從全景相機中提取可用素材,這個需求很硬核,因為你有一個主方向,可能三分之二素材是沒用的。

      亓魯:如果是360度素材,即使場景相對單一,加上各種運鏡玩法,也可以讓素材更為生動。我們自研的部分主要是基于全景的多模態理解模型,后面更傾向于用通用大模型幫助理解平面素材。

      泓君:比如用戶拍一段三分鐘左右的360度視頻,AI把最有亮點的環節剪出來,大概消耗什么成本?卡在哪?成本下降的核心驅動力是什么?

      亓魯:用戶剪一段這樣的素材可能需要十幾塊錢成本,還是蠻貴的。我們希望在技術上解決,包括對模型輸入做更高的信息壓縮,因為全景素材可壓縮率較高。我們更希望結合全景特性,從技術手段上把Token數量壓下來。

      03

      不止是降本,更是增效

      泓君:接下來聊第二個案例,語憶科技如何幫助大型零售公司用AI提升業務能力。呂總,我知道雀巢、寶潔、泡泡瑪特等都是你的客戶。可以先介紹一下你們主要做什么嗎?

      呂瀛杰:我們是為國內和跨境消費品牌提供全域消費者洞察分析的、AI ToB的一家SaaS公司。

      泓君:可以分享一下你們怎么做AI,怎么與客戶合作嗎?

      呂瀛杰:以前,中國消費品電商企業主要運營方式是通過產品買流量直接轉化客戶,非常依賴流量紅利。2023年后,流量紅利見頂,很多頭部企業逐漸意識到要從流量思維進化到“流量+消費者思維”,這就誕生了大量消費者調研需求。

      企業在電商領域有很多消費者與客服溝通的數據,很多客戶曾用大模型直接對原始數據進行意圖理解和抽取,但他們自己做準確率連70%都達不到。

      我們想幫他們解決這個問題。我們從2021、2022年開始用GPU跑顯卡,做了一個非常垂直的、針對不同行業的消費者意圖識別小模型。客戶希望我們對原始語料打標,打出消費者畫像,并且識別意圖,幫他們搭建意圖識別Agent。

      這些畫像不同于傳統投流用的年齡、職業等,而是與產品興趣直接相關,比如一個頭部美妝品牌,希望了解消費者膚質情況、使用產品后的反饋、是否過敏等。

      泓君:這些信息怎么收集?我覺得這些信息很有用,比如我買護膚品或化妝品時,覺得選擇太復雜,研究清楚要花很久。

      呂瀛杰:比如您買東西時,我們會讓客戶在接待話術中做埋點改造。客戶進線后,客服主動說:“我是您的護膚美妝顧問,為了更好地推薦產品,希望了解您的膚質情況。”這樣改造后,消費者提及率會高很多。

      這是一個方向。在處理過程中我們發現幾類意圖:第一類是消費者畫像;第二類是消費者對產品、服務、物流、營銷的反饋(正面或負面);第三類是歸因,舉個例子,一個國內頂級日化品企業,原來有六個員工人工登記退貨原因,對應責任部門,用于績效評定。我們幫他們搭建Agent歸因模型后,現在只有一個人復審。

      泓君:你們與這些企業合作,他們用AI有好幾層動力。我們可以一個一個分析,取代客服可能是最常用的AI功能,你覺得效果好嗎?

      呂瀛杰:我們不覺得是完全替代客服。客服工作流分售前接待和售后處理。售前接待中,客戶問產品問題,大模型經過知識庫訓練校準后,回答準確率可能比人還要好,非常棒。但客戶的真實咨詢場景更復雜,比如客戶問優惠券,大模型可能直接回答金額,但客戶接著問浙江地區能否參加國補,大模型再調取政策,如果再復雜到怎么湊單最能優惠,這樣延展下去,AI的準確率可能就不夠好。

      泓君:在這些環節中,你們與基礎模型如何合作?以千問大模型為例,它們提供哪部分能力?

      呂瀛杰:基座模型能提供消費者問題的意圖識別。其次,普遍做法是為客戶搭建AI知識庫,通過大模型識別意圖后,進入下一個工作流,用RAG方式獲取外掛知識庫。此外,大模型對知識庫清洗也有很大幫助,因為企業內部知識可能不是標準化文檔,可能有詳情頁圖片、Xmind工作流等。這么多復雜的知識源,都需要大模型梳理到知識庫中。這也是基座模型能力的重要體現。

      泓君:你們選模型時最看重什么?是基座模型能力,還是調用接口?

      呂瀛杰:我們的核心是幫品牌做消費者意圖識別理解,所以非常看重基座模型在這方面的能力。我們也有一些跨境的客戶,也有一些多語言的數據,我們測試過國內外模型,發現阿里的千問在電商場景的消費者意圖理解能力還是比較強的。

      泓君:你們的位置很有意思:上游是基座模型,你們是中間層,下游連接想應用AI的企業客戶。你覺得這些客戶用AI是為了省成本還是增銷量?是做存量還是增量市場?

      呂瀛杰:這是個動態發展的過程。2023年大家探索如何用AI幫助企業時,非常關注降本。但去年市場變化很大,很多企業發現用AI自動化節省一些人工,雖然能打平用人成本,但也沒有帶來特別大的效益價值。2024年下半年開始,越來越多企業想用AI增效,希望AI去幫他們發現深度的產品機會、消費者需求點,或老產品的新場景。

      舉個例子,一個國內頂級家電品牌的高端產品線(客單價2萬以上),通過我們提供的AI消費者畫像識別和產品反饋分析,針對客戶功能需求設計營銷賣點、主播話術、客服話術。合作一年半后,整體銷量漲幅23%,高端線產品客單價提高6%以上。因為我們和這一個事業部合作效果很好,2025年他們把我們推薦給整個集團,每個事業部都接入了AI識別模型和SaaS產品、Agent能力。

      泓君:像你們這樣一端連模型、一端連客戶的中間服務層,核心競爭力是什么?是對業務的理解深度,還是技術能力?

      呂瀛杰:我們兩方面都有。我們會訓練針對不同行業意圖識別的模型,形成自己的數據飛輪。客戶看到的是意圖識別標簽和成品Agent,但我們會留存數據訓練垂直模型,在意圖識別場域越來越準,尤其是對同類目的客戶。

      更重要的是,客戶希望我們不僅是技術供應商,還能以行業專家的身份提供行業know-how,比如頭部企業如何應用AI產品,所以我們的客戶成功團隊

      (CSM)
      也會配置不同行業的專家提供服務。

      泓君:有個更未來的問題:AI在意圖識別后匹配更精準商品,確實能帶來銷量提升和轉化。那么隨著越來越多行業和大品牌把AI打入工作流和銷售環節,最終所有企業都用上AI后,效果會不會慢慢變弱甚至追平?我們現在是否還在紅利期?

      呂瀛杰:這個問題有意思。大家都升級軍火庫后,還有什么競爭力?我認為AI未來的價值核心還是掌握在人手里,看如何使用它。在意圖識別、方向匹配、Deep Research報告生成上,各企業可能大體一致。但最終決策者如何看待這些數據、挖掘AI處理后的洞察,非常看人的洞察能力。最后還是要人找到真正的機會點。

      泓君:這個總結特別好。現在是在AI紅利期,越往后歸因,未來真正的好產品才最具競爭力。

      呂瀛杰:對。所以好的產品經理、好的伙伴永遠有機會。我再提個題外話:AI對To B SaaS行業在客戶收費意識教育上起到了非常好的效果。以前中國To B企業客戶付費意愿和金額不高,因為他們認為誰都可以做軟件,價值不大。但AI這波影響很大,客戶明確認識到AI按Token計費,用了多少數據量就有相應成本,如果不付錢,就無法提供服務。在付費意識這塊,我們也在朝著美國To B市場同步。

      【音頻收聽渠道】

      公眾號:硅谷101

      收聽渠道:蘋果|小宇宙|喜馬拉雅|蜻蜓FM|網易云音樂|QQ音樂|荔枝播客|嗶哩嗶哩

      海外用戶:Apple Podcast|Spotify|TuneIn|Amazon Music

      聯系我們:podcast@sv101.net

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      董路發文回擊黃健翔,稱對陣英格蘭二隊還被摁在禁區,他們到頭了

      董路發文回擊黃健翔,稱對陣英格蘭二隊還被摁在禁區,他們到頭了

      體壇風之子
      2026-04-11 07:00:09
      賴清德做夢也想不到,鄭麗文只用6天時間,或扭轉國民黨20年頹勢

      賴清德做夢也想不到,鄭麗文只用6天時間,或扭轉國民黨20年頹勢

      肖茲探秘說
      2026-04-10 18:09:23
      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      近史談
      2026-03-31 18:57:49
      恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

      恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

      溫讀史
      2026-04-08 17:38:05
      “跳成這樣,還好意思當老師?”15年舞蹈教師被全網嘲笑:快退費

      “跳成這樣,還好意思當老師?”15年舞蹈教師被全網嘲笑:快退費

      妍妍教育日記
      2026-03-31 09:50:03
      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

      芳芳歷史燴
      2026-03-29 21:09:31
      澤連斯基死定了?他最后的下場,或將跟卡扎菲和薩達姆一樣

      澤連斯基死定了?他最后的下場,或將跟卡扎菲和薩達姆一樣

      燦若銀爛
      2026-04-11 13:31:30
      有一種病叫“性成癮”:一旦發作,比煙癮、酒癮厲害多了,很痛苦

      有一種病叫“性成癮”:一旦發作,比煙癮、酒癮厲害多了,很痛苦

      熊貓醫學社
      2026-04-05 12:05:03
      禁止所有中國外交官入境,不讓兩岸統一,這個國家比美國還要囂張

      禁止所有中國外交官入境,不讓兩岸統一,這個國家比美國還要囂張

      羽逸地之光
      2026-03-19 14:02:05
      新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

      新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

      律法刑道
      2026-04-01 10:15:47
      3·15晚會曝光“萬能神藥”涉事企業被吊銷營業執照并罰200萬元

      3·15晚會曝光“萬能神藥”涉事企業被吊銷營業執照并罰200萬元

      界面新聞
      2026-04-11 14:07:04
      Lululemon憋了3年的鞋,被用戶發現能當兩雙穿

      Lululemon憋了3年的鞋,被用戶發現能當兩雙穿

      追星雷達站
      2026-04-11 08:07:29
      事發凌晨!深圳一小區電動車起火,濃煙滾滾!網友:聞到焦味!消防緊急出動

      事發凌晨!深圳一小區電動車起火,濃煙滾滾!網友:聞到焦味!消防緊急出動

      南方都市報
      2026-04-11 12:09:56
      在上海,不降薪根本找不到工作

      在上海,不降薪根本找不到工作

      一口娛樂
      2026-04-12 00:23:08
      中朝邊境鴨綠江口現狀:朝鮮領土正在不斷增加,中方卻在逐漸減少

      中朝邊境鴨綠江口現狀:朝鮮領土正在不斷增加,中方卻在逐漸減少

      普覽
      2026-02-26 21:29:19
      觀點:在討論換外援、教練之前,傷掉一半首發的上海海港,或該先換個好隊醫!

      觀點:在討論換外援、教練之前,傷掉一半首發的上海海港,或該先換個好隊醫!

      上觀新聞
      2026-04-12 05:04:18
      每天3分鐘5個動作,肌肉質量暴漲45%?打工人終于能坐著瘦!

      每天3分鐘5個動作,肌肉質量暴漲45%?打工人終于能坐著瘦!

      徐孟醫生說疼痛
      2026-04-02 19:00:06
      一年虧損四千萬,全國陷“關停潮”,曾經的金飯碗如今正慘遭拋棄

      一年虧損四千萬,全國陷“關停潮”,曾經的金飯碗如今正慘遭拋棄

      忠于法紀
      2026-04-06 15:10:31
      創造歷史,林加德成為首位出戰解放者杯的英格蘭球員

      創造歷史,林加德成為首位出戰解放者杯的英格蘭球員

      懂球帝
      2026-04-11 15:19:36
      鄭麗文書法爭議:她的字真的不是自己寫的嗎?

      鄭麗文書法爭議:她的字真的不是自己寫的嗎?

      書畫相約
      2026-04-08 08:19:04
      2026-04-12 05:51:00
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來
      165文章數 105關注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發文反思

      頭條要聞

      美國提過分要求 美伊談判雙方嚴重分歧披露

      頭條要聞

      美國提過分要求 美伊談判雙方嚴重分歧披露

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      鄭鈞回應兒子走路:會監督他挺直腰板

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      手機
      家居
      游戲
      教育
      時尚

      手機要聞

      全球首款闊折疊賣爆!華為Pura X一年出貨量超150萬臺

      家居要聞

      復古風格 自然簡約

      排面拉滿!《影之刃零》入選國家級藝術雜志

      教育要聞

      高考前真的別亂說話!

      普通人穿衣其實很簡單!構造腰線、一衣多穿,大方舒適又自然

      無障礙瀏覽 進入關懷版