![]()
作者丨以南
今年下半年,Sora的出現再次將AI視頻推至全球討論的焦點。基于用戶提供的圖像信息,AI能夠復刻人物形象,并生成高度逼真的視頻內容,生成式視頻能力的邊界被進一步延展。
隨著AI“生成”能力不斷成熟,視頻是否能夠進一步承載更高層級的智能驅動機制,正在成為行業關注的新方向。近日,一家創立約一年的初創AI公司Lemon Slice獲得了由Matrix Partners、Y Combinator領投的1050萬美元(折合人民幣約3.41億元)種子投資。與Sora聚焦的生產AI視頻內容不同,Lemon Slice的方向,是將單一靜態圖像轉化為完全交互式的會話視頻角色,重點是在人與AI的交互。
Lemon Slice由Lina Colucci、Sidney Primas和Andrew Weitz聯合創立。三位創始人均長期深耕機器學習與產品落地,曾共同或分別創辦機器學習技術服務與產品型公司,其中,已有項目實現年收入數百萬美元規模,為團隊提供了從算法研發到商業化變現的完整經驗。
當產品需要進一步切入教育、企業培訓、客戶服務等場景,Lemon Slice對“虛擬數字人”的押注,可看作是在嘗試回答一個問題:在視頻生成能力已經能夠復刻現實之后,AI的下一步進化方向在哪里?
要理解這一邏輯,需要將視角從視頻生成本身,切換到AI Agent的進化路徑上。
AI Agent進化:
從“文本回復”到“Video Agent”
過去兩年,AI Agent已經從實驗室概念快速滲透進各類商業形態中。Gartner 預計,到2026年約有40%的企業應用將集成任務型AI代理(agentic AI)功能,這一比例遠高于當前水平。這種潛在的滲透速度,表明智能代理正逐漸從輔助工具向能夠執行復雜任務的功能模塊演進。
![]()
圖源:Gartner(2025年8月)
與此同時,Gartner還預測,到2030年約80%的企業軟件與應用將具備多模態AI能力。這意味著未來企業級交互將不僅依賴文本和語音,還會涵蓋圖像、視頻等多種交互形式,從而推動更豐富的用戶體驗和業務流程革新。在這種趨勢下,交互效能本身開始成為影響AI應用深度與長期留存的重要變量。
當前,大多數AI Agent仍以文本或語音作為主要交互方式。盡管文本在信息組織與傳播成本方面具備優勢,但在建立用戶信任、情感反饋和長期使用粘性方面存在一定局限,特別是在教育輔導、心理咨詢、客戶服務等對交互質量要求較高的場景中,這種局限性更為顯著。
多項行業觀察顯示,相較于純文本互動,視覺反饋與情感化的互動媒介更有助于信息理解和心理投入,這也是業界開始重新審視視頻、動態形象等更實時交互內容的根本原因之一。
在這一背景下,視頻從“內容消費載體”逐步轉向可能的“交互載體”。它不僅承載信息輸出,還能同時反映表情、肢體語言與語音語調,這些因素共同拉近了人與AI之間“能看得到”的距離。當AI Agent不再是單向的問答系統,而是具備“被觀察、被對話”的形態時,交互本身便成為了新的競爭變量。
一張圖即可創建數字人物
還能讓AI與AI面對面聊?
如果說AI Agent的上半場是在比拼“大腦”的智商,那么以Lemon Slice為代表的公司則試圖在“感官層”建立差異化。目前,平臺支持用戶創建寫實風格、卡通風格等各種類型的數字角色。從其產品架構來看,Lemon Slice圍繞“實時可交互的視頻形象”這一核心能力,拆分出了兩條相對清晰的產品路徑。
![]()
Lemon Slice可創建的各種風格數字角色
首先,是面向開發者與企業用戶的Video Agents(視頻智能體)。該產品的核心目標,并非單純生成可展示的虛擬形象,而是為網站或應用提供一個可嵌入、可對話、可接入業務邏輯的交互界面。企業還可以通過API或嵌入式組件,將生成的視頻形象直接部署到官網、產品后臺或業務系統中,使其承擔客服答疑、知識講解、流程引導等角色。
![]()
其次,是面向更廣泛創作者與個人用戶的Creative Studio(創意工作室)。這一功能強調“低門檻”和“可玩性”,用戶僅需上傳一張圖片和音頻,便可快速生成對應的數字虛擬人,并進一步用于AI視頻內容創作。
![]()
與此同時,Lemon Slice還引入了多角色同場互動的能力,允許用戶生成多個AI角色,并讓它們在同一場景中進行對話或互動。
![]()
支撐Lemon Slice產品功能的是其自研的Lemon Slice-2視頻擴散轉換器模型。在技術參數上,該模型規模為200億,雖然在參數量級上無法與通用的超大規模多模態模型相比,但其核心競爭力在于“能效比”。據悉,通過自回歸架構,它能在單塊GPU上維持每秒20幀的實時生成。
![]()
在商業模式上,Lemon Slice采取了從Starter到Enterprise的分層訂閱制,向個人創作者、團隊以及企業開放,月訂閱價格按級別依次為8美元/mo、40美元/mo、100美元/mo、240美元/mo。
![]()
給AI視頻“注入靈魂”
這個“虛擬人”有何不同?
將Video Agents與Creative Studio放在同一產品體系中來看,Lemon Slice的關鍵在于它如何圍繞實時視頻交互這一能力,構建出一套可被反復調用的底層機制。
首先可以看到的是,它刻意壓縮了“從想法到可用形態”的距離。無論是企業將視頻智能體嵌入官網,還是個人用戶在創意工作室中生成虛擬角色,同樣基于單張圖像完成角色生成,同樣通過API或內置邏輯驅動對話與動作。這種高度統一的生成與交互流程,使產品不必為不同使用人群維護多套系統,也讓視頻形象更像一種“隨取隨用”的能力模塊,而非一次性制作的內容資產。
進一步來看,Lemon Slice在場景適配上的選擇,同樣體現出對通用性的偏好。其視頻形象并未被限定在單一用途之中,而是通過全身動作、語義驅動與背景切換,在不同場景中完成快速遷移。對企業而言,這意味著同一視頻角色可以承擔客服、講解或培訓等不同任務,依賴的是同一套實時生成與調度能力。
同時,多角色同場互動的設計,也進一步放大了這一能力的可擴展性。當多個AI角色能夠在同一畫面中進行對話時,視頻開始具備多元化交互的可能性。對于內容創作而言,這提供了更豐富的表達空間。而在實際應用中,多角色之間的分工與協作,也為復雜流程的可視化呈現留下了接口。
在這些設計背后,視頻并未被當作最終內容,而更像是一種持續運轉的交互狀態。角色的表情、動作、語音與對話邏輯被同時調度,使用戶無論是“觀看”還是“對話”,都處在同一個系統之內。
從這一層面來看,Lemon Slice所嘗試的,更多是圍繞“視頻是否可以成為一種長期存在的交互形態”這一問題,給出了一個工程化的實現路徑。
結語
Lemon Slice聯合創始人兼CEOLina Colucci認為:“人們對人工智能虛擬形象的主要抱怨是它們缺乏真實感,降低了價值。未來,所有視頻都將是互動式的,并根據觀看者的需求進行個性化定制。”從這一觀點出發,Lemon Slice正在圍繞一個更具體的問題展開:當模型能力逐漸標準化,視頻是否可以成為一種真正可被反復使用的交互形態,從單圖生成、實時對話到多角色同場互動,其產品路徑更像是在不斷壓縮“技術復雜度”與“實際可用性”之間的距離。
在這一過程中,視頻不再只是內容的呈現方式,而被重新放置到交互鏈路之中。至于這種形態最終會在多少場景中成立,或許仍有待時間驗證,但可以確定的是,圍繞交互形式、用戶體驗、用戶感官的重新設計,已經開始成為AI應用中不可回避的一部分。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.