試試讓你的 Agent 做一支產品宣傳片。
給它一段參考視頻,加一句話:「能復刻這個視頻,給我的產品做一個宣傳片嗎?」然后你去忙別的了。十幾分鐘后,Agent 交回一支完整的 TVC——它自己寫了劇本,自己拆了分鏡,自己選了模型生成每一個鏡頭,自己剪輯,自己配樂。你沒有碰過任何一個按鈕。
已經有產品做出來了。
![]()
3 月 18 日,LiblibAI 旗下 AI 視頻創作平臺 LibTV 正式上線。
它可能是目前市面上第一個,從產品設計的第一天起,就同時為人類創作者和 Agent 設計的視頻創作工具——一款產品,兩扇門。
LibTV:https://www.liblib.tv/
??關注 Founder Park,最及時最干貨的創業分享
超 22000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的 AI 產品曝光渠道
01給 Agent 設計產品,已經不是選擇題了
過去一年,AI 產品領域有一件事越來越明確:你的用戶里正在多出一類新物種——Agent。
不是所有產品都意識到了。但已經意識到的人開始動了。Figma、Canva、Spotify 接入了 OpenAI 的 Apps SDK,讓 Agent 可以直接在 ChatGPT 里調用它們的能力。大量 SaaS 工具在接 Skill 接口,讓 Agent 能讀寫數據、觸發流程。Obsidian、Google Workspace 都提供了 Cli 版本,我最喜歡的筆記類產品 flomo 發布了 MCP 工具供各類 agent 使用。a16z 的 Stephanie Zhang 在 Big Ideas 2026 播客里說得很直接:「對人類消費者而言重要的東西,對智能體消費而言未必重要。」軟件的優化目標正在從「讓人看得懂」變成「讓 Agent 用得了」。
但看看視頻創作這個領域,情況還很早期。
能自動出片的 Agent 工具已經有了——給一句 prompt,劇本到成片全自動交付。有些也開始支持逐鏡頭調整和風格參數。專業創作者用的工作流工具也有了——畫布、節點、連線,控制力很強。但這兩類工具的思路是分開長的。Agent 類工具的核心邏輯還是自動化交付,創作者能介入的環節有限,更多時候是在結果層面做取舍。專業工作流那邊,搭建成本高,創作中的小修改經常要導出到別的軟件處理,給 Agent 用的接口大多還是后補的,不是原生設計。
兩類工具各有各的長處,但思路是分開的。一邊圍繞自動化交付設計,一邊圍繞人的操控感設計,兩套邏輯還沒有在同一個產品里真正合流。
LibTV 想做這件事。
02一款產品,兩個入口
LibTV 從第一天起,人類創作者和 Agent 各有各的入口。不是先做 GUI 再補 API,兩個入口在產品架構層面就是并行的。
創作者端:工作流畫布更可控
打開 LibTV,看到的不是對話框也不是時間線,是一塊可以無限放大的畫布。文本、圖片、視頻、音頻、腳本五種節點隨便擺,用連線串成工作流,可以反復跑。劇本到成片,全在一張畫布上。
已經上線 20 多個專業創作功能:9/25 宮格分鏡生成、劇情推演四宮格、多機位鏡頭設計、角色三視圖、畫面時間推演等等。模型集成了可靈 3.0、Wan 2.6 等主流視頻模型,圖片和文本側也接了多個模型。
![]()
舉個場景。一個 3 人創業團隊要做 45 秒產品宣傳片,沒錢請外包。過去怎么做?ChatGPT 寫腳本、 Nano Banana 出圖、可靈生視頻、剪映剪輯、PS 修畫面。5 個工具來回切,角色長相每換一個工具就變一次。
在 LibTV 里:畫布上用文本模型寫分場景腳本,9 宮格分鏡一次出 9 張構圖方案,挑一個方向。角色三視圖把主角形象鎖死,后面所有鏡頭基于同一個設定生成,不會再變臉。逐鏡頭生成視頻,畫布上直接剪輯配樂。一個界面,一個下午。做完了把這套工作流存成模板,下次換幾個鏡頭描述重新跑就行。
Agent 端:你來指揮,Agent 執行
Agent 通過 Skill 接口接入 LibTV,直接調用短漫劇生成、視頻復刻、音樂 MV 生成這些打包好的創作能力。它能做出什么水平的視頻,取決于能調用什么水平的模型和工作流。
有個技術細節值得說一下。Agent 每次發起創作,LibTV 返回的不是一個「等處理完再來取」的任務 ID,而是三樣東西——sessionId、projectUuid、projectUrl。sessionId 讓 Agent 可以持續查詢進展;projectUuid 讓整個創作掛在一個可持續的項目對象上;projectUrl 讓人類可以隨時打開畫布接管。Agent 交付的不是一個孤立的 mp4 文件,而是一整個可以繼續編輯的項目——人類打開畫布就能接著改。
我們實際試了一下。給 Agent 一句話:「做一個 2 分鐘的動畫短片,講一個被推薦算法困住的年輕人逐漸覺醒的故事,賽博朋克風格,結尾有希望感。」
然后什么都不用做。
![]()
Agent 自己把這句話拆成了 6 幕劇本,自動定好調色方案——冷藍紫到暖金色的漸變,對應情緒從壓抑到覺醒的轉變。逐場景生成分鏡,逐鏡頭出視頻,配樂剪輯一條龍交付,最后給回一條完整的成片鏈接和項目畫布。哪部分不滿意可以隨時讓它修改,人類只需要等待即可。
這是 LibTV 上線后實際跑出來的結果。產品還在早期階段,體驗還在打磨,不是所有功能都到了最終形態。但核心流程能跑通了:同一套系統,創作者自己做和 Agent 自己做,調的是同一組能力、同一層模型。
03給 Agent 設計軟件,跟給人設計到底有什么不一樣?
LibTV 同一個產品給人和 Agent 同時用,兩種用法擺在一起,差異很具體。但在拆解差異之前,先說一個底層問題:為什么給人用和給 Agent 用,設計思路會完全不同?
真格投資總監鐘天杰最近寫了一篇文章,標題很激進——「我們也許不該再投資 GUI 思維的軟件公司」。他的核心論點是:GUI 本質上是人類認知缺陷的補丁。人類注意力帶寬極窄,工作記憶極淺,需要持續的視覺錨點才能維持任務狀態。畫布、節點、空間布局、即時反饋——這些東西存在的原因不是它們好,而是人類不用它們就沒法干活。Agent 沒有這些限制。它不需要「看到」才能記住,不需要空間布局來維持上下文,不需要視覺反饋來確認操作生效了。
理解了這一點,下面三個差異就不意外了。
能力怎么包裝給 Agent,講究不一樣。
創作者用的是碎片化的工具——拖節點、調參數、選構圖、改文案。手上做的事是碎的,腦子在做整合。Agent 不要碎片化工具。它不想「拖一個節點連一條線」,它想「根據這個劇本生成一套分鏡」。
給 Agent 設計入口,第一個問題就是能力打包到哪一層。各種 API 太細,Agent 得來回調幾十次。一鍵出片太粗,不同任務沒法差異化。Sequoia(紅杉)分析 Agent 產品設計時有個說法叫「Goldilocks」——最優解在中間,「把大量控制流交給 LLM,但保留一組軌道和狀態感知」。LibTV 的 Skill 就是這個中間層:每個 Skill 里有完整的決策鏈路,但 Agent 可以在不同 Skill 之間自由組合。
這跟傳統意義上「給產品加個 API」是兩回事。API 是把人類在界面上點擊的流程翻譯成代碼調用,思路沒變;Skill 是讓 Agent 用自然語言表達意圖,由系統側完成編排和決策——思路變了。
做決定的方式不一樣。
創作者看 9 張分鏡圖,掃一眼就知道哪張對。說不清為什么,但就是知道。Agent 沒有這種直覺。它的辦法是靠量:每個鏡頭生成好幾個版本,按一致性、構圖、風格匹配度自動篩。用算力換審美。
給 Agent 用的系統得原生支持批量生成和自動比選。這也解釋了為什么價格這么重要——Agent 天然就是要多調幾倍模型的。
記東西的方式不一樣。
創作者靠空間記憶管項目——角色設定在畫布左邊,分鏡在中間,成片在右邊,抬眼就知道整體狀態。Agent 沒有「空間」。做到哪一步了、角色約束是什么、前面鏡頭用了什么色調,都要顯式地傳給它。人看一眼就明白的事,Agent 需要系統幫它記住。
這三個差異是任何想給 Agent 開一扇門的產品都得回答的問題。LibTV 給出了一個早期解法,夠不夠好還得看后續迭代。但問題本身已經繞不過去了。
04給 Ageng 用,Token 不能太貴
視頻創作最大的成本是「抽卡」——大量生成,反復試。一支好作品后面可能是幾十上百次生成和篩選。
LibTV 定價有點便宜:
年卡最低 39 折
部分模型疊加優惠后相當于 2 折多
會員 SKU 比競品低 76%
模型積分 比競品低 92%
對創作者來說,試錯成本降下來了,可以靠量跑出好作品。
但對 Agent 生態來說,便宜這件事可能更要緊。前面說了,Agent 天然需要多版本生成和比選,調用頻次比人手動操作高得多。單次調用太貴的話,Agent 做視頻在經濟上根本不成立。
模型能力決定 Agent 能不能做出好視頻,價格決定它敢不敢放開了做。這兩件事得同時解決,Agent 視頻創作才能從 demo 變成可用的生產力。
05給 Agent 做視頻工具,難在哪里?
同時做兩個入口、接一堆前沿模型、還把價格壓到這個程度,LibTV 之所以能這么做,跟 LiblibAI 過去三年干的事直接相關。
模型層,LiblibAI 做了三年多模態視覺創作,從圖像生成到風格模型訓練,一直在干「把模型能力變成創作者用得上的產品」這件事。跟主流模型廠商和算力平臺的合作是長期積累下來的。這解釋了定價為什么敢這么激進——上游的供給效率和成本結構,短時間內很難攢出來。
用戶層,LiblibAI 平臺上有超過 2000 萬創作者,社區里沉淀了十萬多款原創風格模型。這些創作者用什么模型、調什么參數、做什么類型的內容、在哪些環節卡住——產品團隊對創作流程的理解是從這里來的。LibTV 的功能設計(9/25 宮格分鏡、角色三視圖、多機位鏡頭)是從大量真實創作行為里提煉出來的。
產品經驗層,LiblibAI 在 2025 年就在設計領域推出過一個垂直 Agent 產品「星流」。怎么給 Agent 設計入口、Skill 怎么封裝、Agent 跟人的協作流程怎么跑通——這些問題團隊已經踩過一輪坑。LibTV 的雙入口設計是在之前實踐基礎上的迭代。
還有一層東西值得單獨說。2000 萬創作者沉淀下來的不只是使用數據,還有審美資產。十萬款風格模型、大量被驗證過的創作工作流——這些東西帶著創作者的審美判斷。在 LibTV 里,創作者可以把畫布上調好的工作流存成模板,模板里記錄的不只是「用了哪些節點、連了哪些線」,還有每個環節的參數偏好:鏡頭時長、構圖傾向、色調范圍、節奏結構。另一個創作者拿去用,出來的東西會帶著前一個人的審美印記。Agent 拿去執行,同樣如此。審美通常鎖在個人直覺里,沒法傳。LibTV 想把它變成可以存下來、可以在社區里流通的東西。人出審美,Agent 出產能,社區做流通——這是它想搭的飛輪。
所以 LibTV 更像是 LiblibAI 三年積累到了一個節點之后的自然產物:技術合作提供模型供給,創作者社區提供需求洞察和審美沉淀,Agent 產品經驗定義產品形態。
06Agent 不是功能,是新用戶
回到行業角度來看。
LibTV 在做的事——同時為人和 Agent 設計一款產品,不是一個特例。它背后是一個正在加速的行業變化:越來越多的產品團隊開始把 Agent 當成一類真實的用戶來對待。
Linear 是一個很具體的例子。這個項目管理工具過去一年做了一系列改動:issue 可以直接指派給 AI coding agent,跟指派給同事一樣;專門做了一個 Agent Session 面板,顯示 Agent 的工作進度和推理過程;手機端也能跟蹤 Agent 的任務狀態。它給 Agent 設計了獨立的權限體系、webhook 事件類型、OAuth scope。不是加了個 API 就完事——從分配任務、跟蹤進度、權限管理這些核心功能層面,Agent 就是團隊成員。
Shopify 走得更遠。今年初推出的 Universal Commerce Protocol,讓 Agent 可以自主發現商品、比價、下單,走完整個購物流程。它還出了一套 Checkout Kit,專門讓 Agent 在對話流程里完成支付。Shopify 的邏輯很清楚:未來的買家不只是人,還有替人跑腿的 Agent。產品架構得為這類用戶重新設計。
Sierra 創始人、OpenAI 董事長 Bret Taylor 在 Sequoia 的播客 Training Data 里給了一個時間線:20 年前,企業的主要數字界面是網站。10 年前,變成了 App。下一步,是 Agent。Taylor 認為這個變化里最大的機會在垂直領域——每個行業的工作流不一樣,需要的 Agent 方案也不一樣。通用平臺做不了這件事,得垂直深入。他管這個叫「新一代的軟件即服務」。Sierra 自己的做法很說明問題:給電信、銀行、保險這些行業分別搭定制化的客戶服務 Agent,定價按 Agent 自主解決問題的數量收費,轉人工的不收錢。這個定價模型本身就在說——Agent 就是產品,不是產品的附屬功能。
Jensen Huang 前兩天在 GTC 2026 上把這件事說得更緊迫:「今天世界上每家公司都需要一個 Agent 系統戰略。這就是新一代計算機。」他直接把 Agent 框架比作 Windows 和 HTML——不是一個可選的新功能,是下一代基礎設施。
這些判斷指向同一件事:Agent 作為用戶,不是一個遙遠的假設,已經在改變產品的設計方式了。Linear 改了任務分配,Shopify 改了交易流程,Sierra 改了定價模型。每家公司遲早要回答同一個問題:你的產品準備怎么接住這類新用戶?
LibTV 是在視頻創作這個垂直領域給出的一個早期回答。
![]()
![]()
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.