網易首頁 > 網易號 > 正文申請入駐

拍我AI（PixVerse）V5.5AI視頻大模型上線「導演級」音畫同步一鍵生成

2025-12-02 10:05:14　來源: 硅星Breaknews

上海舉報

分享至

12月1日，愛詩科技正式發布了PixVerse V5.5，國內版為拍我AI V5.5。這一新版本標志著 AI 視頻從“鏡頭生成”向自動“講故事”的進化，進入具備“完整敘事能力”的實用階段。與以往只能產出單鏡頭或零散畫面的大模型不同，V5.5 可以生成具備敘事結構的短片，甚至接近“成片”質量的視頻。

這一版本是繼 Sora2 發布后，國內首個實現“分鏡 + 音頻”一鍵直出的重大更新，讓創作者能夠在幾秒鐘內生成完整的視頻故事，而無需再從素材中拼接。

AI具備導演思維：多鏡頭生成和多角色音畫同步

V5.5 的核心進步來自于底層模型的全面升級。此次更新首次支持音頻（Audio）與多鏡頭（Multi-shot）同步生成，并強化了多角色音畫同步能力。AI 能夠根據用戶輸入的提示詞，自動理解并生成完整的故事段落，而非僅僅提供單一鏡頭的素材。用戶只需要輸入一個簡短的提示，AI 就能完成鏡頭推進、景別切換、人物對白、環境聲和背景音樂的生成，直接呈現一個可被使用的敘事片段。

在拍我AI（PixVerse）中，用戶可以在V5.5大模型多鏡頭和音畫同步打開狀態下，生成5秒、8 秒、10秒的視頻。用戶現在可以在提示詞（Prompt）里直接控制「音效、臺詞、音色、音樂、鏡頭」，AI 能自動理解提示詞中的敘事意圖，自動設計推拉、搖移、切換、景別變化等鏡頭語言。AI 的運鏡節奏更自然，緊貼真實制作邏輯，帶給用戶“成為導演”般的創作體驗。

V5.5 的智能化程度還體現在它對模糊信息的理解能力上。即使用戶只輸入“一只小熊在森林里講笑話”的簡單提示詞（Prompt），勾選音頻（ Audio ）和多鏡頭（ Multi-shot ）后，AI 就能自動生成具有景別變化、搞笑情緒并搭配匹配笑聲的完整片段。鏡頭骨架、情緒走向都由AI自動搭建，讓普通人也能以“導演思維”進行表達。

從左到右：近景、中景、遠景

從體驗角度來看，V5.5 進一步縮短了創作工作流中的時間差。生成速度大幅提升，鏡頭語言更豐富，控制方式更加直觀，使得 C 端用戶和創作者都能以更低的門檻，迅速將抽象的靈感變成可觀看的成品視頻。

音畫同步的能力也得到了飛躍性提升。V5.5 成為國內首個可以在一次生成中實現“分鏡 + 聲音”的 AI 視頻生成大模型。畫面生成的同時，人物對白、口型、表情、動作、環境聲和背景音樂被自動融合，呈現出自然協調的多角色互動。這一能力的實現，使得創作者無需再額外調參或上傳音頻，便能生成近乎“直出成片”的高質量視頻。

拍我AI V5.5先導片中運用V5.5多鏡頭生成段落

拍我AI（PixVerse）海內外創作者社區的測試反饋來看，V5.5 多鏡頭能力足以改變短視頻的創作方式。過去，創作者需要依賴攝影師和剪輯師的配合，才能完成具有“黃金三秒開場節奏”的鏡頭。現在， AI 就能自動生成這一部分內容。

從圖像到視頻：一條龍工作流

隨著視頻生成能力的升級，愛詩科技正在為創作者提供更加完整的AI視頻工作流，全流程的一體化制作能力，加上全球最快的1080p生成速度（V5Fast模式下約30秒即可出片），幫助創作者更好地在效率、成本與成片質量取得平衡。

在 PixVerse.ai 和 pai.video 上，用戶可以上傳多張圖片，利用內置的 Nano Banana Pro 模型生成高清圖像，并一鍵轉入視頻制作流程。平臺此前已接入 Qwen-image、Seedream 4.0 和 Nano Banana 等圖像模型，為“從圖到視頻”的生產路徑提供基礎能力；Nano Banana Pro 的加入進一步提升了圖像質量與銜接順暢度，使整體創作效率顯著增強。

過去一個月，愛詩科技還推出了 Swap、Remix 和 Modify 三大視頻編輯功能。結合Diffusion + Transformer視頻生成大模型和多模態特征融合技術（Fusion），為創作者提供更加自由、自然的編輯體驗：

Swap（替換）：支持替換視頻中的角色、場景與背景，滿足影視再創作、品牌定制與社交娛樂內容的需求；

Remix（二創）：從“單向生成”到“互動共創”，允許用戶基于他人創作進行二次創作，推動內容的循環傳播。

Modify（精修）：基于關鍵幀編輯的“全視頻推理與追蹤”方式，用戶像修改照片一樣，輕松PS視頻，確保跨幀一致、自然銜接。

這些能力正在成為新一代創作者的日常工具。今日正式開啟預售的電影《比如父子》也與拍我AI合作推出“未完成的對話”項目，通過老照片生成動態影像，幫助用戶跨越時間表達情緒，使 AI 視頻技術首次進入更具情感價值的場景。

AI 視頻正在成為基礎設施

從 2023 年成立至今，愛詩科技在兩年內完成了五代 PixVerse 模型、八個版本的快速迭代。從基礎模型的突破，到功能創新，再到規模化應用，技術與產品的共同演進為 V5.5 的推出奠定了堅實基礎。2025 年初，PixVerse V4 曾領先實現 5 秒極速生成高質量視頻，并成為全球首家上線“人聲+音效”的 AI 視頻平臺。如今，PixVerse 已成為全球創作者使用 AI 視頻生成的首選平臺之一，用戶規模超過1個億。

依托“速度快、易上手、創意可控”的產品理念，以及準實時生成、角色驅動視頻等核心技術，它正在讓 AI 視頻真正成為可規模化的內容生產方式，在影像、廣告、游戲、營銷和社交娛樂等領域不斷拓寬應用空間。

拍我AI（PixVerse） V5.5 指向的是一個更普惠的視頻創作未來：讓更多人能以“導演思維”進行表達。無論是漫劇、玩梗、MV、Vlog、復古影像還是動畫與二次元內容，制作成本都被進一步降低。從靈感浮現到看到成片，也許只需要一杯咖啡的時間。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.