還在為視頻制作抓耳撓腮?輸入不到十個字,幾十秒后,一個包含視頻、音樂的完整短視頻就自動生成了——這不是魔法,而是AI“工作流”帶來的現實。當大模型、智能體、工作流這三者強強聯合,人工智能不再只是陪你聊天,而是化身為一支高效的“虛擬團隊”,幫你搞定復雜任務。大模型、智能體、工作流它們之間到底有何區別?又是如何協同工作的?本文將為您一一揭曉。
![]()
01
三大核心揭秘:從“聰明大腦”到“全能員工”
首先說大模型(LLM),它就像一個能理解能對話的“聰明大腦”,比如DeepSeek、豆包、ChatGPT等,但它只能輸出文案,且文字字數有限制。
智能體(Agent)這個概念是由ChatGPT的母公司OpenAI于去年七月提出的。它將通用人工智能分為五個等級,每個等級都代表了不同的技術水平和應用場景。智能體是人工智能發展的第三個階段,第一是聊天機器人,第二是推理者,第三是智能體,第四是發生創新者,第五是組織管理者。智能體尚不具備獨立開發或創新能力,但已經具備了邏輯思維能力。它像“有手有腳的機器人”,除了大模型這個大腦外,還能借助各種工具完成實際工作。它主要有兩項重要能力:
一是知識庫能力:可以導入TXT、Word、PDF、表格、網頁、圖片等信息,支持10G到100G的知識庫,能作為個人助理、老師助手或行業智能客服。比如“媒體人胡二刀的智能體”,裝入了胡二刀近兩三年寫的關于民生和新媒體領域的數百篇文章,可以以胡二刀的口吻自主回答相關問題。
二是插件能力:可以嵌入各種大模型功能,或是工作流過程,從而實現閱讀理解、郵件回復、用視頻圖片音頻工具合成內容等。
工作流是智能體的一個特殊工具,能完成更復雜的工作:
比如可以組合大模型、圖片、音頻、視頻工具,按順序調用,一次性完成文本寫作、圖片合成、音頻視頻合成;
比如可以先調用查找資料插件,再調用大模型生成超長文案(幾萬甚至十萬字)。
工作流的出現是為了解決復雜個性化的智能體需求,但搭建需要學習各種插件節點的使用。
02
工作流如何像“智能流水線”一樣運轉?
工作流是將工作的每一步流程按照先后順序像流水線一樣排列好,然后逐一首尾相接,自動完成一項工作。比如我們制作一個短視頻工作流,那就把與短視頻制作相關的一系列事項進行拆解,然后逐一作為工作節點,連接起來,從而一鍵生成視頻。
那么,制作一個短視頻需要什么要素及步驟呢?
第一步是確定主題,也就是想做一個什么樣的視頻。比如美女跳舞、老漢扭秧歌。同時,還要確定一個背景音樂風格。
第二步就是根據主題,生成圖片或視頻文案。
第三步是根據文案生成視頻提示詞。
第四步是根據提示詞生成視頻。
第五步是根據音樂風格要求生成背景音樂。
第六步是將視頻與背景音樂合成。
第七步是結束,完成視頻鏈接。
也可以把工作流理解成流水上的不同員工。比如開始是銷售,對接客戶,下需求指令。一號員工負責寫文案,二號員工生提示詞,三號員工生視頻,四號員工生背景音樂,五號員工做剪輯合成,最后結束是老板負責驗收交貨。
工作流能用在什么地方?比如制作書單號,輸入書名和作者,就能自動生成一段關于圖書及金句的視頻。
比如制作歷史人物的一生,輸入歷史人物名字,就可以按照其生平大事記,生成一個人從嬰兒到成年到去世的視頻。
這是視頻生成方面,除此之外,還可以制作一些潛在客戶的分析搜索等。
03
手把手教你搭建第一個AI工作流
我們以最簡單的一鍵生成短視頻工作流為例,講一下工作流的制作方法。
![]()
打開COZE開發平臺,點資源庫,創建工作流。
![]()
比如我們做一個輸入成語,即可生成視頻的工作流。名稱這里只能輸入英文或拼音,描述可以用中文。
![]()
這時進入工作流界面,只有一個開始和結束。可以把他們理解為銷售拿到了客戶需求,老板等著驗收交付,而現在缺的就是中間具體干活的人。
先不急著招人,要把客戶需求理解清楚。
![]()
點開始,就是銷售員接到任務和輸出任務的界面。銷售員從客戶那里拿到制作視頻的需求,肯定是多維度的,比如是什么主題,配什么背景音樂。因此,在默認一個輸入項的前提下,再點+號,增加一個背景音樂的輸入項,可以起名為bgm。
接下來,就需要在人才市場中招募員工了。
![]()
點“開始”右側的+號,彈出一個頁面,這就相當于是人才市場,可以從這里招到你需要的具備各種技能的人。我們之前有一個思路,根據客戶需求,第一個員工需要進行文案創作,這與文字有關,用到的都是大模型,于是選“大模型”,這是一號員工。
![]()
我們可以點大模型右邊的三個點,給它重命名,比如叫一號員工做文案,這個一號員工的輸入項,就是它的上級銷售(開始)員工的輸出項,點小六邊型,出來下拉菜單,選開始的第一個input,也就是主題。
![]()
接下來是系統提示詞,需要給員工一個身份,就是他是生成文案的,這個文案具體是什么樣的?比如偏成語,偏古代,字數不要超過三百字。如果你不會按格式生成,可以借助右上角的AI生成功能。
![]()
再下面就是用戶提示詞,即給員工發出明確指令,也就是根據前面input生成文案。在這個對話框里,點shift+{(就在字母P的右側),點擊input就上去了。
![]()
接著就是招募二號員工。同樣,這個崗位的工作是與文字相關,即根據一號員工的文案提煉出圖片提示詞,而它的輸入指令則來自一號員工的輸出指令。
![]()
對二號員工進行身份設定,然后根據指令完成提示詞工作。
![]()
接下來招募三號員工,他是負責根據提示詞生成圖片的,所以就不能用大模型了,而用到圖像處理工具,這里選擇圖像生成。
![]()
這里用到的工具是即夢4.0,圖片比例和分辯率可選,比如9:16,1K。
![]()
輸入選擇二號員工的輸出項。
![]()
開始招募四號員工,他是負責視頻生成的,從音視頻處理中選擇“視頻生成”。
![]()
選擇圖文生視頻,480P和5秒。
![]()
它的輸入是三號員工的輸出,注意選擇Image,也就是圖片。
![]()
五號員工是負責音樂的,在搜索欄中搜“背景音樂”,選第一個“背景音樂庫”。
![]()
注意啊,這里五號員工的指令并不是來自四號員工,而是來自開始的bgm,也就是直接錄入背景音樂風格。
![]()
六號員工是負責將已生成的視頻和音頻合成,所以選擇“音視頻合成”進行查找。
![]()
![]()
六號員工的輸入有兩個值,一個是五號員工生成的音樂,選bgm_url,一個是四號員工生成的視頻,選video。
![]()
最后是老板驗收,他負責引用的是六號員工的音視頻合成作品。
![]()
點擊試運行,有兩個必填項,一個是bgm,一個是input。前者填你需要的音樂風格,后者填你想生成視頻的成語。最后點試運行,看結果。
![]()
通過這個簡單的短視頻工作流,我們看到了AI將復雜任務自動化、流程化的巨大潛力。這不僅僅是“快”,更是一種工作模式的革新。用好工作流,就如同擁有了一支不知疲倦的AI團隊,能讓你的創意快速落地,效率倍增。現在,就從搭建你的第一個工作流開始,解鎖AI時代的全新工作方式吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.