還在為視頻制作抓耳撓腮?輸入不到十個字,幾十秒后,一個包含視頻、音樂的完整短視頻就自動生成了——這不是魔法,而是AI“工作流”帶來的現(xiàn)實。當大模型、智能體、工作流這三者強強聯(lián)合,人工智能不再只是陪你聊天,而是化身為一支高效的“虛擬團隊”,幫你搞定復(fù)雜任務(wù)。大模型、智能體、工作流它們之間到底有何區(qū)別?又是如何協(xié)同工作的?本文將為您一一揭曉。
![]()
01
三大核心揭秘:從“聰明大腦”到“全能員工”
首先說大模型(LLM),它就像一個能理解能對話的“聰明大腦”,比如DeepSeek、豆包、ChatGPT等,但它只能輸出文案,且文字字數(shù)有限制。
智能體(Agent)這個概念是由ChatGPT的母公司OpenAI于去年七月提出的。它將通用人工智能分為五個等級,每個等級都代表了不同的技術(shù)水平和應(yīng)用場景。智能體是人工智能發(fā)展的第三個階段,第一是聊天機器人,第二是推理者,第三是智能體,第四是發(fā)生創(chuàng)新者,第五是組織管理者。智能體尚不具備獨立開發(fā)或創(chuàng)新能力,但已經(jīng)具備了邏輯思維能力。它像“有手有腳的機器人”,除了大模型這個大腦外,還能借助各種工具完成實際工作。它主要有兩項重要能力:
一是知識庫能力:可以導(dǎo)入TXT、Word、PDF、表格、網(wǎng)頁、圖片等信息,支持10G到100G的知識庫,能作為個人助理、老師助手或行業(yè)智能客服。比如“媒體人胡二刀的智能體”,裝入了胡二刀近兩三年寫的關(guān)于民生和新媒體領(lǐng)域的數(shù)百篇文章,可以以胡二刀的口吻自主回答相關(guān)問題。
二是插件能力:可以嵌入各種大模型功能,或是工作流過程,從而實現(xiàn)閱讀理解、郵件回復(fù)、用視頻圖片音頻工具合成內(nèi)容等。
工作流是智能體的一個特殊工具,能完成更復(fù)雜的工作:
比如可以組合大模型、圖片、音頻、視頻工具,按順序調(diào)用,一次性完成文本寫作、圖片合成、音頻視頻合成;
比如可以先調(diào)用查找資料插件,再調(diào)用大模型生成超長文案(幾萬甚至十萬字)。
工作流的出現(xiàn)是為了解決復(fù)雜個性化的智能體需求,但搭建需要學(xué)習(xí)各種插件節(jié)點的使用。
02
工作流如何像“智能流水線”一樣運轉(zhuǎn)?
工作流是將工作的每一步流程按照先后順序像流水線一樣排列好,然后逐一首尾相接,自動完成一項工作。比如我們制作一個短視頻工作流,那就把與短視頻制作相關(guān)的一系列事項進行拆解,然后逐一作為工作節(jié)點,連接起來,從而一鍵生成視頻。
那么,制作一個短視頻需要什么要素及步驟呢?
第一步是確定主題,也就是想做一個什么樣的視頻。比如美女跳舞、老漢扭秧歌。同時,還要確定一個背景音樂風格。
第二步就是根據(jù)主題,生成圖片或視頻文案。
第三步是根據(jù)文案生成視頻提示詞。
第四步是根據(jù)提示詞生成視頻。
第五步是根據(jù)音樂風格要求生成背景音樂。
第六步是將視頻與背景音樂合成。
第七步是結(jié)束,完成視頻鏈接。
也可以把工作流理解成流水上的不同員工。比如開始是銷售,對接客戶,下需求指令。一號員工負責寫文案,二號員工生提示詞,三號員工生視頻,四號員工生背景音樂,五號員工做剪輯合成,最后結(jié)束是老板負責驗收交貨。
工作流能用在什么地方?比如制作書單號,輸入書名和作者,就能自動生成一段關(guān)于圖書及金句的視頻。
比如制作歷史人物的一生,輸入歷史人物名字,就可以按照其生平大事記,生成一個人從嬰兒到成年到去世的視頻。
這是視頻生成方面,除此之外,還可以制作一些潛在客戶的分析搜索等。
03
手把手教你搭建第一個AI工作流
我們以最簡單的一鍵生成短視頻工作流為例,講一下工作流的制作方法。
![]()
打開COZE開發(fā)平臺,點資源庫,創(chuàng)建工作流。
![]()
比如我們做一個輸入成語,即可生成視頻的工作流。名稱這里只能輸入英文或拼音,描述可以用中文。
![]()
這時進入工作流界面,只有一個開始和結(jié)束。可以把他們理解為銷售拿到了客戶需求,老板等著驗收交付,而現(xiàn)在缺的就是中間具體干活的人。
先不急著招人,要把客戶需求理解清楚。
![]()
點開始,就是銷售員接到任務(wù)和輸出任務(wù)的界面。銷售員從客戶那里拿到制作視頻的需求,肯定是多維度的,比如是什么主題,配什么背景音樂。因此,在默認一個輸入項的前提下,再點+號,增加一個背景音樂的輸入項,可以起名為bgm。
接下來,就需要在人才市場中招募員工了。
![]()
點“開始”右側(cè)的+號,彈出一個頁面,這就相當于是人才市場,可以從這里招到你需要的具備各種技能的人。我們之前有一個思路,根據(jù)客戶需求,第一個員工需要進行文案創(chuàng)作,這與文字有關(guān),用到的都是大模型,于是選“大模型”,這是一號員工。
![]()
我們可以點大模型右邊的三個點,給它重命名,比如叫一號員工做文案,這個一號員工的輸入項,就是它的上級銷售(開始)員工的輸出項,點小六邊型,出來下拉菜單,選開始的第一個input,也就是主題。
![]()
接下來是系統(tǒng)提示詞,需要給員工一個身份,就是他是生成文案的,這個文案具體是什么樣的?比如偏成語,偏古代,字數(shù)不要超過三百字。如果你不會按格式生成,可以借助右上角的AI生成功能。
![]()
再下面就是用戶提示詞,即給員工發(fā)出明確指令,也就是根據(jù)前面input生成文案。在這個對話框里,點shift+{(就在字母P的右側(cè)),點擊input就上去了。
![]()
接著就是招募二號員工。同樣,這個崗位的工作是與文字相關(guān),即根據(jù)一號員工的文案提煉出圖片提示詞,而它的輸入指令則來自一號員工的輸出指令。
![]()
對二號員工進行身份設(shè)定,然后根據(jù)指令完成提示詞工作。
![]()
接下來招募三號員工,他是負責根據(jù)提示詞生成圖片的,所以就不能用大模型了,而用到圖像處理工具,這里選擇圖像生成。
![]()
這里用到的工具是即夢4.0,圖片比例和分辯率可選,比如9:16,1K。
![]()
輸入選擇二號員工的輸出項。
![]()
開始招募四號員工,他是負責視頻生成的,從音視頻處理中選擇“視頻生成”。
![]()
選擇圖文生視頻,480P和5秒。
![]()
它的輸入是三號員工的輸出,注意選擇Image,也就是圖片。
![]()
五號員工是負責音樂的,在搜索欄中搜“背景音樂”,選第一個“背景音樂庫”。
![]()
注意啊,這里五號員工的指令并不是來自四號員工,而是來自開始的bgm,也就是直接錄入背景音樂風格。
![]()
六號員工是負責將已生成的視頻和音頻合成,所以選擇“音視頻合成”進行查找。
![]()
![]()
六號員工的輸入有兩個值,一個是五號員工生成的音樂,選bgm_url,一個是四號員工生成的視頻,選video。
![]()
最后是老板驗收,他負責引用的是六號員工的音視頻合成作品。
![]()
點擊試運行,有兩個必填項,一個是bgm,一個是input。前者填你需要的音樂風格,后者填你想生成視頻的成語。最后點試運行,看結(jié)果。
![]()
通過這個簡單的短視頻工作流,我們看到了AI將復(fù)雜任務(wù)自動化、流程化的巨大潛力。這不僅僅是“快”,更是一種工作模式的革新。用好工作流,就如同擁有了一支不知疲倦的AI團隊,能讓你的創(chuàng)意快速落地,效率倍增。現(xiàn)在,就從搭建你的第一個工作流開始,解鎖AI時代的全新工作方式吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.