這是蒼何的第 468 篇原創(chuàng)!
大家好,我是熱愛編程的蒼何。
去年底的時(shí)候,我寫過 2 篇 AI 漫劇的文章,感興趣的還挺多的。
![]()
也認(rèn)識(shí)了非常多做 AI 漫劇的朋友,我們武漢 AI 圈也舉辦了 AI 漫劇沙龍,來了超級(jí)多的感興趣的圈友。
![]()
聽了很多的干貨分享,當(dāng)時(shí)腦海中只想快速上手來做漫劇。
但我看了很多的平臺(tái)目前還只能在電腦 web 上操作,手機(jī)隨時(shí)創(chuàng)作我還沒找到什么好的 APP。
當(dāng)時(shí)就有一股沖動(dòng),要不自己來嘗試搞一個(gè)?當(dāng)我和老婆說這個(gè)想法的時(shí)候,她說我一定瘋了。
為了證明我不是瘋子,我還是咬牙決定嘗試,畢竟不留遺憾才是我的人生主旋律。
耗時(shí) 8 天,今天終于可以拿出來和大家分享了,一個(gè)可以在手機(jī)端創(chuàng)建漫劇的 app,我給它起名叫做漫導(dǎo),沒錯(cuò)就是這么通俗易懂;制作漫劇的導(dǎo)演。
![]()
它能根據(jù)靈感一句話創(chuàng)建劇本、角色、場(chǎng)景,然后自動(dòng)生成分鏡圖片和分鏡視頻,最后根據(jù)分鏡視頻來合成一個(gè)完整的漫劇視頻。
我錄了個(gè)視頻給大家做個(gè)展示:
8 天時(shí)間出來一個(gè) AI 漫劇 APP 的 MVP 版本(這其中還不包括元旦放假 3 天),我自己已經(jīng)相當(dāng)滿意了,人物一致性已經(jīng)完成的很高了
最后說一下聲音為啥不是中文,抱歉還沒來得及約束。忍不住想分享了。
而且你可能想象不到的是,整個(gè) APP 的開發(fā),我用的是最近很火的智譜的 GLM 4.7 模型。
![]()
你看我的 token 消耗量,這里面包含了兩部分,一部分是開發(fā) app 使用的量,一部分是使用 app 規(guī)劃劇本使用的量。說實(shí)話沒想到這么多。
再看看賬單。
![]()
沒錯(cuò) 20RMB。哦對(duì)了,我還在他們搞活動(dòng)的時(shí)候薅了一杯奶茶。有點(diǎn)大薅特薅的感覺;
![]()
我已經(jīng)把這個(gè) AI 漫劇 APP 開源了,后面也希望有更多的開發(fā)者參與到我們的共建中來。
開源地址(求 star):https://github.com/freestylefly/director_ai
![]()
這一篇文章呢,我主要是想和你分享一下我的開發(fā)歷程,也順帶來拷打 GLM 4.7 進(jìn)行 AI Coding 的能力邊界。
我總結(jié)了一下大概的流程是這樣子的:

其中,我比較關(guān)心的是人物一致性解決方案:
![]()
在對(duì)應(yīng)場(chǎng)景的配置默認(rèn)是給了 7 個(gè),角色是給了 2 個(gè),然后這些我都設(shè)置成可配置的了。
![]()
下面分享下我的開發(fā)歷程,可能會(huì)顯得文章會(huì)有些長,建議點(diǎn)贊收藏,轉(zhuǎn)發(fā)給需要的朋友
工具選擇
這次的任務(wù)有點(diǎn)重,工具選擇很重要,終端的話就選最近全網(wǎng)又在噴火的 Claude Code,模型用智譜 GLM 4.7。
幾方面考慮,一個(gè)是能力,一個(gè)是價(jià)格。
能力側(cè),先來看一張時(shí)間取自于 2025 年 12 月 22日的模型榜單圖,可以看到和 Claude Opus 4.5 打的有來有回。
![]()
再看看最關(guān)心的價(jià)格,這是 Claude 的:
![]()
這個(gè)是 GLM Coding 的套餐,不想說啥了,沒有對(duì)比就沒有傷害啊。
![]()
雖然我看了非常多網(wǎng)上的測(cè)評(píng),但一開始對(duì) GLM 4.7 做漫劇 APP 這件事,本身是抱有懷疑態(tài)度的,后面證明,他真的行,而且超出了我的預(yù)期。
開發(fā)歷程
首先直接編寫提示詞告知要做什么,這個(gè)很重要。
提示詞:現(xiàn)在幫我編寫一個(gè)安卓軟件,用途是制作AI 漫劇,和用戶對(duì)話的方式來了解用戶想制作什么樣子的漫劇,對(duì)話大模型使用的是 glm 4.7,相關(guān)的接口文檔都保存在這個(gè)目錄下面
director_ai/docs/圖像生成API接口文檔.md
director_ai/docs/視頻處理全集.md
這里的接口文檔是我去網(wǎng)站上下載來了的。![]()
Claude Code 像打了雞血一樣,吭哧吭哧的干貨。
![]()
這里最好給 GLM 4.7 規(guī)劃下架構(gòu),防止跑偏:
提示詞:
核心技術(shù)棧推薦
為了最快速度出原型(MVP)且適配安卓:
開發(fā)工具 (IDE/Agent): Claude Code (基于 CLI 的全能編程助手)。
前端框架: Flutter (Dart)。
理由: Claude 對(duì) Flutter 代碼生成的準(zhǔn)確度極高,且 Flutter 開發(fā)安卓應(yīng)用速度快、UI 效果好,能夠輕松處理異步網(wǎng)絡(luò)請(qǐng)求(API 調(diào)用)。
核心大腦: GLM-4.7 (通過 API 調(diào)用)。
理由: 負(fù)責(zé)理解用戶意圖,拆解步驟,輸出 JSON 格式的指令。多模態(tài)接口: tu-zi.com (你提供的 Gemini 繪圖 + Veo 視頻接口)。
架構(gòu)設(shè)計(jì)這里我采用 ReAct 模式 (Reasoning + Acting):
架構(gòu)設(shè)計(jì):ReAct 模式 (Reasoning + Acting)
為了凸顯 GLM-4.7 的規(guī)劃能力,不能把代碼寫死(硬編碼)。我們需要實(shí)現(xiàn)一個(gè)簡(jiǎn)單的 ReAct (Reason-Act) 循環(huán)。
流程邏輯:
用戶輸入: "幫我做一個(gè)熊貓吃竹子的視頻,要可愛的風(fēng)格。"
GLM-4.7 (規(guī)劃層): 思考并輸出:"我需要先生成文案,然后生成圖片,最后生成視頻。" -> 輸出第一個(gè)工具調(diào)用指令。
App (執(zhí)行層): 解析指令,調(diào)用繪圖 API。
App (反饋層): 將圖片 URL 喂回給 GLM-4.7。
GLM-4.7 (規(guī)劃層): "收到圖片,現(xiàn)在調(diào)用視頻生成接口。"App (執(zhí)行層): 調(diào)用 Veo 視頻接口。
小白不用管,就是一蹲亂七八糟的基礎(chǔ)搭建,我一路yes 就行。本身我也不懂 App 開發(fā),此時(shí)我選擇相信 GLM 4.7;
接下來解釋 Coding 時(shí)刻,大概用了十分鐘,一個(gè)由零到一的 APP 雛形誕生了,這是使用的 token 量。
![]()
電腦調(diào)試啟動(dòng)那一刻我驚呆了。真的出來了,看看界面,美學(xué)也還很不錯(cuò)。
![]()
聊天框,正常的 ai 聊天,居然還支持了相機(jī)圖片上傳牛掰,UI 界面簡(jiǎn)約,正和我心意,還細(xì)心的加了了彩色邊框,真的是完全可用啊。
還貼心的加上了對(duì)話記錄:
![]()
666 想的真周到
接著試試生成視頻的功能怎么樣?
最近喜歡吃草莓蛋糕,那就生成一個(gè)“做草莓蛋糕的視頻”:
prompt: 生成一個(gè)小姐姐做草莓蛋糕的視頻 可以看到漫導(dǎo) APP 先會(huì)創(chuàng)建劇本:
![]()
很快就生成了劇本:
![]()
接著是生成角色圖,能生成人物三視圖,我們都知道漫劇最難的就是人物一致性,確定主角的三視圖,貫穿整個(gè)劇本主角。
![]()
太細(xì)節(jié)了還有情感鉤子:
![]()
要是用這個(gè)寫個(gè)霸道總裁愛上我的故事也不錯(cuò)吧,哈哈哈哈。
接下來看看具體的場(chǎng)景:
![]()
展開一個(gè)場(chǎng)景看看它是怎么規(guī)劃的:
![]()
好的現(xiàn)在確認(rèn)劇本,回到頁面看到直接有任務(wù)在執(zhí)行:
![]()
看了流程后不得不感嘆,真兒把老己當(dāng)成導(dǎo)演了;
先生成不同的場(chǎng)景,每個(gè)根據(jù)有前面主角的三視圖和提示詞生成的分鏡圖,再由分鏡圖和視頻提示詞生成分鏡視頻。有點(diǎn)導(dǎo)演味道了。
看看具體的場(chǎng)景分鏡是怎么規(guī)劃的:
![]()
確實(shí)可以,視頻提示詞部分,規(guī)劃了主角的言語和鏡頭方式。
![]()
不用擔(dān)心失敗,還會(huì)重試,這個(gè)大概就是有些視頻 api 會(huì)觸發(fā)公共安全,會(huì)失敗任務(wù),此時(shí) GLM 4.7 會(huì)根據(jù)提示弱化提示詞,我看了一下日志大概是這樣.
suspension> [ ] I/flutter ( 3052): ? [22:55:29] [場(chǎng)景重試] 場(chǎng)景 1 重試失敗: Exception: 視頻生成失敗: {code: generation_failed, message: check status failed:
{"name":"c39408d4117fcedb3a89153dc5006a7904","error":{"code":3,"message":"PUBLIC_ERROR_AUDIO_FILTERED"}}}
場(chǎng)景1重試失敗的根本原因是PUBLIC_ERROR_AUDIO_FILTERED(音頻被過濾)——平臺(tái)審核判定你場(chǎng)景1提示詞中的語音/音效描述違規(guī),直接攔截了音頻生成,進(jìn)而導(dǎo)致整個(gè)視頻生成流程終止(和畫面描述無關(guān),只卡音頻環(huán)節(jié))。
最終確定場(chǎng)景1最終合規(guī)版提示詞(徹底規(guī)避音頻過濾):
Anime style, manga art, 2D animation, cel shaded.
Soft wide shot with gentle slow pan to the right, gradually revealing a tidy kitchen counter and fresh ingredients. A 17-year-old Japanese girl (anime style, Asian features) arranges eggs and flour softly on the counter, turns to the camera with a gentle warm smile, and says "今天要做個(gè)草莓蛋糕" in a soft warm tone (female voice, quiet whisper, low volume, calm mild speech).
Warm soft gentle lighting, peaceful and cozy kitchen atmosphere, no loud sounds, only soft gentle voice.然后基本上出錯(cuò)后,再讓 Claude Code 配合 GLM 4.7,不斷調(diào)整,最終出來了,我們想要的效果。
如果非要較真,漫導(dǎo) APP 和實(shí)際上的 AI 漫劇還有點(diǎn)距離,但可以想象通過多次的迭代和優(yōu)化,一定可以更好。
要知道,這個(gè) APP 實(shí)際耗時(shí)還沒到 5 天啊,這放在以前,就這 MVP 版本,沒個(gè)把星期開發(fā)不出來。
同時(shí)也驗(yàn)證了一個(gè)觀點(diǎn),現(xiàn)在 AI Coding,真的并非 Claude 不可,不給用還死貴,但凡有像 GLM 4.7 這樣高性價(jià)比的模型取代,誰還用 Claude 啊?
這個(gè) APP,我已經(jīng)開源到 GitHub 了,你可以加上自己的 API,按照教程來玩一玩。
當(dāng)然了如果你是開發(fā)者或者 AI Coder,歡迎來 PR,把他做好。
好啦,謝謝你看我的文章,如果喜歡可以點(diǎn)贊轉(zhuǎn)發(fā)給需要的朋友,我們下一期再見。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.