對話 | 唐小引 嘉賓 | 王詠剛
責(zé)編 | 屠敏
出品 | CSDN(ID:CSDNnews)
從寫代碼、調(diào)模型,到生成內(nèi)容、驅(qū)動產(chǎn)品,AI 正在重新塑造“創(chuàng)造”的方式,也不斷逼近一個繞不開的問題:當(dāng)機器越來越能干,程序員究竟該站在什么位置?
爭論從未停過,但比結(jié)論更重要的,或許是那些真正站在浪潮里、親身參與變革的人給出的實踐答案。
王詠剛,就是這樣一位長期身處一線的人。
回顧他曾在谷歌的十余年生涯,其參與過構(gòu)建桌面搜索的核心算法,打磨輸入法的底層邏輯,拓展產(chǎn)品搜索與深度知識圖譜,也加入過谷歌首頁涂鴉等項目的研發(fā)。從底層架構(gòu)到創(chuàng)意產(chǎn)品,他的足跡幾乎覆蓋了技術(shù)與產(chǎn)品的各個層面。
離開谷歌后,他投身創(chuàng)新工場,既是 AI 科研的引路人,也是創(chuàng)業(yè)者的同行者,見證無數(shù) AI 公司從萌芽、孵化到上市。他一手發(fā)起的 DeeCamp 項目,專注培養(yǎng)應(yīng)用 AI 人才,將技術(shù)的力量延展至更多可能。
如今,當(dāng)不少人還在爭論 AI 是否會取代程序員時,作為 Mootion 的創(chuàng)始人,王詠剛又一次站在了潮頭。他帶領(lǐng)團隊闖進(jìn)了 AI 視頻生成賽道,嘗試讓“AI 導(dǎo)演”走進(jìn)普通人的生活。
他是工程師,是投資人,是連續(xù)創(chuàng)業(yè)者,更是 AI 發(fā)展的親歷者與推動者,他的故事,恰好與技術(shù)的每一次變革交織。
![]()
當(dāng)我們思考 AI 時代的創(chuàng)造邊界在哪里,程序員該如何與 AI 共生,創(chuàng)業(yè)路上的機遇與焦慮又該如何安放時,在 2025 年 8 月 15 日首日的現(xiàn)場直播中,CSDN&《新程序員》執(zhí)行總編唐小引與Mootion AI 創(chuàng)始人、前創(chuàng)新工場 AI 工程院執(zhí)行院長王詠剛展開了一場深度對話,試圖解答這些關(guān)于 AI 技術(shù)、創(chuàng)造與未來的問題,在此特別編輯成文音視,希望為大家?guī)硪稽c思維的漣漪。
歡迎收聽音頻播客,如有興趣觀看完整視頻,可在文末獲取
以下為對話內(nèi)容:
![]()
做了這么多年程序員、投資人,為何在 AI 時代選擇創(chuàng)業(yè)?
唐小引:今天對話的嘉賓,很多資深程序員應(yīng)該都比較了解——王詠剛老師。王老師可以和大家打個招呼,做個自我介紹。
王詠剛:大家好。我算是個老程序員了。從 PC、移動互聯(lián)網(wǎng)到 AI 時代,在每一個技術(shù)變革的熱點時期,我都在一線堅持寫程序。到今天更讓我興奮的 AI 時代,我依然在不斷地寫程序。中間我也做過投資、孵化和教育培訓(xùn)。
現(xiàn)在,我很專心地在帶一個自己的創(chuàng)業(yè)小團隊,在 AI 時代探索技術(shù)能把人帶向何方,未來產(chǎn)品應(yīng)該如何定義。我在每一個時代都特別有興趣去做這些最前沿的事情。
唐小引:您編程多少年了?
王詠剛:編程經(jīng)驗太多了,說完了就暴露年齡了。
唐小引:您是 AI 和 Coding 界里的“老法師”,并深耕 AI,基本上參與了 AI 發(fā)展的整個歷程。此前,李開復(fù)老師把 AI 分成 1.0、2.0 兩個階段,您在這些階段里基本上都參與了。這是您第一次創(chuàng)業(yè)嗎?
王詠剛:第一次作為一把手創(chuàng)業(yè)。之前作為聯(lián)合創(chuàng)始人,有過好幾次經(jīng)歷了。
唐小引:是什么讓您在現(xiàn)在大模型的時代,選擇做一把手投身創(chuàng)業(yè)?
王詠剛:其實沒有那么宏大的敘事,也沒那么復(fù)雜,說到底挺簡單的。之前我在世界上最好的團隊和公司平臺里做了很長時間程序員;后來又在一個全新的平臺,做過投資和孵化相關(guān)的事情。經(jīng)歷這些之后,我就一直在想:
以前作為聯(lián)合創(chuàng)始人和別人一起創(chuàng)業(yè),甚至把公司推到上市。那么,在今天這個全新的 AI 時代,很多東西都還沒有被定義,大家也不知道未來的公司、產(chǎn)品、技術(shù)到底會長成什么樣,完全未知的情況下,我要不要作為一個一把手,帶一個小團隊去做一次實驗?
以前更多是參與已經(jīng)成形的大潮,現(xiàn)在既然潮頭的方向都看不清,那我們干脆就在潮頭游泳試試,就是這么簡單的思考。
唐小引:就是還沒有一個特別明確的方向。
王詠剛:我不知道大家對目前的 AI 創(chuàng)業(yè)、對投融資的了解,我覺得它還是一個相對比較偏早期的狀態(tài)。
![]()
AI 商業(yè)模式仍未定,多數(shù)用戶只是“嘗鮮”
唐小引:其實編程本身更偏理性,而您的創(chuàng)業(yè)方向卻選了更貼近人文與藝術(shù)表達(dá)的視頻生成賽道。您希望讓“AI 導(dǎo)演”普惠大眾,能否結(jié)合戰(zhàn)略判斷與個人興趣,談?wù)勀吹降奈Ec機?同時結(jié)合自身經(jīng)歷,有哪些見解可以分享?
王詠剛:現(xiàn)在 AI 的技術(shù)形勢非常好,但商業(yè)形式很撲朔迷離。關(guān)于 AI 的商業(yè)落地路徑、最終產(chǎn)品如何幫助人類,這件事如今還有非常多的問號。
不像當(dāng)年的移動互聯(lián)網(wǎng),iPhone 和 iOS 平臺出現(xiàn)后,大家無形中有一個共識:只要把移動生活中的信息、交易和內(nèi)容供給都做好,平臺自然會出現(xiàn)。正因為這種確定性,移動互聯(lián)網(wǎng)時代出現(xiàn)了所謂的創(chuàng)業(yè)紅利,那是一個巨大的、可以自由做產(chǎn)品的海洋,不管是藍(lán)海還是紅海。
而今天的情況是,技術(shù)被拔得非常高,可技術(shù)與“真正解決人類問題”之間,在很多領(lǐng)域還離得比較遠(yuǎn)。即便到現(xiàn)在,ChatGPT 已經(jīng)出現(xiàn)將近三年,這幾年時間,我認(rèn)為 AI 只解決了(指日常可以每天都用)編程這一件事情。
唐小引:先卷程序員。至于其他賽道卷得怎么樣,還是未知數(shù)。
王詠剛:因為在其他很多賽道上,現(xiàn)階段都面臨著一種相似的狀況:當(dāng)你推出一款新的 AI 產(chǎn)品時,嘗鮮用戶很愿意去用,但這些“嘗鮮用戶”并不等代表產(chǎn)品普惠的受眾群體。
我在這里不討論基礎(chǔ)模型,像 ChatGPT 這樣擁有數(shù)億日活和月活的產(chǎn)品,規(guī)模確實非常大,這是因為它提供的是一種更底層、更通用的能力。但在基礎(chǔ)模型之上做應(yīng)用時,今天大量 AI 應(yīng)用的用戶構(gòu)成,仍然以嘗鮮者為主。
舉個例子:現(xiàn)在有不少 AI 應(yīng)用宣稱“什么都能做”。當(dāng)我把這些產(chǎn)品介紹給一位不在這個行業(yè)的普通朋友,譬如他在傳統(tǒng)行業(yè)從事日常的辦公室工作,我會告訴他,日常辦公的很多事情用這種通用的 AI Agent 都可以完成。
他的第一個反應(yīng)通常是:“具體能做什么?”在我實際演示之后,他的第二個反饋往往是:“這不就是去網(wǎng)上查點資料,再整理成一個表格嗎?”隨后他會打開 Excel,說:“我還是覺得 Excel 更好用。”對于普通用戶而言,當(dāng)前的 AI 應(yīng)用,現(xiàn)實體驗大致就是這樣。
![]()
AI 時代的范式轉(zhuǎn)移:編程與人機協(xié)作
唐小引:您覺得過去積累的經(jīng)驗,在如今的 AI 時代會不會反而變成一種負(fù)擔(dān)?
王詠剛:一定是負(fù)擔(dān),尤其是在今年 AI 已經(jīng)把整體編程能力推到了“及格線”之上時,這種經(jīng)驗帶來的負(fù)擔(dān)幾乎是不可避免的。
至少我這半年是一個遷移期,以前我對代碼有很強的安全感,總覺得關(guān)鍵代碼必須自己親手寫,現(xiàn)在我已經(jīng)徹底轉(zhuǎn)變成了一行代碼都不寫,讓 AI 幫我產(chǎn)出代碼,而且產(chǎn)出量非常大,既有我們團隊的原型代碼,也有用在工程領(lǐng)域的產(chǎn)品代碼。這個思想轉(zhuǎn)變真的是非常巨大。
我的整個工作形態(tài)都不一樣了。原來我在辦公室坐的時間極長,現(xiàn)在都不坐了。因為我總是發(fā)著指令,就遛彎去了,我去打杯咖啡或者打杯水,然后回來再看 AI 做得怎么樣。
唐小引:在實際使用 AI 編程的過程中,比如讓 AI 生成單元測試時,您提到失敗率并不低。在這種情況下,人類應(yīng)該在哪些環(huán)節(jié)介入,進(jìn)行監(jiān)督和判斷?另外,您也多次提到以工作流為核心的人機協(xié)作方式,能不能結(jié)合具體實踐,談?wù)勥@種協(xié)作該怎么設(shè)計?
王詠剛:跟 AI 相處,關(guān)鍵不是誰控制誰,而是一起找到一種“合拍”的方式。就像兩個從來沒見過、背景完全不同的人一起做事,需要很多碰撞。
和 AI 也是一樣,甚至不同的 AI,就像不同的人。比如你用 Claude,和用 GPT,好像面對的是兩個性格、能力都不同的人,這點特別有意思。他們擅長的地方不同,犯的錯也不一樣。所以你還得適應(yīng):用 GPT 的時候該怎么配合,用 DeepSeek 的時候怎么來,用 Claude 又是另一套方法。
也正因為這樣,我一直在不斷嘗試,我跟 AI 最好的交流方式到底是什么?是我先把設(shè)計文檔稍微寫幾句,還是讓它根據(jù)我的思路寫設(shè)計文檔?是我直接把單元測試寫了,然后 AI 幫我寫代碼?還是我把代碼寫了,AI 把單元測試寫了?各種方式我都在試,特別有意思。
唐小引:大模型帶來的是一種范式轉(zhuǎn)移,但很多規(guī)則本身似乎并沒有被徹底顛覆。您怎么看這一點?
王詠剛:我相信顛覆性的變化來自于人和電腦的交互方式。傳統(tǒng)的人機交互,無論是手機還是桌面電腦,本質(zhì)上都是一個相對確定的過程。你給工具、軟件一個指令時,你會非常確定你要干什么,要得到什么。
現(xiàn)在當(dāng)你在和一個 AI 協(xié)作、結(jié)對編程或者結(jié)對創(chuàng)建一個視頻、一個分鏡劇本時,最大的模式轉(zhuǎn)變是你沒有辦法信任 AI。你對它的脾氣、秉性,以及它每次輸出結(jié)果都可能是有一定概率出偏差的,那你怎么樣去跟偏差一起工作,怎么樣跟概率一起工作?這件事本身就很有意思。
從另一個角度看,其實也有點可怕。以前我們用計算器,按完鍵一定會得到那個數(shù);現(xiàn)在你用的“計算器”,不一定得這個數(shù),而且這個計算器還會反過來跟你說:“我建議你怎么算。”
如果今天 AI 能力足夠的話,那手機一定不會這么設(shè)計,因為今天的手機是一個以人類指令驅(qū)動的操作系統(tǒng),操作系統(tǒng)和手機的硬件本身就不可能這么設(shè)計。它一定需要手機里進(jìn)駐一個 AI,而這個 AI 和人類之間一定是一個相互協(xié)商的過程。我需要花時間了解你的強項和弱點,然后一起約定一個工作流。
我和 AI 結(jié)對編程時,大概能看出這個雛形,我們就是在慢慢磨合與協(xié)商。比如 Claude Code 有一個 claude.md 的文件,真正用過編程的人都知道,claude.md 就像一個“協(xié)商協(xié)議”。我覺得哪里不好,并不會自己去改代碼,而是直接跟 AI 說:“把我這個想法記進(jìn) claude.md 里,以后你都按這個來。”它提出一個好主意,我也會讓它記進(jìn)去:“以后我也這么配合你。”這就像我們倆一直在磨合一個事情。
唐小引:那您覺得,AI 會不會朝著確定性方向演進(jìn)?畢竟從大模型到 AI Agent,我們現(xiàn)在面對的幾乎全都是不確定性問題,而它的底層又是概率模型。
王詠剛:不需要。因為這一代 AI,恰恰就是為了解決那些過去解決不好的不確定性問題而出現(xiàn)的。確定性問題,比如你要嚴(yán)格、確定地推導(dǎo)一個數(shù)學(xué)公式,那完全可以交給 Mathematica 這種工具,結(jié)果是確定的。現(xiàn)在的問題是,以前人類覺得機器不智能,就是因為機器不擅長處理不確定性的問題。但是在不確定性問題上,包括程序設(shè)計、UI 設(shè)計、把 UI 變成程序、把程序變成產(chǎn)品、再判斷這個產(chǎn)品到底好不好,當(dāng) AI 能參與的時候,我覺得模式變遷最重要的一點就是:
以前我和電腦的合作,更像人和一個計算器或算盤的合作。
今天和 AI 的合作,就像是人和一個初級水平的人、實習(xí)生的合作。你招了一個實習(xí)生,還是要琢磨這個實習(xí)生脾氣怎么樣,長處是什么,弱點是什么,你還是要順著他來,商量一個工作方法,能夠把這件事做好。
![]()
AI 更擅長“模仿”、“組合式創(chuàng)造”
唐小引:之前關(guān)于 AI 的討論里,有一種流行的說法:AI 先能做的,是“詩和遠(yuǎn)方”,也就是藝術(shù)創(chuàng)作和創(chuàng)意表達(dá)。而那些我們原本希望 AI 能接手的、更偏理性和規(guī)則的工作,卻還是得人類自己來完成。
也有人認(rèn)為,AI 更擅長的是模擬人類大腦能完成的腦力勞動,但一旦涉及現(xiàn)實世界的復(fù)雜執(zhí)行,比如偏“動手”的事情,就會變得很難。您有什么樣的看法?
王詠剛:這兩件事其實并不矛盾。我先說我的判斷,再解釋為什么它們并不沖突。
我之前提到過一個問題:現(xiàn)在的 AI 基礎(chǔ)模型,加上 Agent 這一套組合,最擅長解決什么?
一個非常明顯的結(jié)論是,編程相關(guān)的問題已經(jīng)被解決得相當(dāng)好了,甚至在不少場景下可以直接替代人類。除此之外,那些看起來需要一定“創(chuàng)造性”,但本質(zhì)上仍然有邏輯可循、屬于不確定但可推演領(lǐng)域的任務(wù),比如輔助數(shù)學(xué)解題、按邏輯結(jié)構(gòu)組織一份報告、整理和分析數(shù)據(jù),今天的 AI 表現(xiàn)都已經(jīng)不錯。
但反過來,在真正需要藝術(shù)創(chuàng)意、需要洞察的地方,AI 的能力反而很弱。比如我把一份市場數(shù)據(jù)交給它,問:“這份數(shù)據(jù)背后的見解是什么?你的洞見在哪里?”它給出的答案往往都很“水”,這一點我相信大家多少都親身體驗過。
這其實并不違背之前那種“AI 擅長詩和遠(yuǎn)方”的說法。在我看來,那更多是一種表象。AI 的真正強項在于模仿,而模仿本身就有很強的迷惑性,會給人一種它很擅長“詩和遠(yuǎn)方”的感覺。
為什么這么說?比如讓 AI 模仿一首唐詩,它今天完全可以寫得中規(guī)中矩,讀起來也確實像一首唐詩;再比如模仿《過秦論》,寫一篇《過美國論》,味道往往也能對得上。畫畫也是同樣的道理,AI 生成的作品,通常都是一兩種、甚至兩三種人類畫家風(fēng)格的融合。
唐小引:我之前試過讓 GPT、DeepSeek 還有 Claude 來模仿馬伯庸《太白金星有點煩》的風(fēng)格,寫一個“孫悟空有點慘”,它模仿的語氣還是蠻形象的。
王詠剛:當(dāng)你給 AI 一個明確的樣本,不管是一幅畫、一段音樂,還是一部小說,然后讓它去模仿時,會發(fā)現(xiàn)它做得相當(dāng)“順”,效果也很舒服。但反過來,如果你直接對 AI 說:我想要一種真正意義上的創(chuàng)造,也就是作品里要有別人沒有的東西,這件事就會變得非常難。
我們過去看到的很多 AI 所謂的“創(chuàng)造”,本質(zhì)上其實是一種組合:把已有的元素,用不同方式重新拼在一起。比如,以前外星人的形象大多是科幻風(fēng)、賽博朋克風(fēng),我讓 AI 用中國水墨風(fēng)去畫外星人,它會做得非常好。但你反過來想,這算不算真正的創(chuàng)造?
在我看來,這更像是一種“組合式創(chuàng)造”,而不是人類畫家在長期生活積累、經(jīng)驗沉淀和深度思考之后,做出的那種原生、突破性的表達(dá)。雖然能做出這種突破性創(chuàng)作的人類本身也并不多,但至少在今天,這種能力是 AI 不具備的。
所以,這兩件事并不矛盾。AI 要替代人類,最先替代的一定是那些邏輯清晰、可以用形式化語言描述的工作,比如編程,以及一部分辦公類任務(wù)。
但如果換一個角度看,AI 在藝術(shù)創(chuàng)作上的能力,達(dá)到人類小學(xué)生或初級水平,我認(rèn)為是完全可以的。只是想要達(dá)到、甚至替代成熟人類創(chuàng)作者的程度,目前來看仍然非常困難。
唐小引:我現(xiàn)在讓 AI 去翻譯,或者是基于資料進(jìn)行基礎(chǔ)的組合,這個是可以滿足的。但是如果希望能夠具有我的風(fēng)格,能夠?qū)懙眉?xì)膩夯實,具備個人色彩,到現(xiàn)在還沒有實現(xiàn)。
王詠剛:太難了,想讓馬伯庸這樣的人失業(yè)太難了。
![]()
當(dāng)前 AI 技術(shù)的上限與未來
唐小引:之前我們普遍認(rèn)為,AI 的能力基本等同于模型本身的能力。最早大家還會吐槽它“不太行”,但后來發(fā)現(xiàn),它在編程領(lǐng)域的進(jìn)步速度非常快,于是很多人就把 AI 的發(fā)展,理解成一條類似程序員的進(jìn)階之路,從初級到高級升級打怪。不過我今天聽您提到一個不一樣的判斷:AI 的上限,或者說天花板,就是人類的平均水平。
王詠剛:對,這是我個人的看法。我一直認(rèn)為,這一代的 Transformer-based 的知識壓縮算法,可能就是把人類的平均知識做一個數(shù)學(xué)上的抽象,然后儲存在模型里面。至于 AI 能夠從里面得到一些人類的高級知識,我是持懷疑態(tài)度的。
人類能夠有突破性創(chuàng)造的畫家本來就沒幾個,一個時代可能也就十幾位。但這些人的作品數(shù)據(jù),很可能會被淹沒在浩如煙海的那些平均甚至相對比較差的人類畫家的作品里面。所以 AI 用 Transformer 這種基于 Token 的方式去壓縮知識,我很懷疑它沒有辦法把所謂人類的高水平知識提煉出來,它提煉出來的只能是每個行業(yè)里面人類的平均知識。
當(dāng)然,我不是說 AI 未來達(dá)不到人類的高級水平,或者未來 AGI 沒辦法實現(xiàn)。我很支持去年 Ilya Sutskever 那個想法,就是這一代基于 Transformer 的 AI 可能就這樣了,它未來能達(dá)到的上限就是人類的平均知識,現(xiàn)在還沒達(dá)到。如果想讓 AI 從中提煉出人類的高級知識,甚至創(chuàng)造出比人類更強的知識能力,我覺得可能今天的 AI 算法基礎(chǔ)還是需要再升級。
唐小引:那現(xiàn)在有明確的升級方向嗎?
王詠剛:目前科研領(lǐng)域里,還都只是一些初步的想法和實驗,暫時沒出現(xiàn)太多讓人興奮的突破。值得注意的是,我比較關(guān)注香港大學(xué)馬毅老師的研究,他在數(shù)學(xué)基礎(chǔ)上去做的關(guān)于這一代 AI 理論上限的推導(dǎo)。我數(shù)學(xué)不好,看起來比較吃力,但是讀懂一些之后會發(fā)現(xiàn)好像是有道理,就是在數(shù)學(xué)基礎(chǔ)上可能也不支持我們這一代 AI 達(dá)到一個我們預(yù)期的 AGI 的水平。
唐小引:您的結(jié)論是,這個技術(shù)瓶頸可能很難突破?
王詠剛:在這一代技術(shù)框架下是很難突破。但是新的技術(shù)到底是什么?就像退回到 2000 年,也沒人會預(yù)測到當(dāng)時的深度神經(jīng)網(wǎng)絡(luò)可以成為達(dá)到今天水平的這樣一個主流。
唐小引:所以這一切還是充滿了不確定性。
王詠剛:需要科研實驗來驗證。
![]()
視頻生成的探索:從“塑料感”到真實感
唐小引:我記得之前有不少業(yè)內(nèi)專家判斷,大語言模型的戰(zhàn)爭可能已經(jīng)結(jié)束了,接下來行業(yè)的核心會逐步轉(zhuǎn)向”卷“多模態(tài)。當(dāng)時的共識是,多模態(tài)離真正成熟和大規(guī)模落地還比較遠(yuǎn)。
但從現(xiàn)在來看,多模態(tài)確實在持續(xù)推進(jìn)。以視頻生成為例,不僅生成時長從最初的幾秒不斷拉長,很多細(xì)節(jié)也實現(xiàn)得更好。在這樣的背景下,您能不能結(jié)合您本身的創(chuàng)業(yè)項目 Mootion,分享您對視頻生成以及多模態(tài) AI 方面的思考?
王詠剛:我們大概在兩年前開始進(jìn)入這個領(lǐng)域,主要聚焦在動畫和視頻生成方向,用 AI 技術(shù)去幫助專業(yè)端的內(nèi)容生產(chǎn),同時也做了 Mootion.com 這樣一個面向 C 端的工具,讓沒有任何專業(yè)背景的人,只需要輸入一句提示詞,就能生成相對簡單的短視頻。這兩件事其實是一件事,就是讓 AI 去幫助多模態(tài)的內(nèi)容生產(chǎn)。
我特別堅信的一點是,AI 在多模態(tài)內(nèi)容生產(chǎn)的藝術(shù)造詣上、在審美能力上,其實還有很長的路要走。它必須至少達(dá)到一個初級電影學(xué)院畢業(yè)的藝術(shù)工作者水平才行,這個至少還要一兩年甚至更長的時間。
但換一個角度看,在今天的 AI 提供的一些基礎(chǔ)能力,尤其是生成圖片、視頻里面的一些控制能力上,我們團隊追求的是加強對 AI 的控制能力。具體做法是,用人類設(shè)計好的思路、范式或者引導(dǎo),比如說縮略圖的引導(dǎo)、文字的引導(dǎo),讓 AI 在最終生成效果上更接近人類的目標(biāo)。這個是我覺得今天做應(yīng)用不得不選的路徑。
這跟 AI 編程處在兩個世界了。AI 編程屬于我可以放手讓 AI 去設(shè)計任務(wù)怎么做,因為它掌握了足夠的能力。
唐小引:相當(dāng)于在這個場景下,AI 可以自主調(diào)用工具,執(zhí)行復(fù)雜的任務(wù)。
王詠剛:沒錯。但在動畫和視頻生成領(lǐng)域,如果完全放手讓 AI 自由發(fā)揮,我們也做過不少實驗,結(jié)果基本都會變成一種“放羊”的狀態(tài),AI 不知道要干出點什么來。
所以放手讓 AI 自己做不是不行,而是有兩個前提:一類叫“人類抽卡”,另一類叫人類的控制信息。本質(zhì)是一樣的,就是人類不滿意 AI 生成內(nèi)容的質(zhì)量,要么從里面去控制,要么用篩選的方法找出生成得好的東西。
現(xiàn)在大家在網(wǎng)上看到的那些看起來創(chuàng)意十足的 AI 短視頻、AI 短劇,其實不外乎就是有大量的人類控制,加上大量的人類抽卡,做起來都還蠻有挑戰(zhàn)的,不是說一個沒有任何藝術(shù)細(xì)胞的人就可以做到。
唐小引:這個問題我自己其實也親身試過。國內(nèi)大家可能用「即夢」比較多,我算是它的深度用戶。之前我在抖音上刷到一部叫《權(quán)利童話》的作品,當(dāng)時特別驚艷,因為它幾乎是完全用 AI 制作的。
后來我也想自己試一試,做一個類似的、以《西游記》為主題的內(nèi)容。但真正上手之后,我也說不清到底是提示詞寫得不到位,還是自己沒辦法用“導(dǎo)演的語言”把需求表達(dá)清楚,總之就是越做越不滿意,最后只能不了了之。對我這種完全不懂視頻制作的人來說,最挫敗的一點在于:我明明能感覺到成品不是自己想要的樣子,卻完全不知道問題出在哪兒,更談不上該怎么改。
王詠剛:是的,而且這里面有好多特別基礎(chǔ)的問題。我們現(xiàn)在必須跟導(dǎo)演合作才能知道這些事。不跟導(dǎo)演合作,我們的程序員或者算法工程師就覺得這事解決了,比如我已經(jīng)可以精確控制畫面里的人物拿刀殺死吸血鬼,這個鏡頭生成得足夠準(zhǔn)確,那肯定就沒問題了。
但這個鏡頭到底滿不滿意,是藝術(shù)判斷說了算的。
很多時候,導(dǎo)演一上來就會直接指出問題:“動作是對的,但你的鏡頭不覺得特別塑料感?”
“塑料感”就是特別假的意思,比如人物皮膚、吸血鬼的質(zhì)感,都像個塑料小人在動。動作很精準(zhǔn),環(huán)境也很逼真,人物形象本身似乎也挑不出硬傷,但是這個塑料感讓人看了就覺得是 AI 生成的,很假。對于真正有藝術(shù)追求的創(chuàng)作者來說,接下來的問題就變成了:我需要用什么方式去控制,讓 AI 能夠生成相對偏向生活真實的質(zhì)感。
唐小引:這正是我困惑的地方。
王詠剛:這背后牽扯到很多技術(shù)問題。我們在跟廣告、微短劇、番劇的導(dǎo)演合作的時候,發(fā)現(xiàn)一些導(dǎo)演的真實需求,反而變成了以前程序員、算法工程師完全不知道的需求。而我們要做的事情,就是解決這些問題。
一旦我們把這些事在工作流里面跑通了,就有機會把它們做成產(chǎn)品。只要實現(xiàn)了產(chǎn)品化,AI 生成內(nèi)容的質(zhì)量就會持續(xù)提升,慢慢擺脫現(xiàn)在這種明顯的“塑料感”。
換個角度說,今天只有專業(yè)人士才能做出的那種比較真實、超級好的效果,我們是希望通過我們的努力,能夠讓像你我這樣沒有特別多藝術(shù)熏陶的普通人也做出來。
![]()
唐小引:那在實踐中,有沒有一些比較基礎(chǔ)的探索方向或者解決方案?
王詠剛:其實思路有很多,我先隨便舉幾個大家在網(wǎng)上也能看到實際案例的方法。
比如,當(dāng) AI 生成的視頻“塑料感”特別重時,可以先從視頻首幀入手:把視頻的第一幀抽出來,用一款相對簡單的 AI 工具對這張圖進(jìn)行畫質(zhì)增強,比如做超分或者細(xì)節(jié)優(yōu)化。然后,把這張優(yōu)化后的圖片再交回給 AI 模型。接下來,通過一系列提示詞,讓它先保證前景背景不變,然后做一個重繪。
這個重繪要求,是我們跟導(dǎo)演商量出來的結(jié)果。比如,在打光上,我們會明確告訴 AI:“我希望這里面有一些午后的自然光”,“我希望里面有一些丁達(dá)爾現(xiàn)象”,就是有一些霧氣照過來之后會有光路;然后我會希望人的皮膚有一些質(zhì)感,比如說東亞人的皮膚會有一些雀斑、汗毛,描述皮膚的粗糙程度;還有對環(huán)境,會增加一些比如墻面的斑駁、器物的老化程度。這些東西都有助于 AI 在一張靜態(tài)圖上做處理。
今天 AI 做控制最大的問題是要控制變量。如果你讓它在整個視頻的每一幀上都做這個事,畫面很容易“飛掉”。但如果先把首幀單獨拎出來,通過反復(fù)調(diào)整和“抽卡”,從十幾張、甚至二十張生成結(jié)果中,選出真實感最好的一張作為基準(zhǔn),再把這張圖導(dǎo)入視頻軟件里,讓 AI 從這張圖開始向后延展生成,整體效果就會穩(wěn)定很多。
當(dāng)然,在一些不開放 API 的軟件里,這個過程依然需要靠大量抽卡來篩選優(yōu)質(zhì)結(jié)果。但還有一種更高效的做法:我們基于開源工具鏈,用 ComfyUI 搭建了一套專屬工作流,既能讓 AI 嚴(yán)格遵循首幀的風(fēng)格和細(xì)節(jié),又能對后續(xù)每一幀的關(guān)鍵變量,比如人物姿態(tài)、畫面深度圖進(jìn)行精確控制。這樣,出來一個從頭到尾都真實性非常高的視頻的概率就挺高的。
![]()
提示詞與上下文工程:兩種場景,兩種邏輯
唐小引:聽您剛才的分享,感覺在提示詞這一塊下了非常多功夫。
王詠剛:提示詞主要是用來打磨關(guān)鍵幀的。在視頻生成這個環(huán)節(jié)里,我們反而對提示詞的控制是比較弱的。
唐小引:像我這種沒有任何藝術(shù)訓(xùn)練背景的人,可能根本不知道提示詞該怎么寫。您剛才提到會和導(dǎo)演、藝術(shù)家一起合作,那這些關(guān)于提示詞的經(jīng)驗,會不會對外開放?
王詠剛:這些東西要開放其實很容易,也沒什么可保密的,本質(zhì)上就是導(dǎo)演在創(chuàng)作過程中的一些正常思考。而且現(xiàn)在的 AI,本身也已經(jīng)有能力幫你寫提示詞了。
比如導(dǎo)演會關(guān)注光照是不是足夠真實、場景質(zhì)感是不是可信、皮膚的真實度、器物老化的程度等等。如果你知道自己想要的是這些效果,但不知道該怎么表達(dá),你完全可以讓今天的 Claude 或 ChatGPT 幫你把提示詞寫出來,八九不離十,效果也還可以。但是你得先有這個要求,如果想不到這個要求,就到不了這一步。
唐小引:這其實也是很多人提到的一個點,即關(guān)鍵在于你能不能把問題提出來,能不能清楚地說出自己的需求,這是現(xiàn)在很多人最痛苦的地方。
但另一方面,在大家還被這個問題困住的時候,業(yè)內(nèi)又出現(xiàn)了一種趨勢,說“提示詞已經(jīng)過時了,上下文工程才是未來”,不知您怎么看這種說法?
王詠剛:這說的其實是完全兩件事。
當(dāng)我在生成一個具體內(nèi)容時,我對內(nèi)容本身的控制,提示詞仍然是非常關(guān)鍵的一環(huán)。不管是你剛才提到的姿態(tài)(pose)控制、深度圖(depth map)控制,還是其他形式的控制,提示詞都是不可替代的核心手段,這一點沒有任何爭議。
而談到“提示詞已經(jīng)死了,上下文工程才是未來”,討論的其實是 Agent 的創(chuàng)建,這和內(nèi)容創(chuàng)作是兩條完全不同的邏輯。
在搭建一個 AI 應(yīng)用時,以前我們主要靠給 AI 下任務(wù)指令,也就是寫提示詞。比如我要它做一個 PDF 摘要,我會把提示詞組織好,然后得到一個結(jié)果。
但現(xiàn)在,AI 要做的事情已經(jīng)復(fù)雜到可以成為一個自動運行的 Agent,比如 AI 編程 Agent、AI 數(shù)據(jù)整理 Agent、AI 市場調(diào)研 Agent。這類 Agent 會自己規(guī)劃和執(zhí)行一系列步驟,很多時候連提示詞都不需要你來寫,讓 AI 自己生成就可以。
那關(guān)鍵問題在哪里?關(guān)鍵在于,當(dāng) AI 自動化地執(zhí)行任務(wù)時,它在每一步,比如在一個循環(huán)(loop)里的每一輪都會判斷:用戶給我的任務(wù)完成了嗎?如果還沒完成,下一步該怎么做?而要設(shè)計下一步,它需要什么樣的上下文來支撐決策?
這里面設(shè)計誰的Agent 好,誰的 Agent 差,最重要的區(qū)別就在于,我給 AI 做每一步的那個上下文到底怎么組織。我們試過好幾次了,放手讓 AI 去干一件事的時候,我給它的上下文到底有哪些東西組成、怎么選擇、權(quán)重是什么、怎么組織順序、要不要壓縮,這個處理稍微差一點,最后 AI 效果就差很多。
唐小引:您之前提到團隊規(guī)模大概 20 人左右,一半是算法,一半是工程。從您剛才的分享來看,雖然和導(dǎo)演合作很多,但整個團隊看起來還是一個程序員基因非常重的團隊。
王詠剛:我們團隊里其實是有設(shè)計和美術(shù)團隊的,只是人數(shù)不多,一共兩個人:一個是央美畢業(yè)的,一個是設(shè)計學(xué)院畢業(yè)的,所以他們和導(dǎo)演溝通是完全沒有障礙的。
另外還有一個現(xiàn)實問題:在用 AI 幫助內(nèi)容創(chuàng)作這件事上,不能把導(dǎo)演關(guān)在自己的信息繭房里,只和藝術(shù)家打交道。如果導(dǎo)演不接觸技術(shù)人員,其實是有問題的。
很多導(dǎo)演是帶著原有的工作流來的,以前拍戲怎么拍,分工一二三都很清楚。但在這套流程里,其實是沒有 AI 位置的。你想讓 AI 真正參與進(jìn)來,絕不是簡單地替換某一個環(huán)節(jié)。
我們現(xiàn)在合作的導(dǎo)演,已經(jīng)逐漸被我們“教育”清楚一件事:整個工作都要重新設(shè)計。這個重新設(shè)計你得跟技術(shù)人員一起商量,因為你不跟技術(shù)人員商量,你根本了解不了技術(shù)能做什么,不能做什么。
![]()
從短劇到大電影,AI 正在顛覆影視工業(yè)
唐小引:工作流的變化對影視行業(yè)來說,是一個非常巨大的顛覆。畢竟影視行業(yè)的分工和協(xié)作非常密切,整個工作流應(yīng)該是非常成熟的機制了。
王詠剛:從長遠(yuǎn)來看,我覺得傳統(tǒng)影視行業(yè)肯定比不過未來 AI 驅(qū)動的影視行業(yè)。現(xiàn)在只能說是萌芽期,要去影響整個大電影流程還很難。但今年,尤其是 2025 年,我們看到一個現(xiàn)象:短劇平臺突然出現(xiàn)了大量非常簡單的 AI 2D 動漫短劇。
我可以非常確定地說,它們的制作方法和傳統(tǒng) 2D 動畫流程差距巨大。它們不再依賴傳統(tǒng)的原畫、分鏡等環(huán)節(jié),而是采用 AI 流程與傳統(tǒng) 2D 畫師混合的模式。因為短劇對產(chǎn)量要求極高,它成本可能只有真人微短劇的十分之一甚至更低。生產(chǎn)進(jìn)度也驚人:一般團隊一周能做兩集,效率高的團隊一周可以做五六集,這在傳統(tǒng) 2D 動畫中幾乎不可想象。
今天的 AI 讓導(dǎo)演在分鏡階段就能把可由 AI 完成的鏡頭和素材拆分出來,和懂 AI 的人員協(xié)作:流水線作業(yè)中,有些素材交給 AI,監(jiān)修去挑選;有些素材直接交給 2D 動畫師,動畫師用 AI 生成的人物快速 K 幀,最后通過 AE 或其他軟件把 AI 生成的畫面和人工動畫合成,完成出片。這套流程,已經(jīng)和傳統(tǒng) 2D 動畫的工作方式完全不同了。
唐小引:這我想起以前等《斗羅大陸》更新的時候,總覺得能不能畫快一點。
王詠剛:是的。
唐小引:您剛才判斷這是萌芽階段。短劇本身也很火,那么現(xiàn)在 AI 在影視領(lǐng)域的滲透率大概到了什么程度?
王詠剛:現(xiàn)在最典型的就是剛才說的 2D 動漫微短劇,以及一些故事性微廣告劇,這些的 AI 滲透率已經(jīng)非常高。從流程角度看,我調(diào)研下來,AI 可以承擔(dān)大約 60% 的工作量,人類完成剩下 40%。只要是簡單的 2D 動漫,AI 已經(jīng)能發(fā)揮關(guān)鍵作用,甚至超過人類。
但如果是 3D 動畫短劇,今天 AI 的成本還相對較高,這也是我們團隊和短劇、廣告團隊合作時重點解決的方向。
再往上,如果是大番劇、大型電視劇,或者數(shù)字傳媒中的一些內(nèi)容,AI 主要還是作為素材補充,尤其是那些真實拍攝難以實現(xiàn)的內(nèi)容,比如特殊天象、宇宙現(xiàn)象、科幻景觀,或者外星人角色。
滲透率最低的,反而是高要求的大制作電視劇或院線電影,比如王家衛(wèi)的《繁花》,或者像《哪吒》這樣的高水平動畫電影。《哪吒》這類影片耗時五年,成本非常高。對出品人和投資方來說,最大的問題是:我花五年做了一個大制作,最后觀眾可能不買賬,怎么辦?
AI 能解決的,其實不只是錢問題,更是時間問題。如果未來 5 到 10 年,像《哪吒》這樣的大制作 3D 電影,能通過 AI 與人工各分擔(dān)一半工作量,一年就拍完,那么對整個影視工業(yè)都是革命性的影響。這不僅能豐富供給,讓觀眾天天看到好作品,也能讓制作更靈活。今年流行什么就拍什么,投資方也不怕虧錢,投資意愿自然提升。
唐小引:您覺得這個未來會實現(xiàn)嗎?
王詠剛:我覺得一定會實現(xiàn),只是時間可能比大家想象的長。現(xiàn)在很多人看 AI 技術(shù),總以為一兩年就能解決問題。但院線大電影有一個特別細(xì)節(jié)的問題讓人困擾。我們和任何一個電影特效團隊交流時,他們的素材都是 LOG 格式的灰片,而 AI 輸出的都是 RGB 709 格式素材。這兩種素材根本無法混剪,也沒法混合做特效,這一下就把整個流程卡住了。
不過我相信,這只是技術(shù)問題,如果 AI 以后能拿更多的 LOG 格式去訓(xùn)練或者做一些數(shù)據(jù)增強,是有希望解決的。
![]()
AI 創(chuàng)業(yè)者的焦慮與投資邏輯
唐小引:作為程序員轉(zhuǎn)身投入 AI 視頻生成創(chuàng)業(yè),您覺得自己的優(yōu)勢和劣勢分別是什么?在做這個產(chǎn)品的過程中,哪些焦慮已經(jīng)被解決了,哪些到現(xiàn)在仍然很難緩解?
王詠剛:從程序員做視頻動畫這件事本身來說,首先,這是我們團隊比較感興趣的方向。其次,因為之前的投融資關(guān)系,我們現(xiàn)在的一位投資人,正好是國內(nèi)排名非常靠前的電影投資和制作方之一。這樣背景下,我們幾乎可以天天和專業(yè)團隊在一起,能看到國內(nèi)大電影是怎么制作的,交流成本非常低。興趣與背景剛好湊在一起,正好適合做這個事。
說到做 AI 的焦慮,不只是我焦慮,我接觸到的投資人比我還焦慮。放眼中國整個市場,大模型公司有的做得好,有的做得差。產(chǎn)品公司更是千頭萬緒,它不像當(dāng)年移動互聯(lián)網(wǎng)那樣,一時間呈現(xiàn)出明確的海洋。現(xiàn)在更像是從山上流下來的無數(shù)條小溪、小瀑布,看起來都很漂亮,但還沒有匯成一片海。我們找不到一個能讓非常多的創(chuàng)業(yè)者和資本在里面很舒服地游泳、沖浪的巨大海洋。今天相當(dāng)于大家開了一個非常好的頭,曙光非常亮,非常絢爛,就是感覺路程還有點遠(yuǎn)。
唐小引:過去大家?guī)缀醵荚诳椿A(chǔ)模型,“百模大戰(zhàn)”非常激烈;到現(xiàn)在,普遍的感受是模型開始趨同了,那接下來該投什么?我聽到的關(guān)鍵詞主要是 AI Agent 和 AI Infra。作為經(jīng)驗豐富的投資人,您怎么看?
王詠剛:如果你是一個今天想要投入創(chuàng)業(yè)的人,我會比較客觀地說一句:今天不是大家做得晚了,而是大多數(shù)人都做得太早了。這個事還在醞釀,還在形成一個未來巨大海洋的過程中。如果你還不確定的話,等一等會是一件好事。
但對投資人來說,時下國內(nèi)不少人的做法,恰恰是跟風(fēng)。比如 2023 年投大模型,2024 年投具身智能,2025 年又開始投 AI Agent。經(jīng)驗反復(fù)證明,這種跟風(fēng)基本是跟不住的,風(fēng)險很高,成功概率也極低。與其這樣,是不是還是應(yīng)該重新建立起我們對這件事的邏輯認(rèn)知,就是 AI 發(fā)展的規(guī)律是什么?盡量對它的成熟度曲線做一個相對比較準(zhǔn)的預(yù)測。
我那天和另一家機構(gòu)的投資人聊到,如果我現(xiàn)在不創(chuàng)業(yè),回去當(dāng)投資人,我可能會更愿意做兩件事:
第一,用相對小的籌碼去“看盤”,在不同賽道、不同類型的人身上,投一些非常早期的項目。因為只有真的投了,你才會有真實的體驗。
第二,是投“不同的人”。比如今年 Agent 的 PR 效應(yīng)特別好,很多聲音都來自非常年輕的創(chuàng)業(yè)者,我會在這些年輕人里壓一部分。而做 Infra、底層支撐系統(tǒng)和訓(xùn)練體系的,往往是經(jīng)驗非常豐富的架構(gòu)師,我會在這一類人里再投一批。再比如一些和具體行業(yè)結(jié)合很深的領(lǐng)域,比如辦公、企業(yè)自動化,我可能會投一些非常資深、經(jīng)驗扎實的產(chǎn)品經(jīng)理。通過投不同的人,把籌碼盡量分散。
如果我還站在投資人的位置上,大概會更偏向這種策略。
唐小引:之前我聽吐槽過,他本人做應(yīng)用層內(nèi)容創(chuàng)作創(chuàng)業(yè),見很多投資人,有一些投資人覺得他中年創(chuàng)業(yè),讓他備受打擊。
王詠剛:我作為做過投資人的角色,現(xiàn)在又做創(chuàng)業(yè),跟所有創(chuàng)業(yè)者說一句話:別聽投資人的,都是胡扯;也別信投資人的,都是胡扯。你們就把你們自己事做好就對了。
唐小引:這是您創(chuàng)業(yè)之后有的刷新嗎?
王詠剛:不,我做投資的時候也這么想。
![]()
Mootion 的出海之路:在中東教育市場找到突破口
唐小引:您之前提到 Mootion 在中東市場的教育場景有大量應(yīng)用。作為一個 To C 使用的產(chǎn)品,從教學(xué)切入具體情況是怎樣的?
王詠剛:很有意思。在做產(chǎn)品市場驗證時,我們也驗證了一個思路:在當(dāng)前 AI 能力還不夠強的情況下,尤其在內(nèi)容創(chuàng)作領(lǐng)域,需要找那種對 AI 技術(shù)需求不強,但又愿意用 AI 低成本創(chuàng)造內(nèi)容的小場景。我們在尋找過程中,無意地發(fā)現(xiàn)了中東市場的教育用戶。
后來與當(dāng)?shù)乩蠋熃涣骱螅覀兛偨Y(jié)出兩個主要原因:
第一,中東老師在制作教育內(nèi)容時,課外參考資料相對匱乏,尤其是一些生動的參考資料,他們對這種資料的質(zhì)量要求并不高。舉例來說,如果你要教授英語中某個動詞的用法,傳統(tǒng)教學(xué)可能比較枯燥,但用 Mootion 或其他 AI 工具生成一個小故事,讓小兔子或木偶來做一件事情,其中用了該動詞的各種時態(tài),只要教學(xué)目的達(dá)到,至于故事動畫是不是很生動,兔子是不是缺一個耳朵,其實沒那么關(guān)鍵。對老師而言,我們提供了一個特別簡單、便宜,又能生成教輔材料的內(nèi)容。
第二,中東是有伊斯蘭教的文化傾向。這件事是我們與當(dāng)?shù)亟佑|過才知道的。這些文化傾向很多 AI 產(chǎn)品滿足不了,因為大模型訓(xùn)練的時候沒考慮這件事。他們希望在學(xué)校里用,包括給學(xué)生用的時候,要符合教義。比如分享歷史事件時,必須與伊斯蘭教教義匹配,但 AI 自己創(chuàng)作的時候不會考慮這些限制。
我們的做法是,將這些規(guī)則整理成小型知識庫,放在 AI 后端作為一個上下文。這個工作看似簡單,但黏性很高。如果你做一個 AI 產(chǎn)品,今天能夠粘住一小部分人,哪怕是一個垂直領(lǐng)域,我認(rèn)為第一步就成功了,因為別的 AI 做不到。最后我們獲得的結(jié)果也特別有意思:我們到阿曼時,發(fā)現(xiàn)這個地區(qū)一共才四百多萬人,卻有八九萬用戶,其中中學(xué)老師就有三萬多人使用我們的產(chǎn)品。
唐小引:所以您是基于中東場景,用 RAG 做一個滿足當(dāng)?shù)匦枨蟮陌姹締幔?/p>
王詠剛:其實并不需要 RAG,因為知識庫并不大。本質(zhì)上只是一些規(guī)則,包括文字規(guī)則和圖形規(guī)則。中東談歷史的時候經(jīng)常講宗教歷史,伊斯蘭教有十幾個先知。凡是出現(xiàn)先知的時候,你不能把先知畫成一個人的形象,雖然”先知“會說話、會交互,但是畫成人的形象是會冒犯到先知。
今天我們讓任何一個 AI 生圖軟件畫一個先知與人做有哲學(xué)道理的聊天圖片,他一定畫一個”老先生“。這在教育里是不行的。我們做法是,將先知的所有同義詞和期望形象訓(xùn)練成一個 LoRA,就能解決問題。如果不處理這些規(guī)則,產(chǎn)品在中東就很難推廣。
這些問題你不去做就不會知道,但因為我們有實際用戶,交流后就能明確。
唐小引:那中東的案例,算是 To B 場景嗎?
王詠剛:其實是 C 端產(chǎn)品進(jìn)入了一個 To B 市場。我們在海外沒有那么多的運營能力,小團隊主要做 C 端訂閱制產(chǎn)品,但正好切入了教育領(lǐng)域,因此也會和學(xué)校、教育部做一些交流。
唐小引:目前主要在海外運營嗎?
王詠剛:是的,目前沒有在國內(nèi)推廣。
唐小引:海外最新用戶量是多少?
王詠剛:將近 300 萬。
![]()
AI 應(yīng)用的“三個月魔咒”與程序員的未來
唐小引:那在同類的產(chǎn)品里面表現(xiàn)如何?
王詠剛:同類產(chǎn)品里我們還算不錯。但如果用產(chǎn)品經(jīng)理的思維去看這一代 AI 產(chǎn)品,會發(fā)現(xiàn)即便是我們做到第一梯隊后,和傳統(tǒng)移動互聯(lián)網(wǎng)產(chǎn)品比起來,它的數(shù)據(jù)表現(xiàn)還是非常詭異。做過產(chǎn)品的人都知道,就是嘗鮮用戶太多,持久用戶太少。
在 AI 領(lǐng)域,這其實有兩個因素:
第一,第一次使用產(chǎn)品有有一種很新鮮感覺,但用三四次之后就會覺得要抽卡,滿足不了需求,時間久了就覺得累、不想用了。
第二,用了一段時間,市場上又出現(xiàn)了類似產(chǎn)品,它可能還有一些不同的功能,你又忍不住去試試。試到第三個月,大部分人基本就不再繼續(xù)使用了。
所以今天 AI 產(chǎn)品有一個特別明顯的規(guī)律,你們可以在 SimilarWeb 上查到,絕大多數(shù) AI 產(chǎn)品的付費用戶或核心用戶生命周期,平均只有三個月。
唐小引:這種情況其實還是非常慘痛的。我們看 AI 應(yīng)用產(chǎn)品,更新?lián)Q代特別快,一波接一波。作為產(chǎn)品的創(chuàng)造者,您怎么看待這種局面?
王詠剛:只能解決問題。現(xiàn)在能跳出所謂的“三個月應(yīng)用生命周期”這個鐵律,其實只有兩類產(chǎn)品能做到。一類是像 ChatGPT、Claude 這樣的大模型,因為它們變成了剛需;另一類就是確實解決了問題的產(chǎn)品,比如編程工具,一旦真正解決了用戶問題,大家就不是用三個月,而可能三年都要用。所以關(guān)鍵是你必須解決實際問題。
至于用什么方法解決問題,那就是“八仙過海,各顯神通”。以動畫視頻領(lǐng)域為例,我們發(fā)現(xiàn) AI 技術(shù)還達(dá)不到滿足要求的水平情況下,我們會開始和專業(yè)的影視、短劇、廣告團隊合作,學(xué)習(xí)那些專業(yè)經(jīng)驗,然后把這些專業(yè)經(jīng)驗變成 AI 能理解的規(guī)則或數(shù)據(jù),作為人類控制加進(jìn)去。下半年,我們會在 Mootion.com 上推出很多和導(dǎo)演們打磨過的功能。通過這種方式,產(chǎn)品才會越來越好。
所以我還是那個觀點:對于還沒創(chuàng)業(yè)的人,真的不晚,一點都不晚。大家可能都太早了。
唐小引:現(xiàn)在大家都在卷 AI Coding,這個賽道太激烈了。作為使用者,我在 Cursor 和 Windsurf 如日中天時,選擇了后者,還氪了金。但后來 Claude 推出新模型,Cursor 一時用不了,我就發(fā)現(xiàn),作為程序員,對某個產(chǎn)品其實沒有太強的忠誠度。一旦某個產(chǎn)品能用到最新、性能最好的模型,我就會果斷去用它。我覺得這個現(xiàn)象不僅在編程領(lǐng)域存在,在視頻生成領(lǐng)域也是共性的。
王詠剛:編程本身比較難。如果你今天想創(chuàng)業(yè)做一個編程工具,你會發(fā)現(xiàn)它的競爭是當(dāng)前最激烈的。因為除了基礎(chǔ)模型以外,這是唯一一個被證明能賺錢、能持續(xù)運營的領(lǐng)域。
但問題是,如果你只盯著原來的程序員市場,會發(fā)現(xiàn)這個市場其實不夠大。這一點可以從程序員市場中最大的一筆交易就可以看出:2018 年 GitHub 被微軟以 70 億美元收購,整個程序員市場規(guī)模本身不大。
所以如果你今天做 AI 輔助編程工具,實際上還是在“卷”程序員市場。不過,現(xiàn)在工具只解決編程這一個問題,所有最想賺錢的人都會來搶。另外,這一市場本身規(guī)模不大,你想分到一個足夠蛋糕的可能性會很小。
我分享一個自己的想法,不一定對:AI 編程替換的不是以前的編程工具市場,而是未來的人力資源市場。
唐小引:這怎么說?
王詠剛:邏輯很簡單。假如我作為公司老板,如果是個“黑心老板”,會發(fā)現(xiàn) Claude Code 在能力上已經(jīng)相當(dāng)于一個初級程序員或?qū)嵙?xí)工程師。雇一個初級程序員,可能要 2 萬元,但我要買 Claude Code,只需約 200 美元,也就是一千多人民幣。那么,為什么我不直接用它來替代這部分人力資源呢?這里它所替代的并不是原來的 IDE 市場。
![]()
唐小引:我之前跟程序員個體交流時,大家更多在考慮 AI 作為工作中的“搭子”能做些什么,但跟老板交流時情況就完全不同了。
王詠剛:這是事實。作為小團隊的老板,我會扎實地想,我還需要初級程序員嗎?作為大廠主管,要成立一個新部門時,我肯定會要求部門負(fù)責(zé)人規(guī)劃一個人和 AI 協(xié)作的團隊。所謂“協(xié)作規(guī)劃”,不就是讓一個架構(gòu)師、一個資深程序員帶幾個 AI 來完成以前幾個人的工作量嗎?這樣直接影響的,正是人力資源市場。這是沒辦法的,是真實在發(fā)生的情況。
唐小引:所有資深程序員都是從初級程序員成長起來的。如果現(xiàn)在 AI 的能力已經(jīng)足夠直接替代初級和中級程序員,而資深程序員只帶著 AI 干活,這不是會造成經(jīng)驗斷層嗎?
王詠剛:我覺得問題的關(guān)鍵不在這里。以我自己的經(jīng)歷來看,我以前認(rèn)為學(xué)編程等于程序設(shè)計語言和算法。現(xiàn)在我不這么看,我覺得語言和算法已經(jīng)不重要了,反而我與 AI 如何協(xié)作的方法,以及對協(xié)作后結(jié)果的理解才是最重要的。
以前工程師先做初級,到升中級,再成為高級,這條路徑現(xiàn)在已經(jīng)不一樣了。像硅谷或我們這樣的公司,面試時已經(jīng)不再考察單純的編程或算法能力,而是給你一個問題,讓你和 Claude 或 Cursor 一起解決,考察的是你與 AI 的協(xié)作能力。在這種情況下,整個程序員教育體系難道還要用以前那種方式?
唐小引:以前還要刷題。
王詠剛:對。過去學(xué)算法,本質(zhì)上是為了培養(yǎng)邏輯思維能力。以前在大型系統(tǒng)中寫程序時,我知道什么時候該用什么算法,會查維基百科,然后把它翻譯成 C++ 或 JavaScript。今天,這些步驟都不再必要。我只需要告訴 AI,我要做這個系統(tǒng),讓它幫我選最好算法,它給出的基本答案就是對的,我甚至不需要知道算法名字。
那以后怎么培養(yǎng)程序員?我認(rèn)為以后培養(yǎng)的都不叫程序員了,可能叫 AI 主管、AI 架構(gòu)師。
唐小引:就像我之前讀過一本書《未來地圖》里提到的,未來可能會出現(xiàn)一群“代碼工人”,而程序員可能成為老板的角色。
王詠剛:是的。以前我們常說,“不寫十萬行代碼,不能成為一個合格的程序員。”我覺得再過一兩年,這句話會變成:“不和 AI 協(xié)作過多少項目,你就不是合格的程序員”。
唐小引:所以現(xiàn)在大家可能都在向 Prompt 工程師方向發(fā)展嗎?
王詠剛:對,至少得知道跟 AI 怎么協(xié)作,以及里面的訣竅是什么。不像我們當(dāng)年,那真是“七種武器”,哪種都要會。
我們以前學(xué)這些基本功,我認(rèn)為也沒問題,但你可能不需要那么多了。你理解操作系統(tǒng)原理、編譯原理肯定是需要的,但是你在跟 AI 編程中不會直接用到這些知識。反過來說,如果你只是為了學(xué)好 Python,編了十萬行代碼,我覺得現(xiàn)在意義沒那么大。反而要積累至少十萬行代碼和 AI 協(xié)作的經(jīng)驗。
唐小引:在 ChatGPT 剛出來的時候,當(dāng)時聽您分享,說是 ChatGPT 把資深程序員和初級程序員拉到了同一水平線。現(xiàn)在直接把程序員的飯碗”掀“了。
王詠剛:現(xiàn)在是初級程序員的飯碗。而且有可能以后的教育路徑肯定會變,程序員的培養(yǎng)路徑應(yīng)該和我們那會兒非常不一樣了。
唐小引:這或許會涉及到高校……
王詠剛:沒辦法,高校肯定會非常遲鈍。中學(xué)、高校的這種編程教育,尤其是社會上還有很多所謂的編程訓(xùn)練班、職業(yè)培訓(xùn)班,以后意義都不大了。
唐小引:那面對這種情況,我們該怎么辦?
王詠剛:盡量把大家都培養(yǎng)成特別擅長用 AI 編程的人。我這幾個月已經(jīng)不寫具體代碼了,而是專注于磨練與 AI 一起協(xié)作的技能,即怎么能夠與 AI 講清楚一件事,或者怎么把 AI 做的東西評估好。AI 不能僅僅完成任務(wù),我還要回頭評估。就像我?guī)б粋€初級程序員一樣,他交了代碼我還要 review、幫他改。現(xiàn)在我不直接改代碼,而是將 review 意見交給 AI 去執(zhí)行。
可以打個比喻:AI 編程就像公司雇了一個非常優(yōu)秀的程序員,但他每天寫完程序就離職。如果不復(fù)核,公司就會積累大量“屎山代碼”。因此,我會重點 review 接口和單元測試,然后告訴 AI 存在的問題,比如重復(fù)代碼太多了或接口不支持異步,要不然真的積累好多“屎山”,出了 bug 我也改不了。
唐小引:而且 AI 有可能“刪庫跑路”。
王詠剛:會的,AI 會“鬧脾氣”。
唐小引:是的,可能前面寫好的部分,你讓 AI 調(diào)整時,它會把前面的內(nèi)容直接刪掉。
王詠剛:以前我們認(rèn)為 AI 替代程序員的好處是不會發(fā)脾氣、不要提加薪,但事實并非如此。第一,AI 真會“鬧脾氣”,它有時會撂挑子不干。第二,漲工資的概念也存在。Claude 漲價或限流,用著用著告訴你額度不夠,這不就是變相漲工資嗎?
![]()
“任何創(chuàng)業(yè)都只有六個月生命周期”,如何應(yīng)對挑戰(zhàn)?
唐小引:不管是創(chuàng)業(yè)還是做 AI 產(chǎn)品,都會面臨一個痛點:基礎(chǔ)模型不斷更新迭代,每次更新都可能帶來應(yīng)用層變化,這種影響讓人很被動。您分享過 AI Agent 創(chuàng)業(yè)的難點是在這些方面缺一不可,針對這些挑戰(zhàn),有什么應(yīng)對策略?
王詠剛:我沒有特別好的解法,因為現(xiàn)在做 AI 尤其是 Agent 創(chuàng)業(yè),本身就充滿挑戰(zhàn)。你去做大模型,如果能做到前三名,確實可以躺著賺錢,但做應(yīng)用、做 Agent 風(fēng)險極高,各種挑戰(zhàn)依然存在。
第一點,如果我的判斷是正確的,也就是這一代 AI 的能力存在上限,那么可以預(yù)期在未來兩到三年,很多領(lǐng)域的能力可能會穩(wěn)定在某個水平。屆時,在應(yīng)用和 Agent 層面,你就能夠相對容易地控制和設(shè)計其能力。
另一點是,我認(rèn)為今天的 Agent 本身仍處于非常初級的階段。Agent 有一個很重要的功能是:通過與環(huán)境交互之后進(jìn)行自我反射并改進(jìn)自身。但目前這種能力,包括在編程 Agent 上都不足。以 AI 編程為例,生成代碼后,它會自己去判斷程序?qū)Σ粚Γ呐袛喾椒ǚ浅:唵巍@缗袛嘁粋€ Python 代碼對不對,它可能只是寫一句 import 語句,表示所有模塊都已加載,就認(rèn)為代碼是正確的。它用一個自反射的機制去檢查它的產(chǎn)出,然后改進(jìn)自身,這是以后 Agent 發(fā)展的一個重點。
唐小引:作為 AI 視頻生成領(lǐng)域的創(chuàng)業(yè)者,最后請您對過去兩年的工作做一個總結(jié)。
王詠剛:我覺得,大家只要有興趣,任何時候都可以創(chuàng)業(yè)。沒有所謂的“早”或“晚”,每個階段其實都可能有人覺得“好像還不到時候”。而現(xiàn)在是個非常開放的創(chuàng)業(yè)時機,尤其是像我們這種有多年經(jīng)驗的老程序員,到這種新時代都能轉(zhuǎn)換思想。
我這兩年創(chuàng)業(yè),最大的感受就是,我和 00 后的年輕人想法幾乎一樣,就感覺自己也是二十多歲的年輕人,這讓我很開心。我覺得創(chuàng)業(yè)的成敗、快慢都不是最重要的,大家享受這個開心,享受一個變革的技術(shù),同時與我們一起去創(chuàng)造點東西,特別好玩。
唐小引:對于 Mootion,您有沒有想過它未來會取得多大的成功,還是說也可以接受失敗?
王詠剛:任何創(chuàng)業(yè)都只有六個月的生命周期,有可能六個月后就死掉了,尤其是這種前沿創(chuàng)業(yè)。但任何創(chuàng)業(yè)都需要一個愿景,而且這個愿景是不會變的。我目前為止很確定:如今所有的內(nèi)容生產(chǎn)、內(nèi)容消費都會產(chǎn)生變革。
今天那種我還要去電影院的方式,積極性都很低了。如果能夠隨時隨地找到我想看的內(nèi)容、產(chǎn)生創(chuàng)作的沖動,我就可以創(chuàng)作給別人看,然而,這件事還很遙遠(yuǎn)。如果我們能在這件事上做到一些我們應(yīng)有的貢獻(xiàn),那我就非常開心了。
↓想要觀看完整視頻的小伙伴可戳~
關(guān)于《萬有引力》:
這是由 CSDN &《新程序員》執(zhí)行總編唐小引主理的對話欄目。技術(shù)趨勢多變,一不留神總擔(dān)心錯過。正在發(fā)生的技術(shù)事件,對于我們開發(fā)者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術(shù)真相。
欄目定位:一檔面向開發(fā)者群體,聚焦解讀技術(shù)真相的對話欄目。
視頻觀看平臺:CSDN 視頻號、CSDN 網(wǎng)站 & App
多形式:文章、視頻、音頻都會有,持續(xù)關(guān)注 CSDN 公眾號都可獲取,歡迎大家關(guān)注!

未來沒有前后端,只有 AI Agent 工程師。
這場十倍速的變革已至,你的下一步在哪?
4 月 17-18 日,由 CSDN 與奇點智能研究院聯(lián)合主辦「2026 奇點智能技術(shù)大會」將在上海隆重召開,大會聚焦 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)等 12 大前沿專題,為你繪制通往未來的認(rèn)知地圖。
成為時代的見證者,更要成為時代的先行者。
奇點智能技術(shù)大會上海站,我們不見不散!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.