文|富充、周鑫雨
編輯|蘇建勛
“如果2026年還只盯著視頻生成本身做迭代,是不夠的。”Luma AI的首席科學(xué)家宋佳銘,對(duì)《智能涌現(xiàn)》作出了這一預(yù)判。
成立于2021年的Luma AI,是美國(guó)視頻生成領(lǐng)域的明星創(chuàng)業(yè)公司。《智能涌現(xiàn)》獲悉,近期Luma AI已按照40億美元估值,完成9億美元C輪融資。本輪由沙特公共投資基金(PIF)旗下機(jī)構(gòu)HUMAIN領(lǐng)投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股東均大額加注。
在視頻生成類AI公司更多還在卷更長(zhǎng)的時(shí)長(zhǎng)和更好的畫質(zhì)時(shí),宋佳銘具體解釋了他的“異見”:下一階段真正要提升的,不是畫面本身,而是模型對(duì)現(xiàn)實(shí)世界的理解與推理能力。
他用一個(gè)影視制作現(xiàn)場(chǎng)的場(chǎng)景做解釋:在影視制作中,若導(dǎo)演需要補(bǔ)拍一個(gè)遺漏的俯視鏡頭,傳統(tǒng)的視頻生成模型只是根據(jù)提示詞生成一段相關(guān)內(nèi)容,卻容易存在與前后畫面不相符的細(xì)節(jié)。
但推理模型則能夠理解已有片段的場(chǎng)景空間、角色位置與鏡頭邏輯,這樣才能制作出在物理上更合理、銜接更絲滑的視頻。
正因如此,推理視頻生成模型可以被應(yīng)用在專業(yè)的影視與廣告等,這成為其變現(xiàn)的基礎(chǔ)。
“Sora 2掀起的大眾玩梗熱潮,并不意味著視頻模型的To C時(shí)代已經(jīng)到來。普通用戶在新鮮感過后,便難以持續(xù)買單。”宋佳銘解釋起視頻生成模型現(xiàn)階段的商業(yè)情況。
而實(shí)現(xiàn)視頻生產(chǎn)模型更強(qiáng)推理能力的關(guān)鍵,就是采用語(yǔ)言、圖像與視頻數(shù)據(jù),訓(xùn)練“多模態(tài)大一統(tǒng)”模型。因?yàn)椋嗄B(tài)融合將為模型提供更豐富、多元的數(shù)據(jù)量,這將推動(dòng)模型能力從“生成”升級(jí)到“理解”。
這條路徑今年已經(jīng)在圖像生成領(lǐng)域驗(yàn)證一遍:2024年,業(yè)內(nèi)還對(duì)多模態(tài)架構(gòu)存在分歧,而進(jìn)入2025年后,圖片生成模型已基本將文生圖、圖編輯等任務(wù)整合進(jìn)統(tǒng)一模型。競(jìng)爭(zhēng)焦點(diǎn)也已從架構(gòu)設(shè)計(jì)轉(zhuǎn)向高質(zhì)量的數(shù)據(jù)收集。
他認(rèn)為,視頻生成模型明年也將復(fù)現(xiàn)同樣的收斂過程。
不斷預(yù)測(cè)下一步的技術(shù)和商業(yè)化方向,并突破自己,是Luma AI一直以來做的事。
這家2021年成立的公司最初從3D生成起步,于2023年底轉(zhuǎn)向市場(chǎng)空間更大的視頻生成模型。
2024年6月,Luma AI推出面向AI與設(shè)計(jì)“小白”的視頻生成模型Dream Machine,開啟C端市場(chǎng)探索。Dream Machine以"零推廣費(fèi)"在4天內(nèi)吸納百萬(wàn)用戶,憑借電影級(jí)運(yùn)鏡和生成效果,被業(yè)內(nèi)稱為“能與Sora叫板的視頻生成模型”。
不過,Luma并未停留在C端的熱度中。今年以來,Luma AI逐步把重心轉(zhuǎn)向付費(fèi)意愿更強(qiáng)、需求更剛性的B端專業(yè)用戶——影視、廣告、內(nèi)容制作機(jī)構(gòu)等。
今年9月,Luma AI推出全球首個(gè)視頻推理大模型Ray 3。
但在近期的專訪上,宋佳銘向《智能涌現(xiàn)》給出了新的判斷:Ray 3很可能會(huì)是Luma最后一代傳統(tǒng)視頻生成模型。公司已經(jīng)把“多模態(tài)大一統(tǒng)模型”確立為下一階段的核心方向。
這一目標(biāo)也需要更大的算力和資金支持。
Luma AI本輪投資方之一的HUMAIN正在沙特建設(shè)名為“Project Halo”的2GW人工智能超算集群,這是全球最大的算力基礎(chǔ)設(shè)施建設(shè)項(xiàng)目之一。Luma AI將作為核心客戶采用該算力,用于訓(xùn)練下一代多模態(tài)世界模型,進(jìn)一步提升視頻推理與大一統(tǒng)模型的能力。
從3D生成起家,到憑借Dream Machine在C端引起關(guān)注,再到如今通過布局推理、多模態(tài)大一統(tǒng)模型更好地服務(wù)B端專業(yè)客戶。Luma AI的每次關(guān)鍵抉擇都在自己原本業(yè)務(wù)基礎(chǔ)上,向外再擴(kuò)展一步。
關(guān)于對(duì)當(dāng)前視頻生成模型的行業(yè)觀察及未來預(yù)測(cè),宋佳銘在專訪中詳細(xì)展示了他的觀點(diǎn)。以下內(nèi)容來自對(duì)話,經(jīng)作者整理:
![]()
△宋佳銘,圖片:采訪人提供
視頻生成模型的未來:推理能力、多模態(tài)大一統(tǒng)
智能涌現(xiàn):你自己說過“Ray 3可能是Luma AI最后一代傳統(tǒng)的文生視頻模型”,這句話如何理解?
宋佳銘:我的判斷是,未來的大模型不會(huì)再把圖片、視頻、音頻、文本當(dāng)成彼此孤立的模態(tài),而是放在一個(gè)統(tǒng)一的框架下去處理,這就是我們說的“多模態(tài)大一統(tǒng)”模型。
多模態(tài)大一統(tǒng)帶來的數(shù)據(jù)量增長(zhǎng),會(huì)給視頻生成模型帶來更好的推理能力,這有助于模型做出更合理的視頻處理,并幫助用戶自動(dòng)甄別視頻上的問題。
語(yǔ)言模型之所以有用,是因?yàn)樗泻軓?qiáng)的上下文學(xué)習(xí)、Zero-shot(零樣本學(xué)習(xí))等能力,也具備很強(qiáng)的推理能力。我覺得這些遲早要在視覺和視頻模態(tài)里出現(xiàn),而不只是在卷更長(zhǎng)的時(shí)間、更好看的畫質(zhì)。
智能涌現(xiàn):能不能用一個(gè)具體的例子解釋一下,視頻推理模型和傳統(tǒng)視頻模型的差別?
宋佳銘:舉一個(gè)來自拍戲的例子。現(xiàn)實(shí)拍攝中,劇組會(huì)同時(shí)架好幾個(gè)機(jī)位,分別拍多個(gè)演員的不同角度。假如收工以后導(dǎo)演突然發(fā)現(xiàn),忘了拍一個(gè)俯視下來的總覽鏡頭,需要AI“補(bǔ)拍”一個(gè)。
這時(shí)候,如果你只用傳統(tǒng)的視頻生成模型,它大概率會(huì)“發(fā)揮想象力”生成一個(gè)看起來還行的俯視鏡頭,但細(xì)看會(huì)發(fā)現(xiàn):人物位置、背景物體的布局和之前的機(jī)位可能對(duì)不上。
而在我們定義的視頻推理任務(wù)里,模型需要先做的不是“生成”,而是“理解和推理”:它要從不同機(jī)位的素材中,找到同一個(gè)背景物體在不同視角中的對(duì)應(yīng)關(guān)系,推理出每個(gè)演員、每件道具在統(tǒng)一三維空間里的位置,然后再?gòu)囊粋€(gè)全新的俯視視角,生成一段物理上合理、鏡頭運(yùn)動(dòng)自然、和前面鏡頭無(wú)縫銜接的視頻。
智能涌現(xiàn):今年很多視頻生成模型公司的業(yè)績(jī)都不錯(cuò),大家的技術(shù)路徑也百花齊放,但你似乎認(rèn)為“這是最后一個(gè)視頻模型百花齊放的年份”,并且明年視頻生成會(huì)收斂到大一統(tǒng)模型,這是為什么?
宋佳銘:如果我們從圖像生成模型的歷史規(guī)律去看,去年可能大家還不確定是否要做圖像模型的大一統(tǒng)。或者說,去年的情況是大家傾向于面向不同任務(wù)做不同的工具流,然后根據(jù)不同任務(wù)做對(duì)應(yīng)的調(diào)整,或者模型微調(diào),但今年大家的路線是把任務(wù)都放進(jìn)同一個(gè)多模態(tài)模型里。
到了現(xiàn)在,很少有人說會(huì)做一個(gè)和GPT 4o或者Nano Banana完全不一樣的架構(gòu)。當(dāng)架構(gòu)統(tǒng)一后,競(jìng)爭(zhēng)的核心便從模型設(shè)計(jì)轉(zhuǎn)向了數(shù)據(jù)驅(qū)動(dòng),真正的重點(diǎn)在于能否收集到足夠量的優(yōu)質(zhì)數(shù)據(jù)。
我覺得圖像在今年發(fā)生的情況,視頻領(lǐng)域明年也會(huì)發(fā)生。
智能涌現(xiàn):在大一統(tǒng)模型的技術(shù)路徑上,Ray 3對(duì)于Luma來說,正在扮演一個(gè)什么角色?
宋佳銘:Ray 3算是一個(gè)階段性成果。
這其中比較重要的積累是基礎(chǔ)設(shè)施,不論是訓(xùn)練基礎(chǔ)設(shè)施,推理基礎(chǔ)設(shè)施,還是數(shù)據(jù)的基本的基礎(chǔ)設(shè)施,其實(shí)可能都比算法積累本身的重要性大。
因?yàn)樗惴ù蠹易隽诉@么多年,其實(shí)也沒有太多核心的變化。基本上都是在沿用五年前的自回歸路線(GPT 3)和擴(kuò)散模型路線(DDPM),這五年來有一些小的改動(dòng),但是不多。所以我覺得在此期間,最重大的一些進(jìn)步,其實(shí)都來源于Scaling,就是說把模型和數(shù)據(jù)的規(guī)模擴(kuò)大。
智能涌現(xiàn):多模態(tài)大一統(tǒng)、視頻推理模型,這些方向和你心目中的AGI有怎樣的關(guān)系?
宋佳銘:我對(duì)AGI的標(biāo)準(zhǔn)會(huì)比較苛刻一點(diǎn)。
現(xiàn)在很多人會(huì)說“某些代碼模型已經(jīng)超過大部分程序員”,我同意在這個(gè)維度上它可以叫“超人”,但如果只是這樣,那計(jì)算器早就超越人類心算了,我們也不會(huì)叫計(jì)算器是AGI。對(duì)我來說,如果人類能在某個(gè)任務(wù)上做到,而AI完全做不到,那就還談不上AGI。
目前在很多維度上,AI距離人都還有很大差距,比如自動(dòng)駕駛、機(jī)器人、具身智能,以及對(duì)真實(shí)物理世界的長(zhǎng)期規(guī)劃和執(zhí)行。
多模態(tài)大一統(tǒng)視頻模型對(duì)于AGI的意義,就在于最終能把對(duì)現(xiàn)實(shí)世界的理解和操作能力,從純語(yǔ)言空間擴(kuò)展到視覺、動(dòng)作、時(shí)間這幾個(gè)維度。

△Luma AI的模型可以僅憑提示詞,就生成畫面高清、且充滿想象力的HDR視頻片段,圖片:采訪人提供
To C時(shí)代還沒到來
智能涌現(xiàn):從產(chǎn)品角度看,之前Sora 2、Nano Banana的出圈給模型公司什么啟示?
宋佳銘:我覺得有一個(gè)很重要的提示是:要從產(chǎn)品的角度去設(shè)計(jì)一些使用場(chǎng)景,以及找到驅(qū)動(dòng)用戶使用的點(diǎn),讓技術(shù)特點(diǎn)本身能長(zhǎng)成傳播爆點(diǎn)。
智能涌現(xiàn):之前Luma AI的Dream Machine推出時(shí),我們?cè)诓稍L中聊到它在很大程度上可以服務(wù)于沒有太多設(shè)計(jì)、AI積累的C端人群。但后來公司的重心逐漸轉(zhuǎn)向了B端專業(yè)用戶,這是為什么?
宋佳銘:我更愿意把那看成一個(gè)漸變過程,而不是某一天突然掉頭。
可以先類比語(yǔ)言模型:Chatbot的C端熱度在去年已經(jīng)很高了,但今年大家談得更多的是寫代碼、智能體這些明確的To B、To Pro場(chǎng)景。
因?yàn)閷?duì)普通用戶來說,哪家的Chatbot差別沒有那么大,大家也不愿意為此付很高的訂閱費(fèi);但對(duì)程序員來說,如果一個(gè)工具能讓他的產(chǎn)出翻一倍,公司愿意替他為這個(gè)工具買單。
視頻模型也是類似邏輯。C端用戶玩視頻生成,很容易膩,也不一定有穩(wěn)定的付費(fèi)意愿;而B端客戶——比如影視公司、廣告公司、內(nèi)容制作方——一旦發(fā)現(xiàn)某個(gè)AI能在他們的主流程里節(jié)省大量人力、時(shí)間和硬件投入,他們的付費(fèi)意愿和粘性會(huì)遠(yuǎn)高于C端。
智能涌現(xiàn):之前Open AI的Sora 2在社交平臺(tái)上被大家玩梗玩得很開心。你覺得,這代表著視頻生成模型開始走向C端了嗎?
宋佳銘:我覺得Open AI做To C和視頻生成模型做To C不是一個(gè)概念。Open AI做To C更多是因?yàn)樗倪@個(gè)估值已經(jīng)是5000億美元了,所以它如果去做to B的話,好像也沒有什么這個(gè)B端能接住它的盤。
Open AI自己就是個(gè)Business,并且需要尋找更大的增長(zhǎng)點(diǎn)。這和Meta、字節(jié)跳動(dòng)的原理是一樣的,就是說當(dāng)規(guī)模大到一定程度的時(shí)候,企業(yè)肯定會(huì)去做To C的努力,探索規(guī)模的最大化。但這不代表整個(gè)視頻生成模型領(lǐng)域也要、或者也能做To C。
美國(guó)著名投資機(jī)構(gòu)A16z的合伙人Olivia Moore曾在她的社交媒體上發(fā)過一組數(shù)據(jù),顯示Sora 2在30天的留存僅為1%,60天的留存就低于1%了。相比之下,TikTok視頻的留存率可以維持在30%左右。這也側(cè)面說明,Sora 2的玩梗效應(yīng)不能代表視頻生成模型已經(jīng)跑通了C端。
智能涌現(xiàn):視頻生成模型走向C端還面臨哪些現(xiàn)實(shí)難點(diǎn)?
宋佳銘:從純技術(shù)角度看,短視頻平臺(tái)上已經(jīng)有不少AI視頻內(nèi)容,To C并不是做不到。難點(diǎn)是要想清楚商業(yè)模式能不能跑得通。
從商業(yè)模式上,我還沒看清視頻生成to C應(yīng)用作為社交產(chǎn)品的價(jià)值在哪。
今天的抖音、YouTube、Instagram,本質(zhì)上是“社交+分發(fā)”平臺(tái),大部分人看的還是那1%最熱門的視頻,圍繞這些內(nèi)容形成了公共話題。如果未來每個(gè)人100%都在看AI為自己定制的視頻,你和別人之間的共鳴反而會(huì)下降,大家缺少“看同一件東西”的交流基礎(chǔ),這不符合社交的基礎(chǔ)邏輯。
智能涌現(xiàn):現(xiàn)在視頻生成做得不錯(cuò)的公司不少,在To B側(cè)你覺得競(jìng)爭(zhēng)壓力大嗎?
宋佳銘:如果單看輿論場(chǎng),會(huì)覺得競(jìng)爭(zhēng)非常激烈,但在美國(guó)To B市場(chǎng),實(shí)際壓力沒有表面看上去那么大。
原因其實(shí)很現(xiàn)實(shí):第一是政治和合規(guī)因素,經(jīng)過篩選之后,真正能進(jìn)入嚴(yán)肅美國(guó)企業(yè)名單的幾乎都是美國(guó)本土供應(yīng)商。這個(gè)名單其實(shí)很短,比如Google、我們,以及少數(shù)幾家美國(guó)創(chuàng)業(yè)公司。
第二是美國(guó)To B市場(chǎng)本身更成熟,對(duì)軟件訂閱、API收費(fèi)、企業(yè)服務(wù)的接受度,要高很多。To B生意“好做”不是說輕松,而是商業(yè)模式更清晰。
智能涌現(xiàn):Dream Machine在今年6月上線之后,外界看到的一些商業(yè)化成績(jī)似乎還不錯(cuò)。不過Luma起步時(shí)是做3D視頻生成業(yè)務(wù),當(dāng)時(shí)的商業(yè)化情況如何?差異主要產(chǎn)生在哪里?
宋佳銘:之前我們就在3D方面有商業(yè)化嘗試,但我不認(rèn)為那是可擴(kuò)散或者很成功的。
當(dāng)時(shí)的3D生成技術(shù),無(wú)論從質(zhì)量還是應(yīng)用場(chǎng)景都比視頻弱一些。
目前使用3D生成模型最多的應(yīng)用場(chǎng)景還是集中在游戲、數(shù)字人這些領(lǐng)域,這種有深度科技能力的游戲公司也不是特別多,就是說潛在客戶量可能會(huì)比較少。而且,像騰訊這種既有強(qiáng)3D能力、又有游戲業(yè)務(wù)的大廠,理論上更傾向于自己做基礎(chǔ)能力,不太會(huì)長(zhǎng)期依賴外部模型。
從技術(shù)上來說,3D數(shù)據(jù)本身遠(yuǎn)少于視頻數(shù)據(jù),AR/VR生態(tài)整體也還沒成熟到“內(nèi)容極度缺乏、必須靠生成式AI填充”的階段。所以從結(jié)果上看,3D在我們這里更像是前期探索,真正被驗(yàn)證有商業(yè)潛力、市場(chǎng)接受度的,還是視頻這個(gè)條線。
視頻生成模型沒有絕對(duì)技術(shù)護(hù)城河
智能涌現(xiàn):從你的視角看,現(xiàn)在的視頻生成領(lǐng)域有沒有所謂的“絕對(duì)護(hù)城河”?
宋佳銘:目前我不覺得有哪一種模型結(jié)構(gòu)或者哪一套方案能構(gòu)成絕對(duì)護(hù)城河。
過去幾年能看到的更多是,大家在同一個(gè)大方向上不斷試各種組合,算法層面過去一兩年其實(shí)沒有出現(xiàn)顛覆級(jí)的新結(jié)構(gòu),差異主要體現(xiàn)在迭代速度和工程實(shí)現(xiàn)上。
真正拉開差距的是誰(shuí)能在大規(guī)模上把這套東西“跑通又跑穩(wěn)”,而不是“誰(shuí)先想到了這個(gè)點(diǎn)子”。
語(yǔ)言模型的總量基本在幾十T或者基本上是不會(huì)超過100T的量級(jí),視頻模型很容易達(dá)到幾PB或幾十PB的數(shù)據(jù)量,這是文字的幾百上千倍。
所以在視頻這里,更大的挑戰(zhàn)反而是:獲取數(shù)據(jù)的能力,以及有沒有能力在工程上托住這么大的數(shù)據(jù)規(guī)模,把它們清洗好、對(duì)齊好,讓模型真正從中學(xué)到東西。
智能涌現(xiàn):視頻生成模型現(xiàn)在似乎也沒有一個(gè)統(tǒng)一的評(píng)判標(biāo)準(zhǔn),“最強(qiáng)模型”怎么判斷?
宋佳銘:確實(shí)沒有統(tǒng)一標(biāo)準(zhǔn),這背后有幾個(gè)原因。第一是技術(shù)路線還在摸索,相對(duì)語(yǔ)言模型已經(jīng)有高度收斂的架構(gòu),視頻這邊在架構(gòu)和訓(xùn)練方式上還有很多可以探索的方案。
所以我不太愿意簡(jiǎn)單說“誰(shuí)是世界最強(qiáng)的視頻模型”。而且,打榜成績(jī)只反映一部分特性,我認(rèn)為更關(guān)鍵的是客戶在實(shí)際工作流里到底要什么功能,比如有沒有HDR,這更符合專業(yè)視頻生產(chǎn)的需求。
如果從有HDR這個(gè)維度來講的話,我們獨(dú)此一家,但是看其他指標(biāo)的話,我覺得評(píng)價(jià)標(biāo)準(zhǔn)又會(huì)有所不同。

△相比于通常視頻的8比特像素,HDR的顏色表達(dá)范圍多了一個(gè)數(shù)量級(jí),這體現(xiàn)在更多的高光和陰影細(xì)節(jié)上,對(duì)于電影制作管線至關(guān)重要,圖片:采訪人提供
智能涌現(xiàn):擴(kuò)散模型和自回歸模型,誰(shuí)的“天花板”更高?
宋佳銘:我現(xiàn)在不會(huì)給出“誰(shuí)的天花板更高”這樣的結(jié)論。真正決定上限的,其實(shí)是數(shù)據(jù)量和架構(gòu)設(shè)計(jì),從數(shù)學(xué)層面上,都還沒有碰到實(shí)際的天花板。
我覺得關(guān)鍵的還是找到商業(yè)用戶的痛點(diǎn),這樣我才能去提供客戶真正想要的東西,這不一定和AI的模型能力直接相關(guān)。
智能涌現(xiàn):你覺得視頻和大一統(tǒng)模型的賽道,會(huì)像語(yǔ)言模型一樣收斂到少數(shù)幾家嗎?這對(duì)初創(chuàng)公司意味著什么?
宋佳銘:我覺得這是幾乎可以類推的結(jié)論。
如果回頭看語(yǔ)言模型這條線,會(huì)發(fā)現(xiàn)一直能持續(xù)做得好的玩家其實(shí)就那么幾家,很多項(xiàng)目要么轉(zhuǎn)型,要么被并購(gòu),要么慢慢消失。視頻和多模態(tài)大一統(tǒng),本質(zhì)上是同一條大模型產(chǎn)業(yè)鏈上的分支,只要跟“基座模型”這件事綁得足夠深,它也不可避免地會(huì)走向頭部高度集中。
在國(guó)內(nèi),我個(gè)人基本不會(huì)考慮從零做這種基座模型創(chuàng)業(yè),因?yàn)榇髲S在資金、人力、算力上的優(yōu)勢(shì)太大,留給純技術(shù)向創(chuàng)業(yè)公司的空間非常有限;在美國(guó)會(huì)好一些,美元基金還有動(dòng)力在這個(gè)方向下注,退出機(jī)制也更清晰,和大廠之間的合作、并購(gòu)、共建都更常態(tài)化。
Luma 的路線:模型迭代、融資與人才
智能涌現(xiàn):Ray 3是9月推出的,Ray 2的推出差不多在這七個(gè)月之前,在這七個(gè)月時(shí)間里,Luma團(tuán)隊(duì)有在嘗試不同的方向嗎?什么才是重點(diǎn)?
宋佳銘:我們會(huì)嘗試不同的方向,比如世界模型,但最主要的還是大一統(tǒng)模型。
大一統(tǒng)模型有很多方法把不同的模型拼起來,這里面有的組合更能帶來短期收益,比如用別的公司訓(xùn)練好的模型去實(shí)現(xiàn)某些能力。和訓(xùn)練自己的模型相比,這當(dāng)然是更快的。
我們希望兼顧短期的收益,但總體而言,更傾向完成長(zhǎng)遠(yuǎn)的布局。
智能涌現(xiàn):這次C輪融資,你們拿到了9億美金級(jí)別的資金,估值也大幅抬升。在你看來,投資人下注的核心理由是什么?
宋佳銘:這次由沙特主權(quán)基金PIF旗下的HUMAIN領(lǐng)投,AMD Ventures和Amplify、Matrix這些老股東都繼續(xù)加碼。對(duì)我們自己來說,這件事更像是幾層邏輯被外部驗(yàn)證了一次。
這里包括過去成績(jī),和創(chuàng)新和迭代速度的驗(yàn)證。
同時(shí),投資人也在找“下一個(gè)基座模型玩家”。對(duì)一些美元基金來說,他們并不滿足于只看短期商業(yè)化的利益,而是希望長(zhǎng)期押出真正有機(jī)會(huì)做大的公司。我想,更看重長(zhǎng)期布局的能力也是投資人下注我們的理由。
智能涌現(xiàn):C輪融資這筆錢具體會(huì)花在哪里?
宋佳銘:算力仍然是絕對(duì)大頭,不管是訓(xùn)練還是推理,對(duì)做大規(guī)模多模態(tài)模型的公司來說,都是最大的剛性支出。
另一塊是人才和基礎(chǔ)設(shè)施建設(shè),我們需要繼續(xù)擴(kuò)充工程和系統(tǒng)團(tuán)隊(duì),不是為了變成“小版的大廠”,而是為了真正把這些模型“跑得更穩(wěn)、更快、更便宜”。
智能涌現(xiàn):現(xiàn)在Luma的團(tuán)隊(duì)結(jié)構(gòu)是怎樣的?在招人這件事上,你個(gè)人更看重什么?
宋佳銘:目前團(tuán)隊(duì)大概一百三十人左右,其中30%–40%是技術(shù)研發(fā),其余是產(chǎn)品、商業(yè)、市場(chǎng)和運(yùn)營(yíng)。
和很多公司不同,我們沒有特別強(qiáng)調(diào)“傳統(tǒng)意義上的產(chǎn)品經(jīng)理”,而是讓很多人共同承擔(dān)產(chǎn)品職責(zé):有些人偏工程,但非常懂用戶場(chǎng)景;有些人偏運(yùn)營(yíng),又能把需求翻譯成清晰的技術(shù)任務(wù),所以“產(chǎn)品思考”是被分散在很多人身上的。
招人方面,我們會(huì)盡量避免卷進(jìn)“搶明星選手”的價(jià)格戰(zhàn),更像是足球俱樂部里的“青訓(xùn)和球探體系”:那些已經(jīng)家喻戶曉的球員,轉(zhuǎn)會(huì)費(fèi)肯定很高,創(chuàng)業(yè)公司去搶代價(jià)極大;我們更希望在一個(gè)人還沒被市場(chǎng)廣泛共識(shí)之前,就發(fā)現(xiàn)他、支持他。
我個(gè)人會(huì)非常看重三點(diǎn):寫代碼能力要足夠扎實(shí),學(xué)習(xí)速度要快,以及自驅(qū)力和對(duì)這件事的長(zhǎng)期興趣。
封面來源|企業(yè)官方
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.