![]()
作者 |Yoky 、黃小藝、董道力
Gemini 3 的發布,不僅僅是一次參數的迭代,更是一次對模型邊界的暴力拓展。
它像一個巨大的多面體,同時覆蓋了 VibeCoding、通用 Agent、前端設計乃至游戲引擎等當下最滾燙的賽道。這種全方位的“能力溢出”,給身處其中的創業者帶來了一個殘酷而迷人的命題:這究竟是為他們打開了新的可能性,還是預示著垂直應用將逐漸消融在模型“無邊界”的擴張之中?
帶著這個疑問,硅星人找了 7家不同賽道的 AI 公司,聊了聊他們的感受與變化。
我們發現,創業者們的悲歡并不相通,有人興奮得徹夜未眠,在凌晨的測試中看到了“吉卜力時刻”和 Agent 的新未來;也有人十分冷靜,對通用模型的狂歡不以為然,堅信數據壁壘與實時性才是護城河。
1
Flowith:Gemini3的更新點,都是Agent的剛需
畫布交互式內容創作Agent平臺,10月底推出了一款獨立的為 Agent 原生設計的操作系統Flowith OS。
1、硅星人:Gemini3對你們有什么影響,未來通用型Agent還有價值嗎?我感覺這么強的模型,加workflow或者產品設計等等,有點像給皇帝穿乞丐衣服。
Flowith創始人Derek:Gemini 3 Pro 我們在試用的時候發現它補足了很多上代模型的不足,比如有更強大的視覺理解能力(這對 compute use 場景有很大提高)、代碼生成能力、長任務生成能力等等。這些對很多 AI 應用層公司、以及 Agent 公司,都是剛需的功能點。
在 3 出來前,2.5 Pro 已經是這些方面的 SOTA 了,而隨著 3 Pro 的推出,與很多之前應用層的局限都可以得到突破,更何況 Gemini 的性價比和速度也一直都很有優勢,我們正在把新模型在 flowith Neo Agent 和 flowithOS 上進行集成和調試,對此也非常期待,因為過去有很多應用層產品的真正走向大眾,也是配合著模型升級一起發生的,比如 Cursor、Perplexity 等。
1
逗逗AI:幫模型找場景,就是創業公司的機會
逗逗AI 是你的AI游戲伙伴,在實時語音開黑中提供AI攻略指引和陪伴。
1、硅星人:我們看到您在硅星人「GenAI」那篇Gemini3的文章下面評論,感受到很興奮于Gemini3在游戲中的應用,值得興奮的點是什么呢?
逗逗AI聯合創始人王碧豪:首先是看到Benchmark上有很好的體現:MMMU Pro和Screen Sport Pro提升非常明顯。Screen Sport Pro從17.4提升到了72,提升比例極其恐怖!這代表它現在是真正能夠實時看懂屏幕的。這個和我們之前做的模型其實類似,只不過我們專注于游戲屏幕的識別。
我們嘗試了把之前一些比賽的視頻發給它,讓它去做比賽的解說,除了它的語氣沒有那么激動外,專業方面可以媲美人類解說了。
![]()
所以我們今天一直在嘗試能用 Gemini3 做點什么,目前它的實時響應性還比較弱,因為它是大參數的推理模型。你在對話時,需要等它十秒二十秒去做推理,可用戶等不了那么久,但我們還是找到了一些視頻的場景:賽后復盤。
有點像咱們開會,飛書會議會把會議總結出來,形成 to do 或者建議。游戲的過程和這個很類似:你打完一局游戲后,它會告訴你這局表現怎么樣,數據是什么樣的,高光點在哪,操作不好的點在哪。它能夠提供一個很好的數據報告。而這個是用戶已經打完游戲了,他沒有實時性要求,可以容忍20秒30秒的等待時間。
我們現在準備在海外重點推這個能力:包括英雄聯盟等等國外比較火的游戲,重點做這些case。
2、硅星人:我有一個疑惑,Gemini3的多模態理解能力增強,你們也自研了VLM模型,自研模型和Gemini 3在產品中的關系,在模型上的差異是什么?
王碧豪: 這是個好問題。我最近也在寫這個文章。我們提供給了用戶可以選擇用我們還是Gemini3,但我猜測大概率用戶嘗試完還是會切回我們。
第一,游戲場景的專業性。Google訓練的是通用模型,數據來自互聯網全部的,可以識別大部分應用軟件。但我們的訓練專注于游戲場景。所以我現在還不確定,我們還沒做具體的評估,但我覺得我們還是在游戲的識別上、對游戲的理解上有獨特之處。
第二,響應速度的權衡。游戲陪伴場景需要兼顧響應速度、對游戲的理解以及準確性,這是兼顧不了的。就算Gemini 3的Flash模型(2.5有Flash,3.0還沒出Flash),響應時間也要8秒到15秒之間,不可能實現端到端的快速對話。
第三,情緒價值。我們的模型除了對游戲理解和建議能力之外,還做情緒方面的價值。識別到你的高光時刻后,我們怎么通過一個人物設定來給你反饋情緒價值。
3、硅星人:之所以我們在談通用和垂直,是因為模型的能力邊界還沒有覆蓋到你們,一年前也不會有人認為Coding是一個通用場景,如果Gemini4就可以做“通用的游戲助手”了,到那時候你們的壁壘是什么?
王碧豪:我把這個模型的能力分成上限和下限。
上限能力:我們針對這個場景特地去做了很多工程化優化,包括模型上的優化、數據上的優化。下限能力:這個模型提供的能力就是這樣,我們也不去做優化。我們在找這個模型到底在什么場景用得好,然后包裝出來讓用戶去用。
上限能力是針對性的工程優化問題,Google本質上是一個研究型公司,它們只專注于模型本身能力的提升,而不是模型之外的,比如我們現在做的金鏟鏟、王者榮耀模型的特定模型。下限能力是和用戶貼近之后產生的usecase,幫模型去找好的場景和包裝,這一塊模型公司也不會去做。
不停的拓展上限和下限,就是創業公司的機會。
1
Seede AI:該恐慌的不是我們,是大廠
Seede AI 不是“文生圖”路線,而是“代碼生圖”——直接讓大模型寫代碼來搞定排版和設計。
1、硅星人:昨天晚上是不是很興奮?我看你12:30還在群里發消息,你幾點睡的?
Seede AI創始人楊沐錦: 三四點吧。所有群里都沒人說話了,我估計大家全睡了我才睡的。我們好多個人,包括我們的用戶一起測到凌晨。
2、硅星人:為什么會這么興奮?你認為Gemini3是一個什么時刻?是R1還是GPT3.5?
楊沐錦:我感覺像是“吉卜力”時刻,我們自己測下來,Gemini3的一個很大的提升是審美能力。以下是我們用同一個Prompt做的一個對比圖:
![]()
對比下來你會發現有幾個比較大的改變:
- 從“排版”進化到“設計”:Gemini 2.5 只能做到基礎的排版(哪里大、哪里小),也就是“300塊設計師”的水平;而 Gemini 3.0 擁有了高級審美,能處理紋理、光影、煙霧效果和復雜的圖層疊加,達到了“3000塊設計師”的水平。
- 審美與一致性:相比 GPT 生成的擁擠布局和國內模型混亂的配色,Gemini 3 能輸出統一的“設計系統”(Design System)。它能自動匹配字體樣式(陰影、加粗)和色調,不僅是把字放上去,而是構建整體的視覺質感。
- 代碼控制力:Gemini 3 的 Coding 能力極強,它不是生成一張死圖,而是生成可編輯的代碼布局。這使得用戶可以進行二次編輯(挪動位置、修改文字),保留了人的“掌控感”。
其實Claude的編程能力是高于Gemini2.5 pro,但是依然有大量用戶選擇后者,是因為它的審美在線,審美是無法Benchmark的,而這一點在Gemini3上提升到了更強。
3、硅星人: 我昨天也挺興奮的,我覺得可能以后就不用人去生產圖像和文字了,所有東西全部是AI生成的...你會不會覺得未來Agent或者垂類AI應用會被模型吞噬?會恐慌么?
楊沐錦:對于創業公司而言,Cursor是個成功的案例,先去圈用戶,然后最近才發了自己的小模型,以更快的速度,更便宜的成本。我們會是一樣的路子。
相反,我認為更應該恐慌的是大廠,Google現在呈現出非常全面的狀態,而國內的一些大廠,比如說字節,原本我們的代碼生圖模型他們也想接,但后面我們拒絕了,因為他們的要求是生圖的模型要換成即夢不能用外面廠商的。他們一定是想建立壁壘,那就必須要把自己模型做好才有話語權。
而創業公司不同,Gemini3輸入2美元/100萬token,輸出12美元,加起來14美元;Claude Sonnet 4.5輸入3美元,輸出16.5美元,加起來快20美元,現在性能提升了,價格也便宜了四分之一,所有的模型資源我們都能用,我們現在提供Gemini3給用戶免費使用一周,去找更好的場景。
1
GameSkill:無論模型能力怎么增強,數據都是核心
GameSkill是媲美專業選手的端側AI教練,全程陪玩,賽后指導復盤。
1、硅星人:有了Gemini3,逗逗AI開始嘗試用它給選手進行賽后復盤,這好像功能跟你們有重合了?之前你們在做一個少數人能做的事,如果未來模型的能力進步到多數人都能做,怎么辦?
GameSkill創始人陳迪:首先我會覺得Gemini3本身不如我們特訓出來的教練模型,我們通過大量的高質量的標注游戲,用特定的單一數據集來訓練模型,對游戲的畫面進行深度標注和深度理解,在這個過程中,還是數據是核心。當然如果以后游戲內置AI教練成為常態,GameSkill的辦法是提供官方功能無法覆蓋的深度、個性化和有溫度的增值服務。
- 極致的個性化與深度適應:游戲官方AI教練可能更側重于通用技巧。而GameSkill作為玩家的“私人訂制教練”,通過長期在端側學習玩家的操作習慣、反應速度和決策模式,提供獨一無二的訓練方案。例如,針對玩家特定的“預瞄弱點”或“道具投擲習慣”進行強化訓練,這種深度適配是通用模型難以做到的。
- 跨游戲的身份與數據連續性:對于深度游戲愛好者來說,GameSkill可以成為其跨游戲的通用AI伙伴。我們在不同游戲中學習玩家的風格,幫助玩家將在一款游戲中磨練出的意識應用到另一款游戲中。這種跨游戲的、持續成長的“數字教練”身份,是單一游戲內嵌AI無法提供的。
2、硅星人:你們用端側模型的解決方案,明顯要損失一些云端模型的先進性,如何彌補與云端模型的“代差”?
陳迪:我們承認云端大模型在通用多模態推理上的強大,但在“特定游戲內的實時陪練”這個場景下,端側模型通過精巧的技術設計,不僅能彌補差距,甚至能實現超越。
- 模型裁剪與場景特化:我們的8B特訓模型采用結構化剪枝、量化剔除了與游戲無關的冗余參數,讓模型的所有“精力”都集中在理解游戲畫面。
- 硬件協同與實時性:我們的模型直接運行在PC的NPU和GPU上,這意味著數據無需上傳云端、處理后再返回。保證零延遲,在需要閃電般反應的電競游戲中,指導提示能否即時出現至關重要;以及100%的隱私保護,玩家的游戲數據永遠不會離開玩家的設備。這是云端模型無法逾越的物理鴻溝。
- 與硬件適配:我們通過與職業戰隊的合作獲取高質量的數據,持續對模型進行增量學習和微調,讓它能緊跟游戲版本和戰術演變的步伐。同時,我們會為不同性能的PC提供不同精度的模型版本,通過動態調度技術確保在各種硬件上都能流暢運行,實現資源的最優利用。
1
Hyper3D.AI:模型雖牛,但調一個API的任務,還需很長時間
3D生成大模型公司,用戶可用一句話/一張圖生成 3D 模型。
1、硅星人:Gemini 3的3D能力對你們有直接的影響么?會對3D生成帶來什么根本性的改變嗎?
Hyper3D.AI CTO 張啟煊:Gemini3所展現出來的,其實用“3D生成能力”去描述是有一些問題的。目前大家看到的Gemini3的“3D生成案例”,其實無非是從網上下載一個3D模型、用代碼生成參數化的簡單3D模型、用代碼描述體素這三類。
但是這樣的能力其實意義也很大,它意味著Gemini3對3D有很好的能理解能力,即通過自己撰寫的代碼,能夠很好的聯想到它所能呈現的3D狀態----以往這一塊主要局限于2D,這也是LLM對網頁生成很在行的原因。具備這一能力后,Gemini3能夠很好的結合真正的3D生成模型,完成一些場景的搭建等更復雜的事兒----我們也正在結合Gemini3嘗試這些方向
2、硅星人:我們本來以為有人興奮有人恐慌,但其實是有人興奮有人冷靜,你們是哪一種?為什么?
張啟煊:我們第一時間就用上了,其實感覺沒有媒體渲染的那么厲害。對于非功能性的頁面,能做得很好,有設計感,說明它對代碼和最終渲染圖形頁面的聯想是很準確的。但是對于功能性的方面,比如學著調用一個API,能力沒有很大的提升,還是需要多輪調試。
比如我自己讓它調用我們API,就花了快半小時才給他教明白(當然也有可能是我們文檔寫太爛了)。
![]()
1
Soon:Gemini3對游戲行業并無實質提升
游戲專精模型,以“無需傳統抽卡、直接商業化落地” 的優勢破局——依托行業專屬訓練基礎,實現從創意概念到落地的全流程賦能。
1、硅星人:Gemini 3 對“游戲Agent開發”最直接的影響是什么?你們最看重的是哪項能力(如推理、多模態、長上下文、工具調用穩定性),各自能落到哪些具體場景?
Soon創始人譚凱:影響有限,偏效率增量而非商業化躍遷。我們最看重“推理與規劃”“工具調用穩定性”,與 SoonFX 數值引擎協同強化數值生成/修改,進一步加強我們在 AI 數值方面的能力。目前美術素材依賴自研垂類模型,Gemini 用于腳本、配置與 CI/CD。
主要落地的場景代碼生成與自調試;穩定驅動工具與資產管線;長上下文(百萬 token)持續記憶;Deep Think 做關卡/劇情/經濟與動態難度;更強安全與合規;結構化、可編輯輸出(JSON/YAML/DSL)適配管線規范。
2、硅星人:soon團隊是否已評估/試接入 Gemini 3?與現有模型相比,你們希望Gemini3能解決哪方面的問題。
譚凱:目前正在評估與能力測試中,重點驗證數值推理、多模態、長上下文與工具調用穩定性,暫不生產接入。期望提升數值生成/平衡與約束滿足;長鏈任務穩定收斂;降低工具調用失敗并斷鏈自愈;結構化輸出更穩定、解析更少失敗。
3、硅星人:你們覺得Gemini3的能力,如果真的像發布會說的那樣“強”,會對游戲開發帶來什么根本性的改變嗎?
譚凱:不會帶來根本性改變,對行業并無實質提升。當前模型更多復刻既有產物,難形成生產閉環。
AI 仍處于“能生成貪吃蛇、但不可能生成王者榮耀”的階段,半成品普遍不可二次編輯/不可回歸入庫,工程與統籌的“最后 10%”最難。
我們路徑是Soon 工具鏈打通“最后一公里”,我們生成的骨骼動畫與素材可以進行二次編輯與調整并回寫入庫,直接落地商用;以可編輯資產管線+質量標準+流程,支撐從生成到入庫的閉環。
模型評價標準:可編輯、可回歸、可觀測與度量、穩定的工具編排與 CI;堆 demo 無意義。
1
Gambo:用實測結果說話,不行就是不行
世界上第一個游戲編程Agent,用戶只需通過簡單的文字描述,能快速生成完整的游戲,包括場景、角色、音效和交互邏輯。
1、硅星人:Gemini 3 的發布,對“游戲Agent開發”最直接的影響是什么?您最看重的是哪三項能力(如推理、多模態、長上下文、工具調用穩定性),各自能落到哪些具體場景?
Gambo周卓泉:Gemini 3 的核心提升,第一是視覺理解能力的提升,可以更好的理解參考圖片,能大幅提升 Gambo 通過游戲截圖復刻一個游戲的還原度;第二大提升是圖形繪制能力的提升,雖然還遠遠無法滿足游戲的需求,但在教育等場景已經足夠,能幫助這些場景快速落地。
我們第一時間做了測試,分別用 Gemini 3 和 Claude 4.5 生成一個街霸游戲,可以看到,兩個模型生成的角色都由簡單的形狀拼湊,Claude 的角色是一個圓形加一個矩形,Gemini 的角色復雜一些,但也是由多個圓形、矩形構成。無法達到游戲對游戲資產的要求。
Claude
Gemini3
而真正的游戲依賴復雜的游戲資產,比如角色、動作、特效、地圖、音樂等等,可以參考我們的用戶在 Gambo 里復刻《絲之歌》游戲的真實錄屏,AI 會根據用戶的對話內容,生成全類型的游戲資產。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.