網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

周浩能給千問帶來什么？答案就在他為Gemini所做的工作之中

2026-03-06 19:29:11　來源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 字母AI

林俊旸深夜發(fā)文“告別”千問，在AI圈中引起軒然大波，也讓“周浩”這個(gè)名字進(jìn)入公眾視野。

2026年1月，周浩低調(diào)加入阿里，第一站不是通義實(shí)驗(yàn)室，而是先掛靠在夸克。

在夸克短暫過渡之后，周浩隨即轉(zhuǎn)入通義實(shí)驗(yàn)室，接替同日離職的后訓(xùn)練負(fù)責(zé)人郁博文，匯報(bào)線直接拉到阿里云 CTO、通義實(shí)驗(yàn)室負(fù)責(zé)人周靖人。

周浩本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)，2019年在威斯康星大學(xué)麥迪遜分校取得機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺方向的博士學(xué)位，隨后在Meta做了一段AI基礎(chǔ)研究，積累了大規(guī)模模型訓(xùn)練的工程經(jīng)驗(yàn)。

真正讓他成名的地方是DeepMind。

自從加入DeepMind以后，周浩在那里一路升至高級(jí)主任研究科學(xué)家（Senior Staff Research Scientist），這是谷歌研究體系中極少數(shù)人能觸及的級(jí)別。

同時(shí)周浩也成為了Gemini強(qiáng)化學(xué)習(xí)與自我改進(jìn)（RL & Self-Improvement）團(tuán)隊(duì)的負(fù)責(zé)人。

從Gemini 1.5到現(xiàn)如今的Gemini 3 Pro，周浩參與了谷歌旗艦大模型核心功能的研發(fā)工作。

那么周浩能為千問帶來什么？

答案藏在他過去幾年在DeepMind里做的事情里。

01 周浩有什么本領(lǐng)？

2023年，在Gemini 1.0的技術(shù)報(bào)告中，周浩擔(dān)任“Gemini App Factuality Co-Lead”（Gemini APP事實(shí)性聯(lián)合負(fù)責(zé)人）這一職位，他的核心職責(zé)是保障Gemini面向C端用戶的輸出事實(shí)準(zhǔn)確性，輸出的信息準(zhǔn)確、可靠，不會(huì)“一本正經(jīng)地胡說八道”。

說白了就是讓模型從后訓(xùn)練到落地，整個(gè)流程里減少幻覺。

一個(gè)模型可以在學(xué)術(shù)benchmark上跑出漂亮的分?jǐn)?shù)，但如果它在回答“今天天氣怎么樣”時(shí)編造數(shù)據(jù)，在法律問答時(shí)引用不存在的法條，那這個(gè)模型就是災(zāi)難。

傳統(tǒng)的做法是事后檢測(cè)。也就是讓模型先生成答案，然后用另一個(gè)系統(tǒng)去給已經(jīng)生成好的答案進(jìn)行驗(yàn)證。

但這種方法成本高、延遲大，而且很難覆蓋所有場(chǎng)景。

周浩和團(tuán)隊(duì)在Gemini上做的事實(shí)性工作，是從模型訓(xùn)練和強(qiáng)化學(xué)習(xí)的源頭入手。

通過設(shè)計(jì)專門的獎(jiǎng)勵(lì)函數(shù)和訓(xùn)練策略，讓模型在生成每一個(gè)token的時(shí)候，就內(nèi)化了“事實(shí)準(zhǔn)確性”這個(gè)約束。

這不是簡(jiǎn)單地讓模型記住更多知識(shí)，而是讓模型學(xué)會(huì)區(qū)分“我知道的事實(shí)”和“我不確定的推測(cè)”，在不確定的時(shí)候主動(dòng)降低置信度，甚至拒絕回答，而不是硬著頭皮瞎編。

這套事實(shí)性保障體系的效果，體現(xiàn)在了Gemini的實(shí)際表現(xiàn)上。

技術(shù)報(bào)告中指出，Gemini Ultra在MMLU（大規(guī)模多任務(wù)語言理解）基準(zhǔn)測(cè)試中取得了90.04%的準(zhǔn)確率，成為首個(gè)超越人類專家水平（89.8%）的AI模型。

MMLU涵蓋數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)、倫理等 57 個(gè)學(xué)科領(lǐng)域，是衡量模型知識(shí)廣度和準(zhǔn)確性的權(quán)威基準(zhǔn)。

更重要的是，技術(shù)報(bào)告特別強(qiáng)調(diào)Gemini模型在事實(shí)性相關(guān)任務(wù)上展現(xiàn)出“exceptionally strong performance on factuality”（在事實(shí)性方面表現(xiàn)異常強(qiáng)勁），這直接驗(yàn)證了周浩團(tuán)隊(duì)在應(yīng)用層面事實(shí)性保障工作的成效。

如果說在Gemini 1.0時(shí)期，周浩解決的是“怎么讓AI認(rèn)識(shí)到錯(cuò)誤”，那么到了2024年，周浩作為核心貢獻(xiàn)者參與的VideoPrism，它解決的就是“怎么讓AI看懂視頻”。

這篇論文本質(zhì)上是構(gòu)建了一個(gè)視頻基礎(chǔ)編碼器，能夠處理從科學(xué)視頻到監(jiān)控錄像等各類視頻內(nèi)容。

以前的AI“看視頻”，其實(shí)是把視頻拆成一幀一幀的圖片分別看，就像把一部電影剪成幾千張截圖然后逐張分析。它能認(rèn)出畫面里有什么，但根本不懂“前后發(fā)生了什么”。

VideoPrism則是讓AI理解視頻里的時(shí)間流動(dòng)。比如看一段做菜視頻，它不僅知道“這是一個(gè)廚房、有一個(gè)人、有一口鍋”，還能理解“這個(gè)人先切菜、然后熱油、然后下鍋炒”這個(gè)動(dòng)作序列。

VideoPrism的核心思路是將大規(guī)模視頻-文本對(duì)數(shù)據(jù)與純視頻數(shù)據(jù)結(jié)合，通過兩階段訓(xùn)練，讓模型同時(shí)學(xué)會(huì)語義理解和視覺細(xì)節(jié)。

第一階段用對(duì)比學(xué)習(xí)讓模型學(xué)會(huì)匹配視頻和文本描述，第二階段用掩碼自編碼讓模型學(xué)會(huì)預(yù)測(cè)視頻中被遮擋的部分。

這個(gè)設(shè)計(jì)讓VideoPrism能夠從兩種互補(bǔ)的信號(hào)中學(xué)習(xí)。文本描述提供語義信息，視頻內(nèi)容提供視覺動(dòng)態(tài)信息。

在33個(gè)視頻理解基準(zhǔn)測(cè)試中，VideoPrism在31個(gè)上達(dá)到了最優(yōu)性能，而且用的是同一個(gè)凍結(jié)模型，幾乎不需要針對(duì)不同任務(wù)做適配。

這個(gè)工作被直接產(chǎn)品化進(jìn)入谷歌的多模態(tài)體系，是Gemini視頻理解能力的技術(shù)基石之一。

周浩同樣也是Gemini 3.0的關(guān)鍵貢獻(xiàn)者（Key Contributor）。在這個(gè)模型上，他具體負(fù)責(zé)的是多步驟強(qiáng)化學(xué)習(xí)（Multi-step RL），翻譯成人話，就是讓模型在解決復(fù)雜問題時(shí)，能夠進(jìn)行多輪思考、規(guī)劃、執(zhí)行、反思的鏈?zhǔn)酵评砟芰Α?/p>

Gemini DeepThink（深度思考模式）和DeepResearch（深度研究）等功能就是因此而來的。

普通的AI回答問題，是“想一步、說一步”。你問它一個(gè)復(fù)雜問題，它從頭到尾生成一遍答案就完了，中途不會(huì)停下來質(zhì)疑自己。

周浩做的事，是讓AI學(xué)會(huì)“一口氣想好幾步”。

AI會(huì)先拆解問題、制定計(jì)劃，然后一步步執(zhí)行，每走一步都回頭檢查“這步走對(duì)了嗎？下一步該怎么走？”。

這樣一來，Gemini的DeepResearch功能就可以幫你自動(dòng)搜索幾十個(gè)網(wǎng)頁，再綜合搜索結(jié)果，給你寫出一份有邏輯的研究報(bào)告。而不是像其他大模型一樣，把搜索結(jié)果一口氣“噴”出來，因?yàn)樗娴氖窃谝徊讲降厮伎己鸵?guī)劃。

周浩的研究路線啟示有一條清晰的主線。

從最一開始讓AI自己明白什么是錯(cuò)的，再讓AI認(rèn)識(shí)到時(shí)間序列這個(gè)抽象概念，最后通過多步驟強(qiáng)化學(xué)習(xí)讓AI學(xué)會(huì)規(guī)劃和反思。

隨著時(shí)間的推移，AI能理解的事物越來越復(fù)雜，也越來越能解決真實(shí)的用戶需求。

有意思的是，這個(gè)發(fā)展軌跡，恰好就是千問接下來要走的路。

02 千問剛剛完成一次技術(shù)躍遷

在我看來，周浩的研究方向，與Qwen 3.5 已經(jīng)走到的技術(shù)節(jié)點(diǎn)，形成了高度精準(zhǔn)的“卡槽對(duì)接”。

Qwen 3.5在2026年2月發(fā)布，這是千問系列的最新旗艦版本。它采用了混合架構(gòu)，結(jié)合了Gated DeltaNet和稀疏混合專家（MoE）兩種技術(shù)。

旗艦?zāi)Ｐ蚎wen3.5-397B-A17B總參數(shù)量為3970億，但每次推理只激活170億參數(shù)，這樣的設(shè)計(jì)能夠讓它在保持高性能的同時(shí)，成本降低了60%，吞吐量提升了8倍。

雖說Qwen 3.5在架構(gòu)和預(yù)訓(xùn)練上已經(jīng)做到了世界級(jí)水準(zhǔn)，但它的后訓(xùn)練階段卻不夠出色。尤其是如何讓模型真正學(xué)會(huì)推理、反思、自我糾錯(cuò)，這正是千問的短板。

早在2025年5月的Qwen 3技術(shù)報(bào)告中，Qwen團(tuán)隊(duì)就已經(jīng)明確表示，其后訓(xùn)練階段的強(qiáng)化學(xué)習(xí)“聚焦于數(shù)學(xué)和編程任務(wù)”，并在展望部分坦承“計(jì)劃增加強(qiáng)化學(xué)習(xí)算力，特別強(qiáng)調(diào)基于環(huán)境反饋的agent強(qiáng)化學(xué)習(xí)系統(tǒng)”。

這個(gè)短板在benchmark上看得更清楚。

在多個(gè)最能體現(xiàn)深度推理和復(fù)雜任務(wù)能力的測(cè)試中，Qwen 3.5-397B始終落后于同期發(fā)布的Gemini 3.1 Pro。

比如在GPQA Diamond（科學(xué)知識(shí)推理）上，Gemini 3.1 Pro得分是94.3%，Qwen 3.5只有88.4%。在SWE-bench Verified（代碼任務(wù)）上，Gemini 3.1 Pro達(dá)到 80.6%，Qwen 3.5則是76.4%。在MMLU系列測(cè)試中，Gemini 3.1 Pro的多語言版本得分92.6%，Qwen 3.5的MMLU-Pro是87.8%。

兩者的差距，就集中在需要多步規(guī)劃、工具調(diào)用與自我糾錯(cuò)的復(fù)雜任務(wù)上。

周浩的研究成果剛好能補(bǔ)上了這個(gè)缺口。它不需要額外的人工標(biāo)注數(shù)據(jù)，不需要給模型灌輸更多知識(shí)，就能讓模型意識(shí)到錯(cuò)誤在哪。

而且周浩主導(dǎo)的多步驟強(qiáng)化學(xué)習(xí)，也彌補(bǔ)了Qwen在多步規(guī)劃上的不足。

另外，Qwen 3.5已經(jīng)具備了agent的基礎(chǔ)能力。

2026年1月，千問App全面接入淘寶、支付寶、高德地圖、飛豬，實(shí)現(xiàn)了“一句話點(diǎn)外賣、訂機(jī)票、叫出租”。用戶可以說“幫我訂一張明天去北京的機(jī)票，預(yù)算2000以內(nèi)，帶行李額”，系統(tǒng)會(huì)自動(dòng)比價(jià)、推薦航班、跳轉(zhuǎn)支付、完成出票。

但這些功能還比較初級(jí)，更像是把多個(gè)API串起來調(diào)用，而不是真正的多步驟推理。

如果航班取消了，AI能不能自己發(fā)現(xiàn)問題并切換方案？如果用戶說“幫我安排一個(gè)周末去杭州的行程”, AI能不能自己拆解成訂票、訂酒店、規(guī)劃路線、推薦餐廳這一系列子任務(wù)，然后一步步執(zhí)行？這些都需要更強(qiáng)的自我糾錯(cuò)和多步驟規(guī)劃能力。

此前在林俊旸的主導(dǎo)下，Qwen 3.5還實(shí)現(xiàn)了原生多模態(tài)。這是一種從預(yù)訓(xùn)練階段開始，就把文本、圖像、視頻 token混在一起進(jìn)行訓(xùn)練的模式。

它能處理最高1344x1344分辨率的圖片，以及60秒的視頻片段。

這套架構(gòu)和周浩在VideoPrism上做的事情高度一致，他們都是通過早期融合讓模型同時(shí)學(xué)會(huì)語義理解和視覺細(xì)節(jié)。周浩對(duì)這套方法論的深度理解，有望幫助千問在視頻時(shí)序推理、動(dòng)作理解等維度上實(shí)現(xiàn)進(jìn)一步突破。

林俊旸時(shí)代，千問團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力不只是技術(shù)，更是組織方式。預(yù)訓(xùn)練、后訓(xùn)練、多模態(tài)、基礎(chǔ)設(shè)施全部在一個(gè)團(tuán)隊(duì)內(nèi)部閉環(huán)，溝通鏈路極短，一個(gè)技術(shù)判斷可以當(dāng)天落地實(shí)驗(yàn)。

但這種“一個(gè)人的大腦”式的管理方式，在團(tuán)隊(duì)規(guī)模擴(kuò)大到幾百人之后，開始出現(xiàn)瓶頸。

阿里啟動(dòng)了官方架構(gòu)調(diào)整，將原本閉環(huán)的團(tuán)隊(duì)拆分為預(yù)訓(xùn)練、后訓(xùn)練、文本、多模態(tài)等多個(gè)平行的水平分工模塊，直接否定了原本的垂直整合模式。

團(tuán)隊(duì)的考核邏輯也因此發(fā)生轉(zhuǎn)變，核心KPI從原本的模型性能、榜單排名、開源影響力，轉(zhuǎn)向了模型對(duì)集團(tuán)業(yè)務(wù)的提效成果、千問App的用戶增長(zhǎng)、商業(yè)化ROI。

周浩要接的，就是這樣一個(gè)攤子。

技術(shù)上已經(jīng)走到世界前列，但有明顯短板；組織上從“研究?jī)?yōu)先”變成了“指標(biāo)驅(qū)動(dòng)”；戰(zhàn)略上從開源模型轉(zhuǎn)向C端超級(jí)入口，從技術(shù)品牌轉(zhuǎn)向生活助手。

03 千問的未來是？

誠(chéng)然，千問團(tuán)隊(duì)長(zhǎng)期處于“算力饑渴”狀態(tài)。吳泳銘也在內(nèi)部會(huì)議上公開道歉，說“沒有更早知道資源的問題”。

但這只是內(nèi)部矛盾的一面，真正決定這次人事變動(dòng)的，是它發(fā)生的時(shí)間節(jié)點(diǎn)。

如今的千問正處于戰(zhàn)略大調(diào)整，因此，底層模型的性能至關(guān)重要。

2025年11月，阿里將“通義”App 更名為“千問”，吳泳銘親自拍板，并在財(cái)報(bào)分析師電話會(huì)上明確表態(tài)：“阿里巴巴必須要有一個(gè)AI原生的C端超級(jí)入口。”

3月2日，就在林俊旸發(fā)朋友圈告別的前一天，千問AI眼鏡在 MWC 巴塞羅那全球首秀，并于當(dāng)天開啟全球預(yù)約。

阿里內(nèi)部人士透露，除AI眼鏡之外，千問還會(huì)在年內(nèi)陸續(xù)發(fā)布AI指環(huán)、AI耳機(jī)等產(chǎn)品，全部面向全球市場(chǎng)發(fā)售。

“幫你辦事”和“陪你聊天”，是完全不同的兩件事，對(duì)模型來說也是如此。

幫用戶訂一張機(jī)票，聽起來簡(jiǎn)單，實(shí)際上需要模型完成一系列連貫動(dòng)作：理解用戶意圖→調(diào)用高德/飛豬 API→處理返回結(jié)果→識(shí)別異常（比如航班取消）→主動(dòng)提出備選方案→等待用戶確認(rèn)→完成支付。

任何一個(gè)環(huán)節(jié)出錯(cuò)，用戶體驗(yàn)就會(huì)崩塌。

這不是一個(gè)聊天機(jī)器人能做到的，所以千問App 會(huì)從“對(duì)話框產(chǎn)品”變成“任務(wù)完成產(chǎn)品”。

現(xiàn)在打開千問App，核心交互還是一個(gè)聊天框。但有了周浩的多步驟強(qiáng)化學(xué)習(xí)加持之后，可以預(yù)期千問會(huì)逐步把“辦事”能力做成獨(dú)立的產(chǎn)品模塊。

不是你問它“幫我訂機(jī)票”，而是它主動(dòng)在你說“明天要去北京開會(huì)”的時(shí)候，自動(dòng)識(shí)別出這是一個(gè)需要訂票、叫車、提醒的復(fù)合任務(wù)，并一步步幫你完成，中途遇到航班取消還能自己切換方案。

這個(gè)產(chǎn)品形態(tài)，更接近一個(gè)“AI秘書”。

阿里的優(yōu)勢(shì)就在于產(chǎn)業(yè)鏈完整，可以無縫接入各種阿里系生活、購物產(chǎn)品，這也是Gemini和ChatGPT目前都還沒有做到的。

同時(shí)我還認(rèn)為，千問眼鏡會(huì)成為一種具有情境感知能力的AI助手。

目前市面上大多數(shù)AI眼鏡的核心能力是“你問我答”，本質(zhì)上是把手機(jī)語音助手搬到了臉上。

千問眼鏡如果能把VideoPrism的視頻時(shí)序理解能力真正落地，產(chǎn)品體驗(yàn)會(huì)有質(zhì)的不同。

它不需要你開口問，就能理解你正在做什么、下一步可能需要什么。你走進(jìn)超市，它知道你在看貨架。你在餐廳猶豫，它知道你在對(duì)比菜單。

這種“主動(dòng)感知、預(yù)判需求”的體驗(yàn)，才是AI眼鏡相對(duì)于手機(jī)真正的差異化價(jià)值。

林俊旸把千問做成了一個(gè)讓全球開發(fā)者尊敬的技術(shù)品牌，那么周浩的任務(wù)，就是讓千問真正靠得住，不只是聰明，還要穩(wěn)、準(zhǔn)、能把事辦完。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.