文 | 字母AI
林俊旸深夜發(fā)文“告別”千問,在AI圈中引起軒然大波,也讓“周浩”這個(gè)名字進(jìn)入公眾視野。
2026年1月,周浩低調(diào)加入阿里,第一站不是通義實(shí)驗(yàn)室,而是先掛靠在夸克。
在夸克短暫過渡之后,周浩隨即轉(zhuǎn)入通義實(shí)驗(yàn)室,接替同日離職的后訓(xùn)練負(fù)責(zé)人郁博文,匯報(bào)線直接拉到阿里云 CTO、通義實(shí)驗(yàn)室負(fù)責(zé)人周靖人。
周浩本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),2019年在威斯康星大學(xué)麥迪遜分校取得機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺方向的博士學(xué)位,隨后在Meta做了一段AI基礎(chǔ)研究,積累了大規(guī)模模型訓(xùn)練的工程經(jīng)驗(yàn)。
真正讓他成名的地方是DeepMind。
自從加入DeepMind以后,周浩在那里一路升至高級(jí)主任研究科學(xué)家(Senior Staff Research Scientist),這是谷歌研究體系中極少數(shù)人能觸及的級(jí)別。
同時(shí)周浩也成為了Gemini強(qiáng)化學(xué)習(xí)與自我改進(jìn)(RL & Self-Improvement)團(tuán)隊(duì)的負(fù)責(zé)人。
從Gemini 1.5到現(xiàn)如今的Gemini 3 Pro,周浩參與了谷歌旗艦大模型核心功能的研發(fā)工作。
那么周浩能為千問帶來什么?
答案藏在他過去幾年在DeepMind里做的事情里。
01 周浩有什么本領(lǐng)?
2023年,在Gemini 1.0的技術(shù)報(bào)告中,周浩擔(dān)任“Gemini App Factuality Co-Lead”(Gemini APP事實(shí)性聯(lián)合負(fù)責(zé)人)這一職位,他的核心職責(zé)是保障Gemini面向C端用戶的輸出事實(shí)準(zhǔn)確性,輸出的信息準(zhǔn)確、可靠,不會(huì)“一本正經(jīng)地胡說八道”。
![]()
說白了就是讓模型從后訓(xùn)練到落地,整個(gè)流程里減少幻覺。
一個(gè)模型可以在學(xué)術(shù)benchmark上跑出漂亮的分?jǐn)?shù),但如果它在回答“今天天氣怎么樣”時(shí)編造數(shù)據(jù),在法律問答時(shí)引用不存在的法條,那這個(gè)模型就是災(zāi)難。
傳統(tǒng)的做法是事后檢測(cè)。也就是讓模型先生成答案,然后用另一個(gè)系統(tǒng)去給已經(jīng)生成好的答案進(jìn)行驗(yàn)證。
但這種方法成本高、延遲大,而且很難覆蓋所有場(chǎng)景。
周浩和團(tuán)隊(duì)在Gemini上做的事實(shí)性工作,是從模型訓(xùn)練和強(qiáng)化學(xué)習(xí)的源頭入手。
通過設(shè)計(jì)專門的獎(jiǎng)勵(lì)函數(shù)和訓(xùn)練策略,讓模型在生成每一個(gè)token的時(shí)候,就內(nèi)化了“事實(shí)準(zhǔn)確性”這個(gè)約束。
這不是簡(jiǎn)單地讓模型記住更多知識(shí),而是讓模型學(xué)會(huì)區(qū)分“我知道的事實(shí)”和“我不確定的推測(cè)”,在不確定的時(shí)候主動(dòng)降低置信度,甚至拒絕回答,而不是硬著頭皮瞎編。
這套事實(shí)性保障體系的效果,體現(xiàn)在了Gemini的實(shí)際表現(xiàn)上。
技術(shù)報(bào)告中指出,Gemini Ultra在MMLU(大規(guī)模多任務(wù)語言理解)基準(zhǔn)測(cè)試中取得了90.04%的準(zhǔn)確率,成為首個(gè)超越人類專家水平(89.8%)的AI模型。
MMLU涵蓋數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)、倫理等 57 個(gè)學(xué)科領(lǐng)域,是衡量模型知識(shí)廣度和準(zhǔn)確性的權(quán)威基準(zhǔn)。
更重要的是,技術(shù)報(bào)告特別強(qiáng)調(diào)Gemini模型在事實(shí)性相關(guān)任務(wù)上展現(xiàn)出“exceptionally strong performance on factuality”(在事實(shí)性方面表現(xiàn)異常強(qiáng)勁),這直接驗(yàn)證了周浩團(tuán)隊(duì)在應(yīng)用層面事實(shí)性保障工作的成效。
如果說在Gemini 1.0時(shí)期,周浩解決的是“怎么讓AI認(rèn)識(shí)到錯(cuò)誤”,那么到了2024年,周浩作為核心貢獻(xiàn)者參與的VideoPrism,它解決的就是“怎么讓AI看懂視頻”。
這篇論文本質(zhì)上是構(gòu)建了一個(gè)視頻基礎(chǔ)編碼器,能夠處理從科學(xué)視頻到監(jiān)控錄像等各類視頻內(nèi)容。
以前的AI“看視頻”,其實(shí)是把視頻拆成一幀一幀的圖片分別看,就像把一部電影剪成幾千張截圖然后逐張分析。它能認(rèn)出畫面里有什么,但根本不懂“前后發(fā)生了什么”。
VideoPrism則是讓AI理解視頻里的時(shí)間流動(dòng)。比如看一段做菜視頻,它不僅知道“這是一個(gè)廚房、有一個(gè)人、有一口鍋”,還能理解“這個(gè)人先切菜、然后熱油、然后下鍋炒”這個(gè)動(dòng)作序列。
VideoPrism的核心思路是將大規(guī)模視頻-文本對(duì)數(shù)據(jù)與純視頻數(shù)據(jù)結(jié)合,通過兩階段訓(xùn)練,讓模型同時(shí)學(xué)會(huì)語義理解和視覺細(xì)節(jié)。
![]()
第一階段用對(duì)比學(xué)習(xí)讓模型學(xué)會(huì)匹配視頻和文本描述,第二階段用掩碼自編碼讓模型學(xué)會(huì)預(yù)測(cè)視頻中被遮擋的部分。
這個(gè)設(shè)計(jì)讓VideoPrism能夠從兩種互補(bǔ)的信號(hào)中學(xué)習(xí)。文本描述提供語義信息,視頻內(nèi)容提供視覺動(dòng)態(tài)信息。
在33個(gè)視頻理解基準(zhǔn)測(cè)試中,VideoPrism在31個(gè)上達(dá)到了最優(yōu)性能,而且用的是同一個(gè)凍結(jié)模型,幾乎不需要針對(duì)不同任務(wù)做適配。
這個(gè)工作被直接產(chǎn)品化進(jìn)入谷歌的多模態(tài)體系,是Gemini視頻理解能力的技術(shù)基石之一。
周浩同樣也是Gemini 3.0的關(guān)鍵貢獻(xiàn)者(Key Contributor)。在這個(gè)模型上,他具體負(fù)責(zé)的是多步驟強(qiáng)化學(xué)習(xí)(Multi-step RL),翻譯成人話,就是讓模型在解決復(fù)雜問題時(shí),能夠進(jìn)行多輪思考、規(guī)劃、執(zhí)行、反思的鏈?zhǔn)酵评砟芰Α?/p>
Gemini DeepThink(深度思考模式)和DeepResearch(深度研究)等功能就是因此而來的。
普通的AI回答問題,是“想一步、說一步”。你問它一個(gè)復(fù)雜問題,它從頭到尾生成一遍答案就完了,中途不會(huì)停下來質(zhì)疑自己。
周浩做的事,是讓AI學(xué)會(huì)“一口氣想好幾步”。
AI會(huì)先拆解問題、制定計(jì)劃,然后一步步執(zhí)行,每走一步都回頭檢查“這步走對(duì)了嗎?下一步該怎么走?”。
這樣一來,Gemini的DeepResearch功能就可以幫你自動(dòng)搜索幾十個(gè)網(wǎng)頁,再綜合搜索結(jié)果,給你寫出一份有邏輯的研究報(bào)告。而不是像其他大模型一樣,把搜索結(jié)果一口氣“噴”出來,因?yàn)樗娴氖窃谝徊讲降厮伎己鸵?guī)劃。
周浩的研究路線啟示有一條清晰的主線。
從最一開始讓AI自己明白什么是錯(cuò)的,再讓AI認(rèn)識(shí)到時(shí)間序列這個(gè)抽象概念,最后通過多步驟強(qiáng)化學(xué)習(xí)讓AI學(xué)會(huì)規(guī)劃和反思。
隨著時(shí)間的推移,AI能理解的事物越來越復(fù)雜,也越來越能解決真實(shí)的用戶需求。
有意思的是,這個(gè)發(fā)展軌跡,恰好就是千問接下來要走的路。
02 千問剛剛完成一次技術(shù)躍遷
在我看來,周浩的研究方向,與Qwen 3.5 已經(jīng)走到的技術(shù)節(jié)點(diǎn),形成了高度精準(zhǔn)的“卡槽對(duì)接”。
Qwen 3.5在2026年2月發(fā)布,這是千問系列的最新旗艦版本。它采用了混合架構(gòu),結(jié)合了Gated DeltaNet和稀疏混合專家(MoE)兩種技術(shù)。
旗艦?zāi)P蚎wen3.5-397B-A17B總參數(shù)量為3970億,但每次推理只激活170億參數(shù),這樣的設(shè)計(jì)能夠讓它在保持高性能的同時(shí),成本降低了60%,吞吐量提升了8倍。
雖說Qwen 3.5在架構(gòu)和預(yù)訓(xùn)練上已經(jīng)做到了世界級(jí)水準(zhǔn),但它的后訓(xùn)練階段卻不夠出色。尤其是如何讓模型真正學(xué)會(huì)推理、反思、自我糾錯(cuò),這正是千問的短板。
早在2025年5月的Qwen 3技術(shù)報(bào)告中,Qwen團(tuán)隊(duì)就已經(jīng)明確表示,其后訓(xùn)練階段的強(qiáng)化學(xué)習(xí)“聚焦于數(shù)學(xué)和編程任務(wù)”,并在展望部分坦承“計(jì)劃增加強(qiáng)化學(xué)習(xí)算力,特別強(qiáng)調(diào)基于環(huán)境反饋的agent強(qiáng)化學(xué)習(xí)系統(tǒng)”。
這個(gè)短板在benchmark上看得更清楚。
在多個(gè)最能體現(xiàn)深度推理和復(fù)雜任務(wù)能力的測(cè)試中,Qwen 3.5-397B始終落后于同期發(fā)布的Gemini 3.1 Pro。
比如在GPQA Diamond(科學(xué)知識(shí)推理)上,Gemini 3.1 Pro得分是94.3%,Qwen 3.5只有88.4%。在SWE-bench Verified(代碼任務(wù))上,Gemini 3.1 Pro達(dá)到 80.6%,Qwen 3.5則是76.4%。在MMLU系列測(cè)試中,Gemini 3.1 Pro的多語言版本得分92.6%,Qwen 3.5的MMLU-Pro是87.8%。
兩者的差距,就集中在需要多步規(guī)劃、工具調(diào)用與自我糾錯(cuò)的復(fù)雜任務(wù)上。
周浩的研究成果剛好能補(bǔ)上了這個(gè)缺口。它不需要額外的人工標(biāo)注數(shù)據(jù),不需要給模型灌輸更多知識(shí),就能讓模型意識(shí)到錯(cuò)誤在哪。
而且周浩主導(dǎo)的多步驟強(qiáng)化學(xué)習(xí),也彌補(bǔ)了Qwen在多步規(guī)劃上的不足。
另外,Qwen 3.5已經(jīng)具備了agent的基礎(chǔ)能力。
2026年1月,千問App全面接入淘寶、支付寶、高德地圖、飛豬,實(shí)現(xiàn)了“一句話點(diǎn)外賣、訂機(jī)票、叫出租”。用戶可以說“幫我訂一張明天去北京的機(jī)票,預(yù)算2000以內(nèi),帶行李額”,系統(tǒng)會(huì)自動(dòng)比價(jià)、推薦航班、跳轉(zhuǎn)支付、完成出票。
![]()
但這些功能還比較初級(jí),更像是把多個(gè)API串起來調(diào)用,而不是真正的多步驟推理。
如果航班取消了,AI能不能自己發(fā)現(xiàn)問題并切換方案?如果用戶說“幫我安排一個(gè)周末去杭州的行程”, AI能不能自己拆解成訂票、訂酒店、規(guī)劃路線、推薦餐廳這一系列子任務(wù),然后一步步執(zhí)行?這些都需要更強(qiáng)的自我糾錯(cuò)和多步驟規(guī)劃能力。
此前在林俊旸的主導(dǎo)下,Qwen 3.5還實(shí)現(xiàn)了原生多模態(tài)。這是一種從預(yù)訓(xùn)練階段開始,就把文本、圖像、視頻 token混在一起進(jìn)行訓(xùn)練的模式。
它能處理最高1344x1344分辨率的圖片,以及60秒的視頻片段。
這套架構(gòu)和周浩在VideoPrism上做的事情高度一致,他們都是通過早期融合讓模型同時(shí)學(xué)會(huì)語義理解和視覺細(xì)節(jié)。周浩對(duì)這套方法論的深度理解,有望幫助千問在視頻時(shí)序推理、動(dòng)作理解等維度上實(shí)現(xiàn)進(jìn)一步突破。
林俊旸時(shí)代,千問團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力不只是技術(shù),更是組織方式。預(yù)訓(xùn)練、后訓(xùn)練、多模態(tài)、基礎(chǔ)設(shè)施全部在一個(gè)團(tuán)隊(duì)內(nèi)部閉環(huán),溝通鏈路極短,一個(gè)技術(shù)判斷可以當(dāng)天落地實(shí)驗(yàn)。
但這種“一個(gè)人的大腦”式的管理方式,在團(tuán)隊(duì)規(guī)模擴(kuò)大到幾百人之后,開始出現(xiàn)瓶頸。
阿里啟動(dòng)了官方架構(gòu)調(diào)整,將原本閉環(huán)的團(tuán)隊(duì)拆分為預(yù)訓(xùn)練、后訓(xùn)練、文本、多模態(tài)等多個(gè)平行的水平分工模塊,直接否定了原本的垂直整合模式。
團(tuán)隊(duì)的考核邏輯也因此發(fā)生轉(zhuǎn)變,核心KPI從原本的模型性能、榜單排名、開源影響力,轉(zhuǎn)向了模型對(duì)集團(tuán)業(yè)務(wù)的提效成果、千問App的用戶增長(zhǎng)、商業(yè)化ROI。
周浩要接的,就是這樣一個(gè)攤子。
技術(shù)上已經(jīng)走到世界前列,但有明顯短板;組織上從“研究?jī)?yōu)先”變成了“指標(biāo)驅(qū)動(dòng)”;戰(zhàn)略上從開源模型轉(zhuǎn)向C端超級(jí)入口,從技術(shù)品牌轉(zhuǎn)向生活助手。
03 千問的未來是?
誠(chéng)然,千問團(tuán)隊(duì)長(zhǎng)期處于“算力饑渴”狀態(tài)。吳泳銘也在內(nèi)部會(huì)議上公開道歉,說“沒有更早知道資源的問題”。
但這只是內(nèi)部矛盾的一面,真正決定這次人事變動(dòng)的,是它發(fā)生的時(shí)間節(jié)點(diǎn)。
如今的千問正處于戰(zhàn)略大調(diào)整,因此,底層模型的性能至關(guān)重要。
2025年11月,阿里將“通義”App 更名為“千問”,吳泳銘親自拍板,并在財(cái)報(bào)分析師電話會(huì)上明確表態(tài):“阿里巴巴必須要有一個(gè)AI原生的C端超級(jí)入口。”
3月2日,就在林俊旸發(fā)朋友圈告別的前一天,千問AI眼鏡在 MWC 巴塞羅那全球首秀,并于當(dāng)天開啟全球預(yù)約。
阿里內(nèi)部人士透露,除AI眼鏡之外,千問還會(huì)在年內(nèi)陸續(xù)發(fā)布AI指環(huán)、AI耳機(jī)等產(chǎn)品,全部面向全球市場(chǎng)發(fā)售。
“幫你辦事”和“陪你聊天”,是完全不同的兩件事,對(duì)模型來說也是如此。
幫用戶訂一張機(jī)票,聽起來簡(jiǎn)單,實(shí)際上需要模型完成一系列連貫動(dòng)作:理解用戶意圖→調(diào)用高德/飛豬 API→處理返回結(jié)果→識(shí)別異常(比如航班取消)→主動(dòng)提出備選方案→等待用戶確認(rèn)→完成支付。
任何一個(gè)環(huán)節(jié)出錯(cuò),用戶體驗(yàn)就會(huì)崩塌。
這不是一個(gè)聊天機(jī)器人能做到的,所以千問App 會(huì)從“對(duì)話框產(chǎn)品”變成“任務(wù)完成產(chǎn)品”。
現(xiàn)在打開千問App,核心交互還是一個(gè)聊天框。但有了周浩的多步驟強(qiáng)化學(xué)習(xí)加持之后,可以預(yù)期千問會(huì)逐步把“辦事”能力做成獨(dú)立的產(chǎn)品模塊。
不是你問它“幫我訂機(jī)票”,而是它主動(dòng)在你說“明天要去北京開會(huì)”的時(shí)候,自動(dòng)識(shí)別出這是一個(gè)需要訂票、叫車、提醒的復(fù)合任務(wù),并一步步幫你完成,中途遇到航班取消還能自己切換方案。
這個(gè)產(chǎn)品形態(tài),更接近一個(gè)“AI秘書”。
阿里的優(yōu)勢(shì)就在于產(chǎn)業(yè)鏈完整,可以無縫接入各種阿里系生活、購物產(chǎn)品,這也是Gemini和ChatGPT目前都還沒有做到的。
同時(shí)我還認(rèn)為,千問眼鏡會(huì)成為一種具有情境感知能力的AI助手。
目前市面上大多數(shù)AI眼鏡的核心能力是“你問我答”,本質(zhì)上是把手機(jī)語音助手搬到了臉上。
千問眼鏡如果能把VideoPrism的視頻時(shí)序理解能力真正落地,產(chǎn)品體驗(yàn)會(huì)有質(zhì)的不同。
它不需要你開口問,就能理解你正在做什么、下一步可能需要什么。你走進(jìn)超市,它知道你在看貨架。你在餐廳猶豫,它知道你在對(duì)比菜單。
這種“主動(dòng)感知、預(yù)判需求”的體驗(yàn),才是AI眼鏡相對(duì)于手機(jī)真正的差異化價(jià)值。
林俊旸把千問做成了一個(gè)讓全球開發(fā)者尊敬的技術(shù)品牌,那么周浩的任務(wù),就是讓千問真正靠得住,不只是聰明,還要穩(wěn)、準(zhǔn)、能把事辦完。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.