中國(guó)的馬年春節(jié),正在成為個(gè)人智能體大規(guī)模落地的首個(gè)標(biāo)志性場(chǎng)景。
春節(jié)是中國(guó)科技巨頭改寫用戶習(xí)慣的關(guān)鍵時(shí)間窗口,也是大模型廠商布局新一年競(jìng)爭(zhēng)的前哨戰(zhàn)。今年尤其如此,因?yàn)橹悄荏w正變得更輕快、更聰明、也更可用。
除夕夜,阿里巴巴開源全新一代大模型千問Qwen3.5-Plus,性能媲美Gemini 3 pro,登頂全球最強(qiáng)開源模型。阿里千問App這個(gè)國(guó)民級(jí)消費(fèi)AI應(yīng)用,已經(jīng)第一時(shí)間接入這個(gè)原生多模態(tài)智能體底座。在全面開啟AI購物功能后,千問App月活用戶已經(jīng)超過1億,一周內(nèi)完成1.2億筆訂單,差不多平均10個(gè)中國(guó)人嘗試了1次。
得益于它在底層模型架構(gòu)的全面革新,為Qwen3.5家族打頭陣的Qwen3.5-Plus(Qwen3.5-397B-A17B的API版本),總參數(shù)3970億,激活參數(shù)170億,但性能超過萬億參數(shù)的Qwen3-Max模型,堪比Gemini 3 pro。它的“部署成本”比前者降低了60%,API調(diào)用價(jià)格僅為后者的1/18。在32K/256K上下文長(zhǎng)度下,它的最大解碼吞吐量分別是Qwen3-Max的8.6倍和19.0倍,是Qwen3-235B-A22B的3.5倍和7.2倍。
全新的Qwen3.5-Plus,是一個(gè)原生多模態(tài)模型。千問家族從Qwen2.5到Qwen3,預(yù)訓(xùn)練數(shù)據(jù)從18T tokens擴(kuò)展到36T tokens,是純文本數(shù)量的擴(kuò)展;這次邁向Qwen3.5時(shí)代,預(yù)訓(xùn)練數(shù)據(jù)進(jìn)一步擴(kuò)展,而且這次還是視覺和文本的混合數(shù)據(jù)。它支持長(zhǎng)達(dá)2小時(shí)(1M token上下文)的視頻直接輸入,在多模態(tài)推理(MathVison)、通用視覺問答VQA(RealWorldQA)、文本識(shí)別和文件理解(CC_OCR)、空間智能(RefCOCO-avg)、視頻理解(MLVU)等基準(zhǔn)測(cè)試中,斬獲最佳性能。
它因此化身為智能體模型,尤其是在搜索Agent(Browsecomp)表現(xiàn)上遙遙領(lǐng)先。作為一個(gè)視覺智能體,Qwen3.5-Plus可以自主操作手機(jī)與電腦完成日常任務(wù),能處理跨應(yīng)用的數(shù)據(jù)整理、多步驟流程自動(dòng)化等復(fù)雜任務(wù)。這為千問App鞏固自己國(guó)民級(jí)超級(jí)AI應(yīng)用的地位奠定了基礎(chǔ)。
![]()
進(jìn)入Agentic時(shí)代
從簡(jiǎn)單問答,到單次執(zhí)行,再到多步驟智能體執(zhí)行,行業(yè)正在進(jìn)入一個(gè)新的演進(jìn)周期。它面臨的不再只是回答問題的準(zhǔn)確率,而是推理深度、跨模態(tài)整合、編碼與工具調(diào)用能力、長(zhǎng)期記憶與成本效率的綜合考驗(yàn)。
幾乎全世界最重要的大模型公司,都選擇集中在最近幾十天里發(fā)布重量級(jí)的新模型。在美國(guó),Anthropic的Claude Opus 4.6與OpenAI的GPT-5.3-Codex相繼上線;在國(guó)內(nèi),月之暗面的Kimi-K2.5、智譜的GLM-5、稀宇科技的MiniMax-M2.5,以及字節(jié)跳動(dòng)的Doubao-Seed-2.0,都在宣傳自己的智能體能力。去年至今,阿里巴巴千問模型迭代至今天壓軸的Qwen3.5,也正是這一變化的縮影。
推理能力的進(jìn)化,已經(jīng)在你追我趕中,快速演進(jìn)了一年多。從 o1 到 DeepSeek-R1,再到 QwQ-32B,強(qiáng)化學(xué)習(xí)被重新確立為擴(kuò)展能力的主線之一,證明了在后訓(xùn)練階段,規(guī)模擴(kuò)展仍然有效。而在 Qwen3.5 中,強(qiáng)化學(xué)習(xí)的重要性被再次強(qiáng)調(diào)。但這一次,重點(diǎn)變成了“環(huán)境擴(kuò)展(environment scaling)”,即模型所處的可操作任務(wù)世界的數(shù)量與多樣性,正在成為新的擴(kuò)展方向。
![]()
編碼能力在這一年完成了沉淀。對(duì)于智能體而言,代碼不僅是解決未見問題的工具,更是一種讓模型得以修改環(huán)境、重構(gòu)流程,甚至實(shí)現(xiàn)智能體持續(xù)學(xué)習(xí)與自我迭代的“元能力”。去年7月,Qwen3-Coder-480B-A35B-Instruct開源,性能對(duì)標(biāo)Claude 4 Sonnet。它最大的創(chuàng)新在于具備智能體功能,一條命令接管整個(gè)代碼倉庫,實(shí)現(xiàn)“在世界中自主編程”。發(fā)布半個(gè)月內(nèi),它迅速蠶食多模型API聚合平臺(tái)OpenRouter上的編程市場(chǎng)份額,Anthropic占比從47%回落至30%。Perplexity首席執(zhí)行官Aravind Srinivas直呼“開源正在取勝”。
過去一年,原生多模態(tài)已從前沿模型的能力選項(xiàng),演變?yōu)橹髁髂P偷幕A(chǔ)結(jié)構(gòu)。去年3月,GPT-4o擁有了圖像生成能力,OpenAI相信原生統(tǒng)一的多模態(tài)大模型,才能更完整地映射現(xiàn)實(shí)世界。同年11月,Gemini 3亦以原生多模態(tài)為核心設(shè)計(jì)。越來越多GUI智能體開始在手機(jī)與電腦端運(yùn)行,視覺能力成為模型連接現(xiàn)實(shí)世界的關(guān)鍵接口。而從Qwen家族的視覺語言模型VL,到圖片生成Image,再到原生全模態(tài)大模型Omni,阿里堅(jiān)持全模態(tài)擴(kuò)展與開源。因此,這次Qwen3.5構(gòu)建覆蓋視覺能力的原生多模態(tài)底座,也就順理成章。
過去一年的多條技術(shù)路線,并非并行存在,而是被持續(xù)整合進(jìn)旗艦?zāi)P椭校鸩綇?qiáng)化了智能體調(diào)用工具的能力。去年4月,阿里Qwen-3正式發(fā)布,對(duì)智能體開發(fā)友好,原生支持 MCP 協(xié)議,提升了代碼能力,工具調(diào)用順手。今年1月,Qwen3-Max-Thinking發(fā)布,大幅增強(qiáng)了自主調(diào)用工具的原生Agent能力,模型可像專業(yè)人士一樣邊用工具邊思考,幻覺也大為降低,為解決真實(shí)復(fù)雜任務(wù)打下基礎(chǔ)。
在多步驟、多智能體協(xié)作的環(huán)境中,速度成為決定token價(jià)值的隱藏變量。字節(jié)跳動(dòng)發(fā)布 Seed-1.8 時(shí)披露,一個(gè)跨平臺(tái)搜索比價(jià)任務(wù)需要執(zhí)行122個(gè)連續(xù)步驟。也許要實(shí)現(xiàn)真正的“直接下單”,一個(gè)AI購物智能體在后臺(tái)完成的步驟只會(huì)更多。
這需要一次面向規(guī)模效率的底層架構(gòu)重構(gòu)。去年9月,阿里巴巴發(fā)布Qwen3-Next,總參數(shù)規(guī)模800億,預(yù)訓(xùn)練15T tokens,為此做了一次“中試”。千問大模型負(fù)責(zé)人林俊旸自稱為“大膽”。它嘗試用極致稀疏MoE,低成本擴(kuò)展模型的智能涌現(xiàn)的上限;邁出了高度復(fù)雜的混合注意力(Hybrid Attention)的一大步,既高效又精準(zhǔn)地?cái)U(kuò)展上下文長(zhǎng)度。
![]()
從Qwen3-Next到真正“量產(chǎn)”的Qwen3.5,團(tuán)隊(duì)沿著這一路線繼續(xù)優(yōu)化,采用了更高稀疏度的MoE、Gated DeltaNet與Gated Attention結(jié)合的混合注意力、穩(wěn)定性優(yōu)化與多token預(yù)測(cè)。這讓Qwen3.5-Plus僅需不到5%的算力,即可調(diào)動(dòng)全部知識(shí)儲(chǔ)備;解碼吞吐量隨之大幅提升,在高頻場(chǎng)景中呈現(xiàn)出接近“秒回”的響應(yīng)體驗(yàn)。
性能更強(qiáng)的旗艦?zāi)P蚎wen3.5-Max,也將在不久后發(fā)布。
國(guó)民級(jí)信任,國(guó)民級(jí)驗(yàn)證
在阿里千問的官方博客上,Qwen3.5被視為為通用智能體奠定了堅(jiān)實(shí)基礎(chǔ)。但通用智能體并不是一個(gè)更大的問答模型,而是一個(gè)“知行合一”的系統(tǒng)。它不僅理解世界,還能在世界中行動(dòng);不僅生成答案,還要承擔(dān)后果。
正如微軟CEO納德拉(Satya Nadella)所言,傳統(tǒng)的業(yè)務(wù)邏輯層正在被“agent tier(智能體層)”取代,這意味著決策權(quán)從人類工程師,開始逐步轉(zhuǎn)移給模型。OpenClaw的爆火讓人看到,在獲得系統(tǒng)級(jí)權(quán)限后,通用智能體的邊界,不在認(rèn)知邊界,而在責(zé)任邊界。
對(duì)于阿里千問App這個(gè)國(guó)民級(jí)AI應(yīng)用而言,每一次自動(dòng)下單、每一次跨應(yīng)用操作,也都是一次決策權(quán)與責(zé)任的轉(zhuǎn)移。不承擔(dān)責(zé)任的智能體,只是更高級(jí)的副手(copilot)。過去一年,全球科技公司都在嘗試把智能體推向交易場(chǎng)景。但是它們普遍面臨的挑戰(zhàn)在于,身份驗(yàn)證是否可靠、支付與交付是否順暢、上下文是否可追溯,無法在同一系統(tǒng)內(nèi)完成責(zé)任的確認(rèn)與修正。這是通用智能體落地最脆弱的斷點(diǎn)。
阿里的優(yōu)勢(shì),正建立在這種責(zé)任閉環(huán)之上。阿里擁有支付、商業(yè)與高頻本地服務(wù)等完整基礎(chǔ)設(shè)施。阿里還和支付寶打造了Alipay Toolkit,相當(dāng)于谷歌的AP2智能體支付協(xié)議。千問C端事業(yè)群總裁吳嘉將其概括為“最強(qiáng)模型”與“最豐富生態(tài)”的結(jié)合。模型提供認(rèn)知能力,生態(tài)提供執(zhí)行環(huán)境,而兩者的結(jié)合,決定了責(zé)任是否能夠落地。
因此,隨著Qwen3.5-Plus迭代模型能力,千問團(tuán)隊(duì)下一階段的重心,將轉(zhuǎn)向系統(tǒng)整合。用阿里千問團(tuán)隊(duì)的話來說,就是“構(gòu)建具備跨會(huì)話持久記憶的智能體、面向真實(shí)世界交互的具身接口、自我改進(jìn)機(jī)制,目標(biāo)是能夠長(zhǎng)期自主運(yùn)行、邏輯一致的系統(tǒng),將當(dāng)前以任務(wù)為邊界的助手,升級(jí)為可持續(xù)、可信任的伙伴。”
通用智能體會(huì)首先在可驗(yàn)證領(lǐng)域落地。編碼與數(shù)理證明已經(jīng)提供了范例。而在消費(fèi)場(chǎng)景中,真實(shí)交易結(jié)果比“答案是否正確”更具約束力。這種現(xiàn)實(shí)反饋,構(gòu)成了后訓(xùn)練“環(huán)境擴(kuò)展”的基礎(chǔ)。未來Qwen在這里學(xué)習(xí)的,不只是語言模式,而是責(zé)任結(jié)構(gòu)。
對(duì)于token經(jīng)濟(jì)而言,真正稀缺的不是算力,而是行動(dòng)許可。如果Qwen能夠在這種責(zé)任體系中建立信任,阿里贏得的將不僅是流量與用戶活躍度,而是在AI時(shí)代重建商業(yè)的信任基礎(chǔ)設(shè)施。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.