最近,國內AI的戰場上,又多了一位參賽的C端選手——阿里千問App。
此次上線的千問,作為阿里旗下最強最新的Qwen大模型首個官方應用入口,劍指ChatGPT等全能AI應用標桿。
其核心競爭力在于Qwen系列模型——該系列模型在多項權威評測榜單中持續登頂,以領先性能構筑起底層技術壁壘。
但問題的關鍵在于:Benchmark上的高分,能否轉化為用戶手中真實可感的體驗?
這篇文章衛夕就和大家一起來盤一盤——
一、千問需要將模型能力轉化成好用的應用體驗
一臺好車,發動機的馬力只是必要條件,而非充分條件,最終用戶在意的,是這輛車整體開起來舒不舒服。
Qwen系列模型的實力毋庸置疑,Qwen的開源模型已經位列全球第一梯隊,長期雄霸各類榜單。
同時其建立了一個完整的模型家族:語言、視覺理解、圖像生成與編輯、視頻生成、代碼......幾乎覆蓋了所有關鍵場景。
這種全模態的能力矩陣,是千問區別于競品的第一道護城河。
這一點對于競爭而言其實挺重要的,目前市面上各家AI偏科的不少——
DeepSeek產品沒有視覺理解能力,ChatGPT的圖像編輯打不過Nano Banana,Claude代碼強但缺多模態。
而千問從一開始就是一個水桶型選手,沒有明顯的能力短板。
但千問App的現實挑戰是:如何讓Benchmark上的高分,變成用戶手中實實在在的好用。
二、千問的創造性思維如何?
如果你問一個AI應用最重要的能力是什么,答案可能因人而異。
對于我而言,有一點是確定的:在我高頻用它之前,它得讓我識別到它的特點。
由于我個人的偏好,我測試AI應用喜歡用它們開一些腦洞,咱們廢話少說,一起來看一看千問的測試表現——
第一個我常測的問題——
“假如唐朝就有微博,歷史名人們會如何互動?”
![]()
千問的答案
可以看到,千問的答案一開始就精準拿捏李杜的性格反差,然后過渡到王維、孟浩然等不同圈層的互動,再加上了安史之亂的補充,到最后的假想微博體的文化意義。
答案的確Get到了這個整活問題的出發點,同時也沒忘適當拔高和延展
再看一看豆包的答案——
![]()
豆包的答案
可以看到,和千問的“大局觀”相比,它的回答直接而富有娛樂性。
直接將博文和評論互動列了出來,同時還加入了楊玉環這樣的角色,符合豆包“內容向”、“娛樂向”的過往風格。
再來——
“分析一下《西游記》中四位
主角
MBTI”
![]()
千問的答案
對于這個問題,兩邊的答案就有一些差異了。
先看結果,千問的結果是——唐僧INFJ、孫悟空ENTP、豬八戒ESFP、沙僧ISFJ。
而豆包的結果是——唐僧INFJ、孫悟空ESTP、豬八戒ESFP、沙僧ISTJ。
![]()
豆包的答案
二者在唐僧和豬八戒二人的結果上沒有分歧,分歧在于——孫悟空到底是N還是S,沙僧到底是F還是T。
我個人傾向于孫悟空是S(更憑直覺而不是抽象),但千問的理由是孫悟空一眼看出妖怪的本質,因此不是直覺,這樣聽起來也有理有據。
至于沙僧,我則認為千問的答案T沒毛病,沙僧在西游記里是有多次感情流露的。
對比二者,會發現豆包的答案更直接,而千問答案還會給出理論支撐的信息,更讓人信服一些。
第三題——
這道題是來自我最近買的一本書——《501個創意寫作練習》,一本全是提示詞的書,我隨便挑了一道:
![]()
千問的回答是這樣的——
![]()
千問的答案
可以看到,千問的回答在行文水平上非常流暢,它選擇了“打掃庭院”這個任務。
在語言上的確還原了極限運動播報員這一角色,更重要的是,它總結了行文思路,同時對其他任務也提供了播報的參考的方向,可以說非常貼心了。
![]()
豆包的答案
而豆包選擇了“清掃房間”這個任務,行文同樣對極限運動員還原的不錯,從語言風格上,豆包有更多的引號,顯得更加癲狂一些。
二者的取向并沒有好壞之分,取決于具體用戶的偏好,我個人更喜歡千問的版本稍多一些。
總體而言,我發現千問的答案找到了一個微妙的平衡點,它既不會過于拘謹顯得無聊,也不會太過放飛而顯得癲狂。
這種平衡,來自Qwen模型在訓練時對結構化輸出的強化,你能感受到它的確在思考、在組織。
它懂得什么時候該放飛,什么時候該收斂,從這個意義上,上面這些問題的答案千問表現不俗。
三、從有趣到有用:千問的另一面
創意只是開始,對于一個真正想要占據用戶日常的AI應用來說,靠譜才是核心。
這就涉及到千問必須回答的第二個問題——
在實用、專業的場景中,它能否經得起考驗?
我用幾個真實場景測試了千問:
場景一:
“北京市的
"工作居住證"如何辦理?”
這是一個典型的"本地化、政策性"問題,它要求有準確的流程、最新的政策、可操作的步驟。
![]()
千問的答案
千問的回答非常出色,它從申請條件、申請材料、申請流程、待遇等方面詳細給出。
甚至還給出了一些區的咨詢電話,非常全面,同時在答案末尾還推薦了一些相關視頻。
![]()
豆包的答案
而豆包的回答則要遜色一些,核心信息只有申請流程,而流程的4步只是一個概述,并沒呈現相關細節。
場景二:
“請總結最近兩年騰訊的前
10大股東的變化情況。”
這是一個典型的專業研究場景,它需要AI準確查找信息,同時具有有數據分析的能力,還要結合提問進行推理。
![]()
千問的答案
千問的答案,不僅專門列出了南非報業、馬化騰以及貝萊德投資者具體的變動。
還通過表格進行了相對清晰的統計,并結合變動分析了趨勢,最后進行了總結,滴水不漏。
而豆包的答案直接列出了變動,但并未通過表格列出具體的前10大股東。
![]()
豆包的答案
我專門查驗了一下,發現二者引用來源還挺不一樣的,推測應該是引述不同來源導致的差異。
場景三:
“這是什么東西,應該如何使用?”
![]()
這是一個"視覺識別+推理"的場景,也是生活中常見的場景。
我家的洗手間,就有很多我媳婦兒各類瓶瓶罐罐,全是英文,不少我既不認識也不知道怎么用。
而AI則完全可以解決這個問題——
![]()
千問的答案
千問準確識別出了這是用于監測哮喘和慢阻肺最大流速的峰速儀,給出了品牌、產品特點、實用方法和注意事項,最后還給出了淘寶鏈接。
而豆包在同一場景下也很好地完成了任務,給出了使用方法和注意事項,最后還問用戶是否需要補充使用清單。
![]()
豆包的答案
此外,我還用DeepSeek也試了一下,發現DeepSeek盡管識別正確,但它并非是通過視覺物品而得到的結論,而是識別圖像上的文字。
當只給到純物品圖片時,DeepSeek就會提示“未提取到文字”,這一點千問會有明顯優勢。
![]()
DeepSeek的答案
此外,我還進行了一系列的其他測試,比如圖片編輯、視頻通話、深度研究等,千問的完成度比我預期的要高。
![]()
圖片編輯功能默認有不同的濾鏡,同時設置了擴圖、去水印等常見操作。
我試了一下,去掉照片里的路人、AI試衣等常見的圖片玩法毫無壓力。
![]()
另外,我還用視頻通話,簡單對著桌面問了一下他看到了什么。
它的視頻通話的延時非常低,畫面描述也很精準,我相信家里老人們拿它識別一些花花草草肯定也非常實用。
![]()
可以看到——
得益于模型層的領先,無論是回答“工作居住證”這類政策問題,還是“騰訊股東變動”這類對準確性要求高的財經問題,還是生活中常見的識圖場景,千問交出的答卷都滴水不漏。
如果用四個字形容,那就是“穩如老狗”:
首先,思考的思維鏈很清晰、質量很高。
同時在搜索結果引用和推理層面做到了切中要害,最后在呈現上(辦理流程列出資料的具體項目、股權變動用圖表對比)非常直觀、詳細,閱讀體驗很好。
其次,得益于其在多模態層面的領先優勢,千問App超越了一個LLM的范疇。
因而可以做到在功能層面覆蓋非常飽和(修圖、視頻通話、視頻生成、PPT等等),能最大程度上滿足不同用戶的多元需求。
從這個意義上,我對千問的評價就兩個字——靠譜。
靠譜這個詞,說起來簡單,背后其實包含了很多多東西,它涉及模型的能力、應用的設計、價值的取向等一系列復雜要素。
一個靠譜的AI,應該像一位值得信賴的專家,在你需要的時候,給出可執行的答案。
這一點,千問的確做得不錯。
這幾天,我在Twitter上也刷到了不少人對千問的評價,比如一位叫駱逸的建筑師是這樣說的——
![]()
我想,用戶自然的口碑可能就是千問最好的背書。
四、挑戰與未來:千問能走多遠?
在過去,Qwen大模型雖然在技術上領先,但普通用戶感知不強。
而千問的使命就是要扭轉這種局面,打通Qwen大模型和C端用戶之間的最后一公里。
這種定位,決定了千問的產品邏輯:不只是要聊得來,更要用得上。
它希望覆蓋用戶從創意到執行的全流程,成為用戶工作、學習、生活中全能助手。
而這并不容易。
接下里的戰爭應該非常精彩,字節、騰訊、阿里還有DeepSeek和Kimi,到底誰能在長期的競爭中勝出,值得從業者認真觀察。
千問的一個挑戰就是——如何建立自己的場景心智?
我直觀的感覺,從目前的產品定位來看,千問野心就是要做中國的ChatGPT,但這個C端用戶的心智如何建立,可能需要時間。
我倒認為,千問可以抓住"AI生產力平臺"這個定位空白,強化相關場景,從而實現差異化競爭。
這需要千問在傳播和運營上,找到清晰的錨點和場景,讓用戶知道,在什么情況下,第一時間想到千問。
從我個人的角度,我很期待的一點是千問之后在Agent能力上的升級迭代。
據《晚點》對千問團隊的采訪,千問后續差異化競爭點在于Agent——
“阿里體系下有這么多 Agent,怎么基于場景把它們更好地串聯在一起?用戶很多需求使用的不是一個或者兩個 Agent 的服務,比如說我想要規劃一個團建,調用的不只是飛豬,可能還有很多支付、出行、購物等一系列能力,怎么把它們有機且絲滑得串聯在一起。”
的確,從能回答的Chatbot到能干活的Agent,其想象空間要大不少,而阿里的生態恰好又是和用戶日常生活聯系最緊密的系統,因而會帶來很大的想象空間。
據騰訊的財報電話會,微信之后也會推出AI Agent,阿里和騰訊在C端的Agent賽道有一次重逢。
二者在打法上有哪些差異化看點,值得行業持續關注。
結語
千問的推出,是阿里在AI時代的一次重要戰略布局。
過去幾年,阿里在AI領域布局很全——
從底層算力(阿里云)、到模型研發(Qwen系列)、再到應用層面(千問、夸克AI、釘釘AI)。
這是一個全棧的打法。
千問App的推出,是這個全棧在C端的集中爆發,而千問承載的,是阿里對"AI新質生產力"的理解。
而到底什么是"AI新質生產力",每一個行業玩家都應該嚴肅思考。
——End——
作者簡介:衛夕,公眾號“衛夕指北”出品人,科技專欄作者,專寫長文,專注剖析互聯網及社會科學的底層邏輯;不關注這個賬號,你都不知道你會錯過神馬!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.