<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      阿里發布了他們最強思考模型,有點東西。。(附實測)

      0
      分享至

      大家好,我是熬夜追新模型的袋鼠帝。

      昨天晚上,我正準備關電腦睡覺,阿里突然甩出了一個重磅炸彈:Qwen3-Max-Thinking 正式發布。

      我看完,反手就點贊+在看


      不過,說什么數字游民,自由職業,其實我的作息完全掌握 AI 手里。

      AI一進化,我就得起來干活。。。

      吐槽歸吐槽,身體還是很誠實的。

      畢竟作為國產模型之光,千問每一次更新都挺讓人期待的。

      于是我立馬不困了,爬起來連夜實測,看看這次能想會干,比強更強到底怎么樣。

      Max都是旗艦級的閉源模型,所以性能會更強勁

      這次Qwen3-Max-Thinking號稱性能媲美 GPT-5.2 和 Gemini 3 Pro,特別是在數學、代碼和長邏輯推理上有了質的飛躍。

      最關鍵的是,它的 Agent 能力大幅增強,能像真人一樣邊用工具邊思考,而且幻覺更少。

      那豈不是非常適合接入最近爆火的個人AI助手clawdbot中使用?

      介紹clawdbot,以及如何安裝使用 袋鼠帝,公眾號:袋鼠帝AI客棧

      再給大家聊聊這次更新的核心技術亮點(我覺得非常實用),非常重要:

      能看到阿里這次在 Reasoning(推理)路線上走出了一條非常獨特的路徑。

      1. 測試時擴展(Test-Time Scaling):從"人海戰術"轉向深度反思

      傳統的推理增強往往采用并行采樣(Parallel Sampling)策略,即 Best-of-N,通過生成多條推理路徑再進行投票或打分。

      這種方式雖然有效,但計算冗余極高,邊際效應遞減明顯。

      Qwen3-Max-Thinking 采用了一種“經驗累積式迭代”策略。

      它利用“經驗提取(Experience Extraction)”機制,將上一輪推理中的關鍵洞見(Insight)提煉出來,注入到下一輪的 Context 中。這使得模型能夠在不增加 Token 消耗量級的情況下,通過自我反思修正錯誤,收斂至更優解。

      就好比一些模型解難題,就像是讓 100 個普通學生同時做同一道題,然后看誰的答案對(人海戰術,浪費資源且容易大家都做錯)。

      Qwen3-Max-Thinking像是一個資深學霸,做題時會先打草稿,發現第一步思路不對,立刻總結教訓,換個思路繼續推導,直到解出答案。

      不是一直試錯,是在迭代。

      2. 自適應工具調用:原生Agent的肌肉記憶

      大多數模型的工具調用依賴于 Prompt Engineering(提示詞工程),即告訴模型你有xxx工具,能干什么,請使用它。

      Qwen3-Max-Thinking這次通過大規模的RL(強化學習)后訓練,將工具調用內化為模型的原生能力。

      它不再需要顯式的Trigger,而是基于對任務復雜度的感知,自主決策何時掛起推理、調用 Search 獲取實時信息、或調用 Python 解釋器進行精確計算等。

      這種邊想邊做的能力,大幅降低了幻覺(Hallucination),也進一步提升了解決真實世界復雜任務的能力。

      3. 極致的生態兼容:可絲滑接入Claude Code

      這一點對于開發者至關重要:Qwen3-Max-Thinking 不僅兼容 OpenAI 協議,更原生兼容了 Anthropic API 協議。

      這意味著它可以絲滑接入 Claude Code。只需修改 API地址 和 API Key。


      現在Qwen3-Max-Thinking可以在網頁使用

      https://chat.qwen.ai/


      也可以通過API使用

      接下來,老規矩,咱們直接上實測。

      PS:Qwen3-Max-Thinking名字有點長,下文就用Qwen或者Qwen3代替了~

      1.網文圈《校花的貼身高手》

      由于聯網搜索已經自動整合進深度思考(由Agent自行判斷是否需要聯網),所以只需要打開深度思考即可(看見有讀者在別的公眾號評論區提問,為什么沒有聯網搜索了)

      這是一部連載了十多年的網絡小說,無數人從初中到大學畢業,從喬布斯Iphone時代到LLM時代,還在看這本小說,然而此書作者依然還在日更。

      書中劇情有一個關鍵節點,就是登上天階島,來問問Qwen是否能正確找到。

      prompt:在網絡小說,校花的貼身高手中,主角是在哪一章登上天階島的?


      有意思的是,查看思維鏈,可以看見,Qwen3-Max-Thinking會有意識地交叉對比不同的結果,防止被干擾,并且思考后給出章節不同的原因和結論,讓人感覺非常可靠。

      我去QQ閱讀APP核實了一下,是正確的


      接下來我又嘗試讓Qwen3-Max-Thinking用代碼給我畫個圖,看看能不能在超過2000萬字的小說中找到主角實力晉升的曲線。


      Qwen3在思維鏈中意識到,兩千萬字還是太多了,這個任務無法完成,但是基于我的意圖,還是找到了具有代表性的章節和晉升節點,給我畫了出來,完成任務


      2.(斬殺線熱梗)邏輯陷阱

      斬殺線最近非常火,我給Qwen3造了一個邏輯陷阱,還和豆包進行對比,看看Qwen會不會陷進去

      prompt:牢a是大a股買進去之后在坐牢嗎


      Qwen3 完全正確,一下子就意識到這是一個人的網名,然后還告訴我這是常見的誤解。仔細看思維鏈,能發現Qwen居然搜索了x和facebook,但是豆包似乎都沒觸發網絡搜索。這下Qwen 3的Agent能力又贏了。


      3.和Gemini 3 pro比較電影測評

      考驗在海量信息中網絡搜索真相,這點完勝Gemini 3 pro

      前兩天“重返寂靜嶺”上映,第一時間就去看了,沒想到是爛片,

      只能說被嚇得莫名其妙,劇情很莫名其妙,看不懂,前面兩個女生抱在一起,一個被嚇得在刷小紅書,一個被嚇得在玩微信小游戲,我買的還是最中間的座位,不舍得走,但又一直被嚇,主要是劇情莫名其妙。

      馬上試試AI搜索到的結果,是不是能符合我的真實體驗。

      先試了Gemini 3:根本沒提到最新上映的重返寂靜嶺。。

      而且搜索結果里似乎自相矛盾了,阿凡達同時出現在“值得一看“和“建議避雷”里,讓人有點困惑。


      又試了這回的Qwen 3,因為交給Agnet自動判斷是否需要網絡查詢了,所以我們只要打開深度思考就好了。

      Qwen3—Max甚合我意!簡直和我內心的意見一模一樣(每一場我都在電影院看過了,AI和我的意見居然一樣)

      這些影評都是非常真實的。


      我又點開思維鏈,仔細看看Qwen3具體是如何做到這一點的。

      可以看見,Qwen 3在內置Agent的調度下,一邊搜索、整理、又搜索,又整理,進行了幾輪的整理,才有了最后的準確答案

      并且在思維鏈中可以逐一看見被Qwen3搜索過的每一個影評網站,可以點擊進去瀏覽,能把海量信息匯總并且找到正確的信息,確實不錯。


      4.記憶(功能上新,類似ChatGPT和Gemini)

      這次千問也終于有了記憶:


      點擊頭像,就能在設置里面打開或者關閉記憶。


      下面做了一個場景預設測試,假如我是一個高考生,平時就愛和AI介紹自己喜歡的事情。


      那么假如已經到了高考報志愿的時候,Qwen就可以根據我以往所有的聊天偏好,對我進行分析,找到最適合我的專業。(以下新開了一個聊天窗口進行測試),

      可以看見,不給任何上下文信息,直接向Qwen 3 提問我適合什么專業。

      Qwen 3 的回答是正確的。因為這就是我本人的真實經歷,非常認同AI的判斷。


      5.視頻總結(支持上傳十分鐘以內的視頻)

      大概十秒鐘,總結很順利,比以前快多了,查看思維鏈,可以看見一步步梳理脈絡


      6.預測26年春晚,具身智能機器人表演到什么程度

      時光匆匆又一年,年味漸濃

      2026年春晚,宇樹科技將第三次登上春晚的舞臺。

      去年具身智能機器人表演的是《秧BOT》,今年又會進展如何呢?

      讓Qwen3預測一下今年的具身智能機器人,在春晚的舞臺上會有什么樣的表演。


      到時候看Qwen3預測得準不準,春晚就揭曉!

      7.公務員真題圖形推理題

      Qwen思路和答案都完勝,gemini 3 pro居然做錯了

      純圖形題目對于只有文字輸入的大模型來說是無解的

      但是這次Qwen 3 max是可以上傳視頻的,來看看Qwen 3 實力如何。

      下面是一道,公務員考試真題:


      如何判斷這是一道好的公務員題目,就在于每個人去看了答案,都會覺得很簡單,但是讓你自己在考場做,就是做不出來。

      這樣的題目考驗的正是公務員在為人民服務的過程中辦理實事、處置突變事項、臨場判斷的綜合素質,而不是悠哉坐在辦公室里的馬后炮和鍵盤俠。

      正強如Gemini 3 pro也做不出來,我一點不意外。

      但是讓我很意外的是,Qwen 3 max居然做出來了

      以下是Qwen 3 max的解題


      讓我們點開思維鏈,看看Qwen 3 max是如何思考的:

      可以看見Qwen 3 的結構化思考,完全就是一位真實的公務員考生:

      先是分析圖形變化規律、然后再嘗試推導邏輯關系,然后發現了找不到這個規律,于是又返回上一層重新思考圖形規律,最后找到正確思路。


      其實最后這一句(注:)實為畫龍點睛之筆,讓我嘖嘖稱奇。

      一年幾百萬公務員考生不斷刷題、報班、看課,就是為了找到題型規律,讓自己的腦子在考場上能適應“試題模式”,從而拿高分。

      然而,Qwen 3 輕飄飄說出這一句,于無聲處聽驚雷,意味著已經完全把公務員考試的出題邏輯盡在掌握。


      以下是Gemini 3 pro思考了接近4分鐘后,不僅被這道題目逼出了母語英文,

      還給出了錯誤答案。


      特地翻譯出來,看看gemini 3到底怎么錯的。


      其實Gemini 3 pro一度接近正確思路,但是不知為何突然開始混亂了,

      也許是因為還沒有Qwen 3 pro一樣,能懂得公務員考試的出題套路。

      代碼類:會噴火的旋轉六邊形小球

      似乎代碼能力并沒有那么好,試了一下GLM4.7能順利跑出來的case,Qwen 3還是有瑕疵。

      prompt:用 HTML、CSS 和 JavaScript 實現這樣一個效果:一個小球被困在一個旋轉的六邊形內部。小球受到地球重力的作用,并與六邊形內壁產生摩擦。小球的彈跳需要看起來逼真自然。


      優點是,Qwen 3 自動幫我考慮到了可調節參數,能讓我調節旋轉速度、重置位置、暫停旋轉等,下面還有參數顯示。

      缺點是,這個明顯還有缺陷,小球會噴火。。

      雖然 Qwen3-Max-Thinking 在代碼場景下還有瑕疵,但整體表現還是非常不錯的。

      特別是在邏輯推理、信息檢索和中文語境的理解上,它給人的感覺非常扎實。

      不知道Qwen在春節還有沒有什么壓箱底的大招,再放出來,我們可以一起期待一下。畢竟阿里的技術還是非常強勁的~

      我是袋鼠帝,一個在這個AI時代,持續分享AI實踐干貨,陪你一起進化的數字游民。

      點擊關注下方賬號,你將感受到一個朋克的靈魂。

      能看到這里的都是鳳毛麟角的存在!

      如果覺得不錯,隨手點個贊、在看、轉發三連吧~

      如果想第一時間收到推送,也可以給我個星標?

      謝謝你耐心看完我的文章~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      感謝勇士!80分啊!庫明加,這次真爆了

      感謝勇士!80分啊!庫明加,這次真爆了

      體育新角度
      2026-03-07 17:08:12
      可以基本確定,伊朗已經贏了

      可以基本確定,伊朗已經贏了

      大樹鄉談
      2026-03-06 23:32:06
      迪拜機場重新開放 國航北京-迪拜航班安全到達

      迪拜機場重新開放 國航北京-迪拜航班安全到達

      財聯社
      2026-03-07 17:43:08
      墻倒眾人推!多人再錘張杰出軌,拿謝娜當跳板,薛之謙才是大贏家

      墻倒眾人推!多人再錘張杰出軌,拿謝娜當跳板,薛之謙才是大贏家

      離離言幾許
      2026-03-05 12:33:31
      重力炸彈即將大規模上場,波斯面臨更大的壓力

      重力炸彈即將大規模上場,波斯面臨更大的壓力

      高博新視野
      2026-03-06 17:49:29
      假消息看多了,大腦真的會廢掉——

      假消息看多了,大腦真的會廢掉——

      心理提升課堂
      2026-03-07 09:36:17
      今早,黿頭渚擠爆了!

      今早,黿頭渚擠爆了!

      江南晚報
      2026-03-07 12:49:09
      哭窮風波僅2天,前夫赫子銘接連爆料,沒給何潔留一絲“體面”

      哭窮風波僅2天,前夫赫子銘接連爆料,沒給何潔留一絲“體面”

      汪鏞的創業之路
      2026-03-07 12:46:04
      伊朗總統向鄰國致歉:不再攻擊鄰國

      伊朗總統向鄰國致歉:不再攻擊鄰國

      每日經濟新聞
      2026-03-07 16:12:23
      邁阿密國際訪白宮引爭議,主帥:以為只討論足球

      邁阿密國際訪白宮引爭議,主帥:以為只討論足球

      體壇周報
      2026-03-07 14:44:11
      鐵礦到了!儲量44億噸大礦直運中國,澳大利亞為何開始緊張?

      鐵礦到了!儲量44億噸大礦直運中國,澳大利亞為何開始緊張?

      胖福的小木屋
      2026-03-06 16:39:08
      俄羅斯被曝向伊朗提供情報,包括美軍艦船和飛機的定位,白宮回應!美國準備部署第三艘航母,緊急批準對以色列超1.5億美元軍售

      俄羅斯被曝向伊朗提供情報,包括美軍艦船和飛機的定位,白宮回應!美國準備部署第三艘航母,緊急批準對以色列超1.5億美元軍售

      每日經濟新聞
      2026-03-07 13:18:09
      周濤衣領都開到這了誰還頂的住

      周濤衣領都開到這了誰還頂的住

      草莓解說體育
      2026-03-07 15:19:23
      文旅部部長:有外國游客購買40箱中國貨離境退稅,被航司罰款后發現還是劃算,手機無人機已成“中國特產”

      文旅部部長:有外國游客購買40箱中國貨離境退稅,被航司罰款后發現還是劃算,手機無人機已成“中國特產”

      極目新聞
      2026-03-07 12:57:58
      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      寧夏大學教授:為什么哈梅內伊不慌張?

      寧夏大學教授:為什么哈梅內伊不慌張?

      必記本
      2026-03-06 18:21:35
      項立剛質問莫言不為伊朗兒童說話,項立剛為中國患兒捐款了嗎?

      項立剛質問莫言不為伊朗兒童說話,項立剛為中國患兒捐款了嗎?

      書寫者
      2026-03-06 19:33:38
      1230人遇難!美國5天燒200億,終于承認:伊朗無人機真攔不住

      1230人遇難!美國5天燒200億,終于承認:伊朗無人機真攔不住

      近史博覽
      2026-03-07 01:20:35
      對伊朗而言,勝利的定義不是打贏,而是“活下去”并持續消耗美國

      對伊朗而言,勝利的定義不是打贏,而是“活下去”并持續消耗美國

      識局Insight
      2026-03-06 20:34:56
      2026-03-07 17:55:00
      袋鼠帝 incentive-icons
      袋鼠帝
      持續分享AI實踐干貨,走超級個體崛起之路
      55文章數 64關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      中國貨船"鐵娘子"號通過霍爾木茲海峽 大量船舶仍滯留

      頭條要聞

      中國貨船"鐵娘子"號通過霍爾木茲海峽 大量船舶仍滯留

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      家居
      時尚
      健康
      藝術
      軍事航空

      家居要聞

      暖棕撞色 輕法奶油風

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      轉頭就暈的耳石癥,能開車上班嗎?

      藝術要聞

      《圣教序》真跡終于找到!1903字清晰無損

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版