<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      美團新模型LongCat-Flash-Thinking-2601重思考模式拉風,附一手對比實測

      0
      分享至

      作者|子川

      來源|AI先鋒官

      近日,美團重磅更新并開源自家模型LongCat-Flash-Thinking-2601


      據介紹,此次發布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個參數,并基于的 MoE 架構構建。

      LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)

      簡單來說,這個模式讓模型能同時啟動 8 個大腦思考,從不同角度和深度推理同一個問題,最后總結出一個更全面、更可靠的結論。

      給大家看一個簡單的例子就明白了。


      提示詞:1+1為什么不等于2


      可以看到,重思考模式相當于使用了8個模型同時進行推理工作,最后的給出的8個答案在進行反復驗證,最終會得到一個最終解。


      除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓LongCat-Flash-Thinking-2601實現“想清楚再行動”的結果。

      不過在體驗的時候,由于相當8款模型同時在推理,所以它的上下文非常容易耗光,會經常返回“當前對話上下文過長,建議精簡輸入后重試”。


      那這款模型表現到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實力。


      首先是大家最關注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊。

      數學推理方面,開啟重思考模式后更猛。

      AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達到當前 SOTA。

      智能體工具調用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。

      智能體搜索方面,BrowseComp 任務73.1 分(全模型最優),RW Search 評測79.5 分

      最關鍵的是什么?在工具調用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


      這一連串的SOTA似乎有點東西,那它的實際效果到底如何? 老規矩,我們直接上手實測。

      此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

      提示詞:
      創建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現了偏差。它未能生成自然蜿蜒的水體,而是生成了一個圓柱體結構,導致視覺上更像是一根橫亙在山間的“水管”。

      而且DeepSeek-V3.2出現了嚴重的幻覺,模型似乎在坐標系構建上徹底迷失,原本應是連綿起伏的山脈和流動的河水,被渲染成了兩條細長的線段。

      功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點綴、動態的云朵與太陽一應俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

      或許這條題太難,給它們減低一下難度,做一個簡單的可視化登錄頁面。

      提示詞:請創建一個現代化的登錄頁面,包含以下功能:

      - 郵箱和密碼輸入框

      - 登錄按鈕

      - "記住我"和"忘記密碼"選項

      - Google第三方登錄

      - 注冊鏈接

      要求:深色主題,未來科技風格,居中布局,良好的用戶體驗。

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。

      再換一題,來一個經典老題:天氣卡片,主要是考驗模型的審美能力。

      提示詞:
      Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質感較為粗糙。

      它們的動效缺乏物理運動的自然感,視覺元素較為扁平,最終呈現效果略顯廉價,像是一個早期的 Demo。

      Kimi K2 Thinking 的表現則是會好很多,視覺上也更加的完整。

      此次測試的主要內容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

      雖然這次只測試了三個項目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

      雖然它在數學和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實戰中,它卻明顯得有些“高分低能”了。

      目前該模型已經上線,感興趣的用戶可以去體驗一下。

      • 體驗鏈接:https://longcat.ai

      • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

      • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

      廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

      羊城攻略
      2026-01-24 22:58:42
      每體:門前表現出色,特爾施特根幫助赫羅納保住了一分

      每體:門前表現出色,特爾施特根幫助赫羅納保住了一分

      懂球帝
      2026-01-27 13:19:31
      俄羅斯迎來黑暗一天!

      俄羅斯迎來黑暗一天!

      安安說
      2026-01-24 10:48:00
      賣掉5年油車換電車,開2年后坦言:這些網上說法都是真的

      賣掉5年油車換電車,開2年后坦言:這些網上說法都是真的

      復轉這些年
      2026-01-24 22:57:39
      好友相繼緬懷拼湊出,何晴生命最后時光:拮據、變樣、舍不下兒子

      好友相繼緬懷拼湊出,何晴生命最后時光:拮據、變樣、舍不下兒子

      阿郎娛樂
      2025-12-17 07:38:57
      現貨白銀日內漲7%

      現貨白銀日內漲7%

      每日經濟新聞
      2026-01-27 10:27:06
      廣東打工大齡未婚男子回到湖南農村,無人問津:沒必要找老婆了

      廣東打工大齡未婚男子回到湖南農村,無人問津:沒必要找老婆了

      心軒專欄
      2026-01-25 22:11:55
      外交部宣布:奧爾西將訪華

      外交部宣布:奧爾西將訪華

      環球時報國際
      2026-01-26 19:43:41
      51歲迪拜前王妃哈雅現身,又老又胖,女兒逃離王室后面相也變了

      51歲迪拜前王妃哈雅現身,又老又胖,女兒逃離王室后面相也變了

      笑傲春秋
      2026-01-12 15:19:36
      司令部收到情報難分真假,毛主席:去看看街上有沒有官太太賣東西

      司令部收到情報難分真假,毛主席:去看看街上有沒有官太太賣東西

      顧史
      2026-01-26 16:15:16
      本賽季要怎樣才算成功?弗林蓬:贏得足總杯和歐冠冠軍

      本賽季要怎樣才算成功?弗林蓬:贏得足總杯和歐冠冠軍

      懂球帝
      2026-01-28 00:20:06
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      得道多助!美國乒乓球職業聯賽創始人公開質疑樊振東排名缺失問題

      得道多助!美國乒乓球職業聯賽創始人公開質疑樊振東排名缺失問題

      鳳幻洋
      2026-01-27 16:14:11
      后續!武漢師傅跨500公里送發動機:錢款已退回,車主正臉曝光

      后續!武漢師傅跨500公里送發動機:錢款已退回,車主正臉曝光

      離離言幾許
      2026-01-27 14:38:53
      我軍總攻諒山,蘇軍大將不信邪非去觀戰,結果差點連人帶車被炸飛

      我軍總攻諒山,蘇軍大將不信邪非去觀戰,結果差點連人帶車被炸飛

      芊芊子吟
      2026-01-27 23:35:03
      12斤肉3個月甩凈!全紅嬋減重到離譜,這哪是減肥,是拿命拼金牌

      12斤肉3個月甩凈!全紅嬋減重到離譜,這哪是減肥,是拿命拼金牌

      做一個合格的吃瓜群眾
      2025-12-31 07:41:05
      給《太平年》演技最好的演員排個名:朱亞文第七,倪大紅第三

      給《太平年》演技最好的演員排個名:朱亞文第七,倪大紅第三

      另子維愛讀史
      2026-01-27 19:44:33
      萬歷的怠政有多奇葩

      萬歷的怠政有多奇葩

      無心鏡
      2026-01-25 08:24:32
      抗癌小王子豪豪離世,笑著對抗六年病痛,父親回應:孩子解脫了

      抗癌小王子豪豪離世,笑著對抗六年病痛,父親回應:孩子解脫了

      云景侃記
      2026-01-28 00:13:21
      步大S后塵?蔣欣減肥暴瘦引擔憂,健康亮紅燈恐成下一個悲劇!

      步大S后塵?蔣欣減肥暴瘦引擔憂,健康亮紅燈恐成下一個悲??!

      老特有話說
      2026-01-27 23:59:27
      2026-01-28 01:16:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      421文章數 41關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      房產
      旅游
      教育
      藝術
      數碼

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      旅游要聞

      國際郵輪先后回歸,寶山持續提升中國郵輪入境旅游第一站功能!

      教育要聞

      再創歷史新高!南京高三期末調研考劃線及成績出爐

      藝術要聞

      震撼!19世紀油畫巨匠的作品美得不可思議!

      數碼要聞

      這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

      無障礙瀏覽 進入關懷版