<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      美團(tuán)新模型LongCat-Flash-Thinking-2601重思考模式拉風(fēng),附一手對比實測

      0
      分享至

      作者|子川

      來源|AI先鋒官

      近日,美團(tuán)重磅更新并開源自家模型LongCat-Flash-Thinking-2601。


      據(jù)介紹,此次發(fā)布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個參數(shù),并基于的 MoE 架構(gòu)構(gòu)建。

      LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)。

      簡單來說,這個模式讓模型能同時啟動 8 個大腦思考,從不同角度和深度推理同一個問題,最后總結(jié)出一個更全面、更可靠的結(jié)論。

      給大家看一個簡單的例子就明白了。


      提示詞:1+1為什么不等于2


      可以看到,重思考模式相當(dāng)于使用了8個模型同時進(jìn)行推理工作,最后的給出的8個答案在進(jìn)行反復(fù)驗證,最終會得到一個最終解。


      除此之外,LongCat團(tuán)隊在新模型中加入了額外的強(qiáng)化學(xué)習(xí)環(huán)節(jié),針對性打磨模型的總結(jié)歸納能力,從而讓LongCat-Flash-Thinking-2601實現(xiàn)“想清楚再行動”的結(jié)果。

      不過在體驗的時候,由于相當(dāng)8款模型同時在推理,所以它的上下文非常容易耗光,會經(jīng)常返回“當(dāng)前對話上下文過長,建議精簡輸入后重試”。


      那這款模型表現(xiàn)到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實力。


      首先是大家最關(guān)注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊。

      數(shù)學(xué)推理方面,開啟重思考模式后更猛。

      AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達(dá)到當(dāng)前 SOTA。

      智能體工具調(diào)用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。

      智能體搜索方面,BrowseComp 任務(wù)73.1 分(全模型最優(yōu)),RW Search 評測79.5 分

      最關(guān)鍵的是什么?在工具調(diào)用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


      這一連串的SOTA似乎有點東西,那它的實際效果到底如何? 老規(guī)矩,我們直接上手實測。

      此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

      提示詞:
      創(chuàng)建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現(xiàn)了偏差。它未能生成自然蜿蜒的水體,而是生成了一個圓柱體結(jié)構(gòu),導(dǎo)致視覺上更像是一根橫亙在山間的“水管”。

      而且DeepSeek-V3.2出現(xiàn)了嚴(yán)重的幻覺,模型似乎在坐標(biāo)系構(gòu)建上徹底迷失,原本應(yīng)是連綿起伏的山脈和流動的河水,被渲染成了兩條細(xì)長的線段。

      功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點綴、動態(tài)的云朵與太陽一應(yīng)俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

      或許這條題太難,給它們減低一下難度,做一個簡單的可視化登錄頁面。

      提示詞:請創(chuàng)建一個現(xiàn)代化的登錄頁面,包含以下功能:

      - 郵箱和密碼輸入框

      - 登錄按鈕

      - "記住我"和"忘記密碼"選項

      - Google第三方登錄

      - 注冊鏈接

      要求:深色主題,未來科技風(fēng)格,居中布局,良好的用戶體驗。

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經(jīng)是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。

      再換一題,來一個經(jīng)典老題:天氣卡片,主要是考驗?zāi)P偷膶徝滥芰Α?/p>

      提示詞:
      Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質(zhì)感較為粗糙。

      它們的動效缺乏物理運(yùn)動的自然感,視覺元素較為扁平,最終呈現(xiàn)效果略顯廉價,像是一個早期的 Demo。

      Kimi K2 Thinking 的表現(xiàn)則是會好很多,視覺上也更加的完整。

      此次測試的主要內(nèi)容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

      雖然這次只測試了三個項目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

      雖然它在數(shù)學(xué)和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實戰(zhàn)中,它卻明顯得有些“高分低能”了。

      目前該模型已經(jīng)上線,感興趣的用戶可以去體驗一下。

      • 體驗鏈接:https://longcat.ai

      • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

      • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

      掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      中央發(fā)布2個重要文件,事關(guān)退休人員待遇!文件講了啥,一文讀懂

      中央發(fā)布2個重要文件,事關(guān)退休人員待遇!文件講了啥,一文讀懂

      荷蘭豆愛健康
      2026-03-21 10:04:40
      中核集團(tuán)聚變領(lǐng)域首席科學(xué)家段旭如:聚變發(fā)電商業(yè)化時間表明確,2045年左右建成示范堆

      中核集團(tuán)聚變領(lǐng)域首席科學(xué)家段旭如:聚變發(fā)電商業(yè)化時間表明確,2045年左右建成示范堆

      經(jīng)濟(jì)觀察報
      2026-03-20 19:16:10
      親美派密謀推翻鄭麗文,朱立倫要另立黨中央,國民黨出現(xiàn)五個太陽

      親美派密謀推翻鄭麗文,朱立倫要另立黨中央,國民黨出現(xiàn)五個太陽

      諦聽骨語本尊
      2026-03-20 19:18:59
      上海一女子路遇警察盤查,突然調(diào)轉(zhuǎn)車頭加速逃離!經(jīng)查:其四肢健全,未持有殘疾證,已被拘留

      上海一女子路遇警察盤查,突然調(diào)轉(zhuǎn)車頭加速逃離!經(jīng)查:其四肢健全,未持有殘疾證,已被拘留

      環(huán)球網(wǎng)資訊
      2026-03-20 21:10:09
      傾家蕩產(chǎn)也不能治愈?提醒:這4種病根本無法根治,別白花...

      傾家蕩產(chǎn)也不能治愈?提醒:這4種病根本無法根治,別白花...

      袁醫(yī)生課堂
      2026-03-14 08:31:05
      被忽略的功臣!皇馬隱形真核打爆曼城,主帥狂贊卻無人提及

      被忽略的功臣!皇馬隱形真核打爆曼城,主帥狂贊卻無人提及

      瀾歸序
      2026-03-21 05:09:01
      2026掃黑再升級!中央定調(diào)嚴(yán)打“六霸”,一個都不放過

      2026掃黑再升級!中央定調(diào)嚴(yán)打“六霸”,一個都不放過

      另子維愛讀史
      2026-03-20 22:10:21
      52歲中國女游客在泰國射擊場中彈,系工作人員因個人操作導(dǎo)致槍支走火!總領(lǐng)館:受傷情況嚴(yán)重正在治療

      52歲中國女游客在泰國射擊場中彈,系工作人員因個人操作導(dǎo)致槍支走火!總領(lǐng)館:受傷情況嚴(yán)重正在治療

      大象新聞
      2026-03-20 14:44:08
      剛到日本第二天就作案!兩名中國男子被警方逮捕

      剛到日本第二天就作案!兩名中國男子被警方逮捕

      日本窗
      2026-03-20 14:24:08
      60歲大爺三個兒子全是光棍,光榮地說:窮不過三代,終于不用窮了

      60歲大爺三個兒子全是光棍,光榮地說:窮不過三代,終于不用窮了

      今朝牛馬
      2026-03-13 21:06:51
      錢沒到位就翻臉?伊朗總統(tǒng)公開喊話中國,背后藏著三個鬼主意!

      錢沒到位就翻臉?伊朗總統(tǒng)公開喊話中國,背后藏著三個鬼主意!

      Hi科普啦
      2026-03-20 11:57:18
      扎心!官方發(fā)布:醫(yī)學(xué)碩士就業(yè)率跌破40%

      扎心!官方發(fā)布:醫(yī)學(xué)碩士就業(yè)率跌破40%

      醫(yī)脈圈
      2026-03-20 12:09:22
      3月20日,工商銀行最新利率表來了,50萬元存1年,利息有多少?

      3月20日,工商銀行最新利率表來了,50萬元存1年,利息有多少?

      CG說科技
      2026-03-20 12:29:34
      25票贊成2票反對,當(dāng)著澤連斯基的面,歐盟援烏貸款被按下暫停鍵

      25票贊成2票反對,當(dāng)著澤連斯基的面,歐盟援烏貸款被按下暫停鍵

      壹只灰鴿子
      2026-03-20 06:31:04
      A股步入下跌趨勢了嗎?下周一A股將再次大跌并跌超1%嗎?

      A股步入下跌趨勢了嗎?下周一A股將再次大跌并跌超1%嗎?

      A股牛哥一號
      2026-03-21 09:39:22
      李漢俊被捕即遭處決,妻子攜三子深山避難二十年,子女皆成棟梁。

      李漢俊被捕即遭處決,妻子攜三子深山避難二十年,子女皆成棟梁。

      嘮叨說歷史
      2026-03-17 10:31:04
      訪美結(jié)束,高市笑顏不再,回國前說出唯一遺憾,東京對華豪賭開始

      訪美結(jié)束,高市笑顏不再,回國前說出唯一遺憾,東京對華豪賭開始

      未來展望
      2026-03-21 10:13:12
      人民日報推薦:有一種碳水越吃越瘦肚子

      人民日報推薦:有一種碳水越吃越瘦肚子

      白宸侃片
      2026-03-17 18:23:09
      馬斯克預(yù)言AI競賽格局:Google贏西方,中國贏地球,SpaceX贏太空

      馬斯克預(yù)言AI競賽格局:Google贏西方,中國贏地球,SpaceX贏太空

      頂級大佬思維
      2026-03-20 12:17:48
      真到日本走一遍,才知道它和中國的差距有多直觀

      真到日本走一遍,才知道它和中國的差距有多直觀

      番外行
      2026-03-18 13:55:33
      2026-03-21 12:35:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應(yīng)用精選與評測
      459文章數(shù) 69關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機(jī)器人出貨量第一!

      頭條要聞

      環(huán)球:對華關(guān)系上 高市欲表現(xiàn)"弱勢"形象博取美國同情

      頭條要聞

      環(huán)球:對華關(guān)系上 高市欲表現(xiàn)"弱勢"形象博取美國同情

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      總臺首屆電影盛典,“沈馬”CP再合體

      財經(jīng)要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態(tài)度原創(chuàng)

      手機(jī)
      房產(chǎn)
      數(shù)碼
      公開課
      軍事航空

      手機(jī)要聞

      OPPO K15 Pro真機(jī)亮相,4月即將登場!

      房產(chǎn)要聞

      全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計劃】,即刻啟動!

      數(shù)碼要聞

      2025全球手持相機(jī)出貨量達(dá)1665萬臺 大疆份額62.4%

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:正考慮逐步降級對伊朗的軍事行動

      無障礙瀏覽 進(jìn)入關(guān)懷版