網易首頁 > 網易號 > 正文申請入駐

基于非英偉達卡訓練，實測美團開源模型與DeepSeek、阿里 Qwen 3誰更強？

2025-09-02 08:01:45　來源: AI先鋒官

北京舉報

分享至

作者｜子川

來源｜AI先鋒官

這個夏天最爽的事情，莫過于熱熱鬧鬧的外賣大戰！

實在是太省錢啦！

當大家還在推測這場補貼大戰還要持續多久之時，美團忽然把方向盤一打。

宣布：我要發布個開源大模型啦！

就在昨天，美團發布了其首款開源大模型LongCat-Flash，這是一款擁有5600億個總參數的MoE（混合專家）模型。

為什么會推出這款來源大模型？

美團CEO王興在不久前的年報電話會上，曾給出清晰的戰略框架。

王興將美團的AI戰略闡述為三個層次：第一層是工作中的AI ，用以提升內部員工的生產力；第二層是產品中的AI ，用AI升級現有服務并推出全新的AI原生產品；最后是自研大語言模型。

LongCat-Flash正是第三層戰略的直接體現。

在這個戰略藍圖下，美團核心本地商業CEO王莆中曾公開確認稱，正打造的“ 專屬生活小秘書 ”，就是那個最核心的AI原生產品。

而且，尤其值得關注的是，LongCat-Flash的訓練，并非基于英偉達GPU完成。

在其官方報告中，美團使用了“數萬個加速卡”的模糊表述。

由于一些原因，該硬件廠商的具體名字不方便透露。

意義重大。

產品方面，據介紹，LongCat-Flash采用 Shortcut-connected MoE 架構和 “零計算專家” 雙重機制，使總參數 5600 億的模型在推理時僅僅激活 18.6B–31.3B 參數。

能實現每秒 100 tokens 以上的單卡推理速度，比DeepSeek-V3 還快 50%。

別看美團是外賣公司，但其開源的LongCat-Flash模型紙面實力一點都不弱。

它在Agent工具調用、指令遵循的表現超過國內數一數二的DeepSeek-V3.1、Qwen3 MoE-2507，甚至比閉源的Claude4 Sonnet還要好。

不過LongCat-Flash在通用領域、編程等場景的能力和、Kimi-K2、Qwen3 -2507還有一定差距。

價格上，LongCat-Flash屬于物美價廉，據美團龍貓團隊介紹，輸出成本低至 5 元/百萬 Token。

那效果到底如何，我們來測試一番，作為初來乍到的模型，當然得把之前模型踩過的坑都再踩一遍，看它能不能hold得住。

首先，是一道曾難倒無數模型的比大小問題——9.11和9.8誰大？

遺憾，開局不利，LongCat-Flash回答錯誤，比大小失敗。

接下來，是另一個經典的坑——數字母。

我們讓它數“Strawberry”這個詞中有幾個字母“r”，為了防止數據被提前訓練，我們特意在原詞基礎上多加了一個“r”。

在加了一個字母“r”的情況下，LongCat-Flash依舊回答正確，扳回一局！

為了驗證它是否是真的會數字母，換一個詞”assessments“，讓它數里面有幾個字母“s"。

這次就沒有回答正確，”assessments"有5個字母“s”，而它給出的回答是4次。

再來看看下一道題，一根8米的繩子，可以通過寬2米，長2米的門嗎？

還是翻車，依舊回答錯誤，LongCat-Flash給出的回答是“一根8米的棍子無法直接通過寬2米，長2米的門”。

很遺憾，在這些曾用于刁難其他模型的經典測試題中，LongCat-Flash的表現并沒有想象中的那么好

不過，這并不能代表該模型的全部實力，直接進入下一趴，和其他模型來場PK。

此次派出的選手分別是Deepseek R1和Qwen3 -2507，看看LongCat-Flash能否真的辣么厲害。

為了防止它們這三兄弟“開掛”，測試過程中不開搜索。

測試題一：高三摸底試卷題

這道題是一道多選題，正確答案是：A、B、D，看看哪位選手能做對，為了測試的準確性，將題目轉換成了LaTeX格式。

LongCat-Flash：

Deepseek R1：

Qwen3 -2507：

Qwen3 -2507和Deepseek R1都回答準確，出個了正確答案：ABD，反觀LongCat-Flash回答錯誤，露了一個A。

測試題二：天氣卡片

提示詞：

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

經典老題，測試模型的美感，看誰生成的更加好看。

LongCat-Flash：

Deepseek R1：

Qwen3 -2507：

從上面的視頻不難看出，LongCat-Flash生成的效果真不賴，不過如果要說誰生成的效果更好看，那自然是Qwen3 -2507。

測試題三：3D山脈

提示詞：創建一個 3D HTML 山脈場景，包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色，并可切換等高線顯示。

這道題主要是測試模型的編程能力，因為測試了很多模型，發現有很多模型面對這道題，生成的效果都不咋樣，看看它們是否能交出一個滿意的答卷。

LongCat-Flash：

Deepseek R1：

Qwen3 -2507：

這次測試不知道為什么，連續生成了3次，DeepSeek R1都沒有生成完整的山脈，而LongCat-Flash和Qwen3 -2507則是生成出來了，但LongCat-Flash生成的效果更好。

測試題四：邏輯推理題

提示詞：給

甲、乙、丙三人各發一個正整數，并告訴他們他們三人的數字之和為14。甲對乙和丙說：我知道你們兩人的數字一定不相等。

乙想了想，對甲說：我們兩人的數字之差一定比丙大。

丙聽完甲和乙的話后，依舊沉默不語。

若甲乙丙三人都很聰明，且只要他們能推斷出三人的數字分別是什么，那個人會在第一時間說出。（不考慮甲、乙見到丙沉默之后是否知曉）

那么，丙的數字是多少？

先說答案：4。

LongCat-Flash：

Deepseek R1：

Qwen3 -2507：

全部回答準確。

雖然此次測試沒有基準測試那么全面，但也可以看出各個模型的優缺點。

目前美團的LongCat-Flash模型已經上線Hugging Face、GitHub等開源平臺，技術報告同步發布。

同時，美團也提供了LongCat-Flash模型的網頁版體驗鏈接。

傳送門：longcat.ai/

感興趣的小伙伴可以去試一試。

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.