作者|子川
來源|AI先鋒官
這個夏天最爽的事情,莫過于熱熱鬧鬧的外賣大戰!
實在是太省錢啦!
當大家還在推測這場補貼大戰還要持續多久之時,美團忽然把方向盤一打。
宣布:我要發布個開源大模型啦!
![]()
就在昨天,美團發布了其首款開源大模型LongCat-Flash,這是一款擁有5600億個總參數的MoE(混合專家)模型。
![]()
為什么會推出這款來源大模型?
美團CEO王興在不久前的年報電話會上,曾給出清晰的戰略框架。
王興將美團的AI戰略闡述為三個層次:第一層是工作中的AI ,用以提升內部員工的生產力;第二層是產品中的AI ,用AI升級現有服務并推出全新的AI原生產品;最后是自研大語言模型 。
LongCat-Flash正是第三層戰略的直接體現。
在這個戰略藍圖下,美團核心本地商業CEO王莆中曾公開確認稱,正打造的“ 專屬生活小秘書 ”,就是那個最核心的AI原生產品。
而且,尤其值得關注的是,LongCat-Flash的訓練,并非基于英偉達GPU完成。
在其官方報告中,美團使用了“數萬個加速卡”的模糊表述。
由于一些原因,該硬件廠商的具體名字不方便透露。
意義重大。
產品方面,據介紹,LongCat-Flash采用 Shortcut-connected MoE 架構和 “零計算專家” 雙重機制,使總參數 5600 億的模型在推理時僅僅激活 18.6B–31.3B 參數。
能實現每秒 100 tokens 以上的單卡推理速度, 比DeepSeek-V3 還快 50%。
別看美團是外賣公司,但其開源的LongCat-Flash模型紙面實力一點都不弱。
![]()
它在Agent工具調用、指令遵循的表現超過國內數一數二的DeepSeek-V3.1、Qwen3 MoE-2507,甚至比閉源的Claude4 Sonnet還要好。
不過LongCat-Flash在通用領域、編程等場景的能力和、Kimi-K2、Qwen3 -2507還有一定差距。
價格上,LongCat-Flash屬于物美價廉,據美團龍貓團隊介紹,輸出成本低至 5 元/百萬 Token。
那效果到底如何,我們來測試一番,作為初來乍到的模型,當然得把之前模型踩過的坑都再踩一遍,看它能不能hold得住。
首先,是一道曾難倒無數模型的比大小問題——9.11和9.8誰大?
![]()
遺憾,開局不利,LongCat-Flash回答錯誤,比大小失敗。
接下來,是另一個經典的坑——數字母。
我們讓它數“Strawberry”這個詞中有幾個字母“r”,為了防止數據被提前訓練,我們特意在原詞基礎上多加了一個“r”。
![]()
在加了一個字母“r”的情況下,LongCat-Flash依舊回答正確,扳回一局!
為了驗證它是否是真的會數字母,換一個詞”assessments“,讓它數里面有幾個字母“s"。
![]()
這次就沒有回答正確,”assessments"有5個字母“s”,而它給出的回答是4次。
再來看看下一道題,一根8米的繩子,可以通過寬2米,長2米的門嗎?
![]()
還是翻車,依舊回答錯誤,LongCat-Flash給出的回答是“一根8米的棍子無法直接通過寬2米,長2米的門”。
很遺憾,在這些曾用于刁難其他模型的經典測試題中,LongCat-Flash的表現并沒有想象中的那么好
不過,這并不能代表該模型的全部實力,直接進入下一趴,和其他模型來場PK。
此次派出的選手分別是Deepseek R1和Qwen3 -2507,看看LongCat-Flash能否真的辣么厲害。
為了防止它們這三兄弟“開掛”,測試過程中不開搜索。
測試題一:高三摸底試卷題
![]()
這道題是一道多選題,正確答案是:A、B、D,看看哪位選手能做對,為了測試的準確性,將題目轉換成了LaTeX格式。
LongCat-Flash:
![]()
Deepseek R1:
![]()
Qwen3 -2507:
![]()
Qwen3 -2507和Deepseek R1都回答準確,出個了正確答案:ABD,反觀LongCat-Flash回答錯誤,露了一個A。
測試題二:天氣卡片
提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions
經典老題,測試模型的美感,看誰生成的更加好看。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
從上面的視頻不難看出,LongCat-Flash生成的效果真不賴,不過如果要說誰生成的效果更好看,那自然是Qwen3 -2507。
測試題三:3D山脈
提示詞:創建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。
這道題主要是測試模型的編程能力,因為測試了很多模型,發現有很多模型面對這道題,生成的效果都不咋樣,看看它們是否能交出一個滿意的答卷。
LongCat-Flash:
Deepseek R1:
Qwen3 -2507:
這次測試不知道為什么,連續生成了3次,DeepSeek R1都沒有生成完整的山脈,而LongCat-Flash和Qwen3 -2507則是生成出來了,但LongCat-Flash生成的效果更好。
測試題四:邏輯推理題
提示詞:給
甲、乙、丙三人各發一個正整數,并告訴他們他們三人的數字之和為14。甲對乙和丙說:我知道你們兩人的數字一定不相等。
乙想了想,對甲說:我們兩人的數字之差一定比丙大。
丙聽完甲和乙的話后,依舊沉默不語。
若甲乙丙三人都很聰明,且只要他們能推斷出三人的數字分別是什么,那個人會在第一時間說出。(不考慮甲、乙見到丙沉默之后是否知曉)
那么,丙的數字是多少?
先說答案:4。
LongCat-Flash:
![]()
Deepseek R1:
![]()
Qwen3 -2507:
![]()
全部回答準確。
雖然此次測試沒有基準測試那么全面,但也可以看出各個模型的優缺點。
目前美團的LongCat-Flash模型已經上線Hugging Face、GitHub等開源平臺,技術報告同步發布。
同時,美團也提供了LongCat-Flash模型的網頁版體驗鏈接。
傳送門:longcat.ai/
感興趣的小伙伴可以去試一試。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.