來源:市場資訊
(來源:AI信息Gap)
諸神之戰。
本周 AI 快訊 | 1 分鐘速覽
01 DeepSeek V4 預覽版開源,1.6 萬億參數攜手華為昇騰 :V4-Pro 限時 2.5 折,輸入命中 0.25 元、輸出 6 元/百萬 tokens;FP4 精度對接昇騰 950PR,1M 上下文成所有官方服務標配。
02 騰訊混元 Hy3 preview 開源,姚順雨入職后首張答卷 :2950 億總參 / 210 億激活 MoE,256K 上下文;從啟動訓練到上線不到三個月,已在 QQ、元寶、CodeBuddy、騰訊文檔等首批落地。
03 阿里 Qwen3.6 同周雙發,27B 稠密超越 15 倍參數 MoE 旗艦 :Qwen3.6-Max-Preview 4 月 20 日上線 Qwen Studio;4 月 22 日開源的 Qwen3.6-27B 拿下 SWE-bench Verified 77.2、Terminal-Bench 2.0 59.3,逐項超過前代 3970 億 MoE。
04 小米 MiMo-V2.5 公測,Pro 版 4.3 小時手搓 SysY 編譯器拿滿分 :北大《編譯原理》本科生通常需數周,MiMo-V2.5-Pro 用 672 次工具調用拿下 233/233;首次冷啟動通過率 59%,對標 Claude Opus 4.6、GPT-5.4。
05 月之暗面開源 Kimi K2.6,13 小時連編 4000 行代碼;上線異常全員額度重置 :SWE-Bench Pro 58.6 領先所有對比,Terminal-Bench 2.0 66.7 超 GPT-5.4 和 Opus 4.6;Agent 集群升至 300 子 Agent / 4000 步,純推理 HLE-Full 僅 34.7。
06 Anthropic 二級市場估值沖上 1 萬億,谷歌隨即拍板最高 400 億加碼 :Forge Global 估值反超 OpenAI 的 8800 億;谷歌先投 100 億美元(按 3500 億估值)、達標再追加 300 億、五年提供約 5 GW 算力;亞馬遜同周也宣布最高再加 200 億。
07 OpenAI GPT-5.5 反撲 Claude,編程王座搶回,Token 成本降至 1/35 :Terminal-Bench 2.0 82.7 比 Claude Opus 4.7 高 13.3 個百分點;OSWorld-Verified 78.7 超人類基線;API 比 GPT-5.4 翻倍至每百萬輸入 5 美元、輸出 30 美元。
08 OpenAI 同周雙發:ChatGPT Images 2.0 接聯網思考,Workspace Agents 頂替 custom GPTs :gpt-image-2 一次最多生成 8 張連貫圖像,Image Arena 三榜第一;DALL-E 2、DALL-E 3 將于 5 月 12 日退役;Workspace Agents 由 Codex 驅動,可接入 Slack、Salesforce、Google Drive 等。
09 谷歌 Gemini 3.1 Pro Deep Research / Max 上線,原生 MCP 接專有數據源 :DeepSearchQA 93.3 比 12 月預覽版的 66.1 大幅提升,Humanity's Last Exam 拿到 54.6;僅 API 付費層可用,Gemini 消費應用 Pro 訂閱者用不上。
10 SpaceX 600 億期權搶下 Cursor,微軟曾考慮收購但放棄 :要么年內 600 億美元買下、要么支付 100 億合作費;同期 Cursor 正以 500 億估值募 20 億美元;CNBC 爆料微軟評估后沒出手,GitHub Copilot 付費用戶已達 470 萬、同比漲 75%。
01|DeepSeek 開源「V4 預覽版」,1.6 萬億參數對接華為昇騰,Pro 版限時 2.5 折
4 月 24 日 DeepSeek 在 Hugging Face 同步開源 V4-Pro 和 V4-Flash 兩款 MoE 模型預覽版,同時開源了新一代注意力機制 DSA(DeepSeek Sparse Attention)。V4-Pro 總參 1.6 萬億、激活 490 億,刷新了國產開源最大參數紀錄,超過此前的 Kimi K2.6(總參 1 萬億);V4-Flash 總參 2840 億、激活 130 億,定位經濟檔。兩款模型都原生支持 1M 上下文,1M 也成為 DeepSeek 所有官方服務的標配。在 1M 設置下,V4-Pro 單 token 推理 FLOPs 只有 V3.2 的 27%、KV Cache 10%;V4-Flash 進一步降到 10% 和 7%。
![]()
API 定價方面,V4-Flash 輸入命中 0.2 元、未命中 1 元、輸出 2 元;V4-Pro 限時 2.5 折后輸入命中 0.25 元、未命中 3 元、輸出 6 元,原價是 1 元、12 元、24 元(均按每百萬 tokens)。技術報告第 3.1 節首次把華為昇騰和英偉達并列寫進硬件驗證清單,MoE 專家權重和稀疏注意力索引器都采用 FP4 精度,正好對應華為 3 月發布的昇騰 950PR 原生支持的 mxFP4。DeepSeek 在發布文章里寫道,「預計下半年昇騰 950 超節點批量上市并部署之后,Pro 版本的價格也會大幅度下調」。官方對 V4 的自評是仍落后 GPT-5.4 和 Gemini 3.1 Pro 約 3 到 6 個月,所以這版定位為 preview,正式版預計 6 月推出。同時 DeepSeek 啟動了成立以來首次外部融資,目標估值至少 100 億美元、募資不少于 30 億美元。
02|騰訊混元發布并開源「Hy3 preview」,姚順雨帶隊三個月交出第一份答卷
騰訊混元 4 月 23 日正式發布并開源 Hy3 preview,總參 2950 億、激活 210 億的 MoE 架構,最大支持 256K 上下文,快慢思考融合。這是 2025 年底加盟騰訊的首席 AI 科學家姚順雨主導的第一代模型,從 2026 年 1 月底啟動訓練到上線,用了不到三個月。混元團隊 2 月在姚順雨帶領下重建了預訓練和強化學習基礎設施,確立了三條原則:能力體系化、評測真實性、性價比追求。Hy3 preview 在代碼智能體基準 SWE-Bench Verified、Terminal-Bench 2.0 和搜索智能體基準 BrowseComp、WideSearch 上都跑了測評,也參加了清華求真書院數學博資考、全國中學生生物學聯賽 CHSBO 2025 這類真實考試,但騰訊沒在博客里給出具體跑分數據。
![]()
在騰訊云大模型服務平臺 TokenHub 上,Hy3 preview 輸入價格最低 1.2 元、命中緩存 0.4 元、輸出最低 4 元(每百萬 tokens),個人版套餐最低 28 元一個月。騰訊解釋這個價格是模型和推理框架深度協同的結果,整體推理效率比上一代提升 40%。模型已在騰訊云、元寶、CodeBuddy、WorkBuddy、QQ、ima、QQ 瀏覽器、騰訊文檔、騰訊樂享首批上線,微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書也在陸續上線,同時支持接入 OpenClaw、OpenCode、KiloCode 等開源 Agent。姚順雨在博客中說,「Hy3 preview 是混元大模型重建的第一步」,希望從開源社區拿到真實反饋來改進正式版。
03|阿里 Qwen3.6 同周雙發,開源 27B 稠密版打穿前代 397B MoE 旗艦
4 月 20 日 Qwen3.6-Max-Preview 上線 Qwen Studio,相比 Qwen3.6-Plus,世界知識 SuperGPQA +2.3、智能體編程 SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8、指令遵循 ToolcallFormatIFBench +2.8。兩天后的 4 月 22 日,阿里以 Apache 2.0 協議開源了 Qwen3.6-27B,社區呼聲最高的稠密多模態檔位,原生支持視覺語言的思考與非思考雙模式。
![]()
Qwen3.6-27B 僅憑 270 億參數就在主流編程基準上逐項超過前代旗艦 Qwen3.5-397B-A17B,后者總參 3970 億、激活 170 億,體量是稠密版的 15 倍左右。27B 拿到 SWE-bench Verified 77.2(前代 76.2)、SWE-bench Pro 53.5(前代 50.9)、Terminal-Bench 2.0 59.3(前代 52.5)、SkillsBench 48.2(前代 30.0)。稠密架構無需 MoE 路由即可部署,對算力有限的團隊比 MoE 更友好。權重已在 Hugging Face 和 ModelScope 上線,阿里云百煉即將開放 API 調用,并支持 preserve_thinking 選項,能在多輪對話里保留前序思考過程。模型也可以接入 OpenClaw、Claude Code、Qwen Code 等編程助手。
04|小米「MiMo-V2.5」公測,Pro 版 4.3 小時手搓 SysY 編譯器拿下 233/233
原 DeepSeek 核心成員羅福莉帶隊的小米 MiMo 團隊 4 月 23 日深夜開放了 V2.5 系列公測,旗艦推理版 MiMo-V2.5、全模態 Agent 版 MiMo-V2.5-Pro 都已上線,權重即將開源;語音的 V2.5-TTS Series 和 V2.5-ASR 也即將推出。距上次 V2 系列三連更只隔 36 天。最受關注的是一個北大《編譯原理》課程項目,要求用 Rust 從零寫一個 SysY 編譯器,含詞法、語法、AST、Koopa IR 代碼生成、RISC-V 匯編后端、性能優化六層。北大本科生完成這個項目通常需要幾周,MiMo-V2.5-Pro 用 4.3 小時、672 次工具調用跑完,隱藏測試集 233/233 滿分。
![]()
模型先把整條流水線骨架搭出來,再逐層攻克。Koopa IR 滿分(110/110)、RISC-V 后端滿分(103/103)、性能優化滿分(20/20),首次編譯就有 137/233 通過,冷啟動通過率 59%。第 512 輪一次重構讓 lv9/riscv 回退兩個測試點,模型自行診斷、恢復、繼續推進。視頻編輯器 Web 應用是官方放的第二個案例,8192 行代碼、1868 次工具調用、11.5 小時自主完成,包含多軌道時間線、片段裁剪、交叉淡化、音頻混合和導出。基礎版 MiMo-V2.5 原生支持 1M 上下文和視覺、音頻理解,在 Claw-Eval 上反超前代旗艦 MiMo-V2-Pro。Token Plan 同步重構,Pro 1 token = 2 credits、基礎版 1 = 1,每日 0-8 點再打 8 折,新增包年訂閱、享 88 折。
05|月之暗面開源「Kimi K2.6」,13 小時連編 4000 行代碼;上線異常全員額度重置
Kimi K2.6 4 月 20 日晚間發布并開源,主打長程編碼和 Agent 集群。SWE-Bench Pro 58.6%,領先所有參與對比的模型;Terminal-Bench 2.0 66.7%,比 GPT-5.4 和 Claude Opus 4.6 的 65.4% 高一截;帶工具的 Humanity's Last Exam 拿到 54.0%。短板也有,不帶工具的 HLE-Full 只有 34.7%,低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%;MathVision 87.4%,也落后 GPT-5.4 的 92.0%。月之暗面的判斷是 K2.6 走的是工具與執行力路線,純推理還得繼續追趕。
![]()
Agent 集群從 K2.5 的 100 子 Agent / 1500 步直接擴展到 300 子 Agent / 4000 步。月之暗面的 RL 基礎設施團隊跑了一個連續 5 天自主運行的運維 Agent,承擔監控、故障響應和系統維護。代碼端,K2.6 在 Mac 本地部署了 Qwen3.5-0.8B,用小眾的 Zig 語言重寫推理代碼,跑了 4000 多次工具調用、12 小時不間斷、14 輪迭代,把吞吐從約 15 tokens/s 提到約 193 tokens/s,比 LM Studio 還快 20%。API 價格也跟著漲,每百萬 tokens 輸入 0.95 美元、輸出 4 美元,緩存命中 0.16 美元,上下文 256K。4 月 20 日上線后訪問量瞬間打滿,加上后臺 Agent 額度統計偏差,4 月 22 日 20:30 月之暗面把所有用戶當月已用額度清零、重置為 100% 作為補償。
06|Anthropic 二級市場沖上 1 萬億反超 OpenAI,谷歌隨即拍板最高 400 億加碼
Forge Global CEO 凱利·羅德里克斯告訴 Business Insider,平臺上 Anthropic 的成交估值穩定在 1 萬億美元,而 OpenAI 是 8800 億、僅比 3 月份 8520 億那輪融資估值高 3%。Saints Capital 聯合創始人肯·索耶說有股東掛牌出讓,對應估值 1.15 萬億;房地產科技平臺 OpenHome 的創始人 4 月 22 日在社交媒體發文,稱一家「知名成長型基金」愿以 1.05 萬億估值收購 Anthropic 股份;Rainmaker Securities CEO 格倫·安德森也收到一筆按 9600 億估值買入的報價,他說「這個價格幾周前還讓人覺得根本不現實」。Caplight 數據顯示,過去 12 個月二級市場對 Anthropic 的興趣激增超過 650%。
![]()
Anthropic 自己披露的年化營收從 2025 年底約 90 億美元飆到 2026 年 3 月超 300 億美元,已經超過 OpenAI 公司確認的 240 億(每月約 20 億)年化數字,主要是企業用 Claude Code 和 API。4 月 24 日谷歌官宣對 Anthropic 投資最高 400 億美元,先以現金投 100 億,按 3500 億估值(與 2 月 G 輪持平),業績達標后再追加 300 億;谷歌云未來五年提供約 5 GW 算力。亞馬遜也在 4 月 21 日宣布在已有 80 億基礎上追加 50 億、最高再加 200 億。多名金融分析師對這種「云廠一邊投 AI 公司、一邊賣芯片和算力給它」的循環交易提出過擔憂。Anthropic 還在為最早 2026 年底 IPO 做準備,目標 IPO 估值 4000 到 5000 億美元,由高盛和摩根大通擔任顧問。
07|OpenAI 發布「GPT-5.5」反撲 Claude,編程王座搶回,Token 成本降至 1/35
GPT-5.5 4 月 24 日上線 ChatGPT 和 API,跑分上從 Claude Opus 4.7 手里搶回了多項第一。Terminal-Bench 2.0 82.7%,比 Opus 4.7 的 69.4% 高 13.3 個百分點;OSWorld-Verified 78.7%,跨過人類基線;GDPval 拿到 84.9%,覆蓋 44 種職業的知識工作。SWE-Bench Pro 58.6%,仍落后 Opus 4.7 的 64.3%。OpenAI 提到 Anthropic 自己披露 Opus 4.7 在這條榜單上有記憶污染,剔除受影響樣本后才給出分數。Expert-SWE 是一個內部前沿評測,任務的中位人類完成時間 20 小時,GPT-5.5 從 GPT-5.4 的 68.5% 提到 73.1%。GPT-5.5 直接頂替 GPT-5.4 成了 ChatGPT 默認模型,Plus、Pro、Business、Enterprise、Edu、Go、Teachers 都能用。
![]()
基于英偉達 GB200 NVL72,GPT-5.5 完成等量任務消耗的 token 比 GPT-5.4 少。OpenAI 的說法是相比前代系統,每百萬 token 成本降到 35 分之一、每兆瓦 token 輸出量提升 50 倍,原本幾天的調試周期被縮到幾小時。但 API 報價反而翻了一番,每百萬 tokens 輸入 5 美元、緩存 0.5 美元、輸出 30 美元,GPT-5.5 Pro 是 30 美元和 180 美元。Codex 內開放 400K 上下文窗口,新增 Fast 模式,花 2.5 倍成本換 1.5 倍 token 生成速度。OpenAI 自己披露,公司里已經有超過 85% 的員工每周用 Codex 干活,財務團隊用 GPT-5.5 在 Codex 里審了 24771 份 K-1 稅表、71637 頁,比上一年提前兩周收工。
08|OpenAI 雙發,「ChatGPT Images 2.0」接聯網思考,「Workspace Agents」頂替 custom GPTs
4 月 21 日 OpenAI 上線 ChatGPT Images 2.0,模型標識 gpt-image-2,是第一個原生集成 Thinking 推理能力的圖像模型。Thinking 模式下模型可以聯網查實時信息、在生圖前先做規劃,并對一組輸出做一致性復核,一次最多生成 8 張在角色和元素上保持連貫的圖像。Image Arena 拿下三榜第一:文本轉圖像 1512 分,領先第二 242 分;單圖編輯 1513 分,領先 125;多圖編輯 1464 分,領先 90。基礎版向所有 ChatGPT 和 Codex 用戶開放(含免費層),Thinking 僅限 Plus、Pro、Business、Enterprise 付費用戶。DALL-E 2 和 DALL-E 3 將于 5 月 12 日退役,由 gpt-image-2 接棒。
![]()
4 月 22 日緊接著上線 Workspace Agents,由 Codex 驅動的多步驟云端 Agent,明確頂替 2023 年底推出的 custom GPTs。一個 Workspace Agent 可以接入 Slack、Salesforce、Google Drive、微軟套件、Notion、Atlassian Rovo 等第三方應用,跨系統取上下文、請審批,團隊建一次可以一起用、一起改。OpenAI 自己已經跑了幾個內部范例,包括軟件審查 Agent、產品反饋路由 Agent、每周指標報告 Agent、線索拓展 Agent,還有會計團隊用來準備月末結賬、自動出工作底稿的版本。ChatGPT Business 20 美元/用戶/月起就能用,5 月 6 日前免費,之后按積分計價。Workspace Agents 發布的同一天,谷歌在 Cloud Next 2026 上發了 Gemini Enterprise Agent Platform,前一天微軟也發了 Agent 365,三家正面碰上了。
09|谷歌「Gemini 3.1 Pro」深度研究雙智能體上線,原生 MCP 接專有數據源
谷歌 4 月 21 日把 12 月就預覽過的研究智能體升級了一版,分成 Deep Research 和 Deep Research Max 兩檔,都基于 Gemini 3.1 Pro。標準版優化交互延遲,Max 版處理長時間異步任務,比如盡調報告這種需要反復推理、檢索、提煉的活兒,靠拉長推理時間完成長鏈路任務。兩個智能體都接入 MCP 協議,可以連金融、市場這類專業數據流,也能搜網頁、讀上傳的文件、對接已連接的云存儲;單次 API 調用就能融合開放網絡數據和企業專有數據,并在報告內生成原生圖表與信息圖。
![]()
跑分上 Max 版 DeepSearchQA 拿到 93.3%(12 月預覽版 66.1%),Humanity's Last Exam 54.6%(前版 46.4%);底層 Gemini 3.1 Pro 在 ARC-AGI-2 上是 77.1%。流程上加了協作規劃、實時流式輸出、多模態檢索、擴展工具集,用戶可以在執行前審查并修改智能體的研究計劃,再讓它跑。可用性是這次發布最大的爭議,兩款智能體僅通過 Gemini API 付費層公開預覽,Gemini 消費應用 Pro 訂閱者用不上,社交媒體上不少訂戶在抱怨。也有人指出谷歌的對比圖在百分比改進的呈現方式上有夸大嫌疑。12 月預覽版的定價是輸入和輸出每百萬 token 各 2 美元、1M 上下文。
10|SpaceX 600 億美元期權搶下 Cursor,微軟曾考慮收購但放棄
4 月 21 日 SpaceX 宣布拿到一份對 Cursor 的期權:要么今年晚些時候以 600 億美元買下,要么支付 100 億美元用于雙方合作。SpaceX 對外講的故事是它自己有相當于百萬塊 H100 的「巨像」(Colossus)訓練超算,加上 Cursor 面向專業軟件工程師的產品和分發渠道,可以做出全球最具實用價值的 AI 模型。Cursor CEO 邁克爾·特魯埃爾在社交媒體上回應,「十分期待和 SpaceX 團隊合作擴大 Composer 的規模」。同期 Cursor 還在融自己的 D 輪,由 a16z 領投、英偉達和興盛資本參投,估值超 500 億、規模 20 億美元;600 億期權價正好比這個一級市場估值高 20%。
![]()
在 SpaceX 這份期權之前,據爆料微軟其實先看過 Cursor,評估之后沒出價。微軟自己的 GitHub Copilot 付費用戶已經到 470 萬、同比漲 75%,但在 Cursor、Anthropic、OpenAI 主導的 AI 編程戰場上,微軟的角色更多是投資人和云服務商,親自下場的產品反而沒跑通。Cursor 這邊先后兩次拒絕過 OpenAI 的接洽,把保持獨立放在了優先級最前。SpaceX 自己 4 月初秘密遞交了 IPO 申請,目標估值 1.75 萬億到 2 萬億美元、擬募資 750 億美元,有望成為史上最大 IPO。馬斯克今年 3 月對 xAI 工程團隊做過一輪裁員,公開說過 xAI 編程工具落后于競品,也曾從 Cursor 挖過人。
我是木易,Top2 + 美國 Top10 CS 碩,現在是 AI 產品經理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.