網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

無(wú)問(wèn)芯穹曾書(shū)霖談 AI 2.0 時(shí)代的大模型推理：從模型到硬件的協(xié)同優(yōu)化

2026-03-12 17:07:11　來(lái)源: InfoQ

北京舉報(bào)

分享至

演講嘉賓｜曾書(shū)霖博士

編輯｜Kitty

策劃｜QCon 全球軟件開(kāi)發(fā)大會(huì)

AI 2.0 模型對(duì)算力和數(shù)據(jù)的需求激增，導(dǎo)致硬件系統(tǒng)的能耗開(kāi)銷(xiāo)逐漸“供不應(yīng)求”，亟需軟硬協(xié)同為 AI 行業(yè)提供高質(zhì)量的 AI 系統(tǒng)能效（ Tokens/J）。本文整理自無(wú)問(wèn)芯穹總經(jīng)理曾書(shū)霖博士在 2025 年 QCon 全球軟件開(kāi)發(fā)大會(huì)（上海站）的演講 “AI 2.0 時(shí)代的大模型推理：從模型到硬件的協(xié)同優(yōu)化”。他介紹了軟硬件協(xié)同優(yōu)化以提升智能系統(tǒng)能效的研究成果，包括模型稀疏量化壓縮、高效推理系統(tǒng)設(shè)計(jì)與大模型加速器設(shè)計(jì)。并且結(jié)合華為昇騰集群的工程實(shí)踐，探討下一代 AI 推理系統(tǒng)的演進(jìn)趨勢(shì)。

以下是演講實(shí)錄（經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>

各位好，今天我想和大家介紹一下我們無(wú)問(wèn)芯穹在大模型時(shí)代圍繞大模型推理所開(kāi)展的一些實(shí)踐工作，以及我們觀察到的一些趨勢(shì)。我將主要從云和端兩個(gè)維度展開(kāi)，并結(jié)合我們?cè)谌A為昇騰集群上進(jìn)行優(yōu)化的實(shí)踐經(jīng)驗(yàn)進(jìn)行分享。

在開(kāi)始之前，我想先簡(jiǎn)要回顧一下大的背景。我們相信，大家聚集在這里交流今天的工程實(shí)踐，是因?yàn)槲覀兌颊J(rèn)同我們正處于一個(gè)非常重要的時(shí)間節(jié)點(diǎn)。通過(guò)人工智能，尤其是大模型技術(shù)，我們有望對(duì)整個(gè)產(chǎn)業(yè)進(jìn)行深刻的變革。在大模型時(shí)代，最核心的工具是一套大模型算法以及底層的算力芯片，它們共同實(shí)現(xiàn)新的勞動(dòng)價(jià)值創(chuàng)造。而我們最核心的任務(wù)是通過(guò)軟硬協(xié)同，將上層的算法與底層的芯片通過(guò)中間的模型推理軟件棧連接起來(lái)，以此作為放大 AI 產(chǎn)業(yè)價(jià)值的關(guān)鍵。這涉及如何在各種芯片和算力集群上進(jìn)行有效的資源調(diào)度，以及如何優(yōu)化模型在芯片上的推理過(guò)程，包括模型壓縮、圖算融合以及云和端的協(xié)同。接下來(lái)，我將分別從云和端兩個(gè)維度詳細(xì)介紹我們所開(kāi)展的工作。

1 以智能革命，引領(lǐng)大模型推理范式變革

快速回顧一下過(guò)去十年 AI 發(fā)展的一些重要節(jié)點(diǎn)。相信各位對(duì)大模型的典型發(fā)展趨勢(shì)也十分熟悉，無(wú)論是在國(guó)內(nèi)還是國(guó)外。推動(dòng)這些模型不斷演進(jìn)、不斷涌現(xiàn)出新的創(chuàng)意結(jié)構(gòu)的核心因素，其實(shí)是底層堅(jiān)實(shí)的 AI 基礎(chǔ)設(shè)施，包括芯片的演進(jìn)以及整個(gè)推理基礎(chǔ)設(shè)施的演進(jìn)。

從發(fā)展歷程來(lái)看，2022 年大家還在關(guān)注如何制定一個(gè)良好的預(yù)訓(xùn)練方案。隨后，通過(guò) Post-Training 使模型能夠更好地適應(yīng)各種垂直領(lǐng)域以及與人類(lèi)思維方式對(duì)齊。如今，我們已經(jīng)進(jìn)入了一個(gè)新的階段，即推理的規(guī)模拓展階段。這一階段的關(guān)鍵是如何將更優(yōu)質(zhì)的模型應(yīng)用于各種垂直領(lǐng)域場(chǎng)景，以及在長(zhǎng)文本和更大規(guī)模的推理服務(wù)中進(jìn)行拓展，從而真正實(shí)現(xiàn)不同行業(yè)的落地應(yīng)用。

在這一過(guò)程中，我們觀察到一些重要的趨勢(shì)。首先是推理范式的變化。從最初的逐 Token 推理，到現(xiàn)在基于 Agent 和強(qiáng)化學(xué)習(xí)的引入，推理計(jì)算需求發(fā)生了顯著變化。從最初的幾倍增長(zhǎng)，到現(xiàn)在由于引入了長(zhǎng)上下文推理等因素，算力需求已經(jīng)增長(zhǎng)了 10 到 100 倍。這對(duì)于從事基礎(chǔ)設(shè)施建設(shè)，尤其是推理優(yōu)化的我們來(lái)說(shuō)，無(wú)疑帶來(lái)了更大的挑戰(zhàn)。

我們探討模型推理，從產(chǎn)業(yè)界的角度來(lái)看，未來(lái)對(duì)算力的需求正逐漸從訓(xùn)練轉(zhuǎn)向推理。今年年初，在 NVIDIA 的 GTC 大會(huì)上，黃仁勛也提到，未來(lái)我們需要更大規(guī)模的集群來(lái)支撐大模型在各行業(yè)的落地。集群規(guī)模越大，優(yōu)化空間越高，由此帶來(lái)的企業(yè)收益或 AI 應(yīng)用的效益也會(huì)越大。然而，這一切都離不開(kāi)一套強(qiáng)大的 AI 推理基礎(chǔ)設(shè)施的支撐。

接下來(lái)，我將從幾個(gè)方面展開(kāi)分析。首先，我們來(lái)看優(yōu)化的對(duì)象。端側(cè)包括手機(jī)、PC 等小型設(shè)備，而云側(cè)則涵蓋一體機(jī)和數(shù)據(jù)中心的集群。我們對(duì)應(yīng)用及其理論性能進(jìn)行了分析。從端側(cè)來(lái)看，現(xiàn)有的手機(jī)或 PC 設(shè)備在運(yùn)行本地 3B 或 7B 模型時(shí)，推理性能大致在每秒 10 到 20 個(gè) Token 左右，基本能滿足正常對(duì)話需求。但如今，人們不再滿足于單純的對(duì)話，還希望 AI 能處理更復(fù)雜的任務(wù)，如日程規(guī)劃、屏幕內(nèi)容分析等。這些任務(wù)所需的 Token 量，隨著 Test-Time Scaling 和多模態(tài)的發(fā)展，相比現(xiàn)有能力存在 1 到 2 個(gè)量級(jí)的差距。如何彌補(bǔ)這一差距，是端側(cè)需要思考的問(wèn)題。而在云側(cè)，無(wú)論是單臺(tái)機(jī)器還是大規(guī)模集群，核心都是要充分釋放芯片、存儲(chǔ)和互聯(lián)的能力，盡可能用滿集群的算力資源。目前，一些運(yùn)行 DeepSeek 的推理系統(tǒng)，其實(shí)際性能與理論值仍有 2 到 3 倍的差距，這需要我們從基礎(chǔ)設(shè)施層面去提高利用率，挖掘芯片的每一分潛力。

從實(shí)際應(yīng)用場(chǎng)景來(lái)看，端側(cè)和云側(cè)各有特點(diǎn)。端側(cè)主要針對(duì)單用戶、少請(qǐng)求場(chǎng)景，需要將單個(gè)模型、單個(gè)用戶請(qǐng)求的性能優(yōu)化到極致。這是一個(gè)資源受限的場(chǎng)景，手機(jī)和 PC 的功耗、芯片算力、存儲(chǔ)和帶寬都是有限的。如何選擇合適的模型，使其與芯片協(xié)同，滿足端側(cè)需求，是一個(gè)關(guān)鍵問(wèn)題。云側(cè)則從基礎(chǔ)設(shè)施角度出發(fā)，要考慮多用戶、資源搶占以及不同用戶上下文、模型和 Agent 場(chǎng)景的差異。這種差異化的訪問(wèn)請(qǐng)求，為云側(cè)優(yōu)化提供了更大的空間，也帶來(lái)了不同的優(yōu)化目標(biāo)和約束條件。

這些場(chǎng)景背后都繞不開(kāi)幾個(gè)核心挑戰(zhàn)。如何提升計(jì)算利用率，以及如何充分利用存儲(chǔ)資源，無(wú)論是在筆記本還是集群中，都是關(guān)鍵問(wèn)題。最近兩個(gè)月，內(nèi)存價(jià)格幾乎翻了一倍，HBM、DRAM 等供應(yīng)商也在控制產(chǎn)能。隨著模型規(guī)模增大、上下文變長(zhǎng)，存儲(chǔ)挑戰(zhàn)將越來(lái)越大。在端側(cè)，我們還要關(guān)注 SOC 的異構(gòu)調(diào)度，包括 CPU、GPU 和 NPU。而在云側(cè)，要在保證每個(gè)用戶的 SLO 以及低延遲和高吞吐量的前提下，盡可能用滿整個(gè)集群的資源。

2 以彈性算力集群，驅(qū)動(dòng)云側(cè)智能升級(jí)

我們先回顧一下在云側(cè)進(jìn)行大模型推理所面臨的基本挑戰(zhàn)，這些挑戰(zhàn)主要集中在計(jì)算、存儲(chǔ)和調(diào)度三個(gè)維度。

在計(jì)算方面，模型推理中的 Prefill（填充）和 Decode（解碼）階段本身就存在較大差異。Prefill 更傾向于計(jì)算密集型任務(wù)，而 Decode 則更偏向于訪存密集型任務(wù)。在存儲(chǔ)方面，盡管人們可能天然認(rèn)為云側(cè)的存儲(chǔ)資源是充足的，但我們發(fā)現(xiàn)，許多端云推理引擎都存在存儲(chǔ)利用率低的問(wèn)題。這主要是由于 Prefill 和 Decode 對(duì)顯存的占用不同，以及多用戶之間的碎片化導(dǎo)致的。此外，在云側(cè)，調(diào)度問(wèn)題也是不可避免的，包括如何進(jìn)行虛擬化、如何實(shí)現(xiàn)多用戶的性能隔離，同時(shí)還要盡可能提升資源利用率。這些就是目前我們?cè)谠苽?cè)大模型推理中所面臨的一些挑戰(zhàn)。

從 2022 年大模型出現(xiàn)以來(lái)，無(wú)論是產(chǎn)業(yè)界還是學(xué)術(shù)界，都有一些代表性的工作，從計(jì)算、存儲(chǔ)、調(diào)度等多個(gè)不同維度對(duì)大模型在云側(cè)的推理服務(wù)進(jìn)行了針對(duì)性的優(yōu)化。今天，我將重點(diǎn)介紹其中一項(xiàng)工作，即圍繞 Prefill 和 Decode 分離（P/D 分離）的優(yōu)化實(shí)踐。

最初，在進(jìn)行大模型推理時(shí)，我們通常會(huì)將 Prefill 和 Decode 請(qǐng)求都放在同一張 GPU 卡或一個(gè) GPU 節(jié)點(diǎn)內(nèi)。在這種情況下，它們需要共享 GPU 的計(jì)算資源，同時(shí)它們的權(quán)重、激活值以及 KV Cache 都存儲(chǔ)在 GPU 的 HBM 中。這種融合式場(chǎng)景在早期被廣泛采用，包括 Kimi 和 DeepSeek 等項(xiàng)目，都是在 P/D 分離的基礎(chǔ)上進(jìn)行大模型推理的實(shí)踐。P/D 分離的簡(jiǎn)單邏輯是將 Prefill 實(shí)例和 Decode 實(shí)例進(jìn)行分解，將 Prefill 實(shí)例部署在一些算力較高的 GPU 集群上，而將 Decode 實(shí)例部署在另一些存儲(chǔ)容量大、帶寬高的 GPU 集群上。例如，對(duì)于 Prefill 實(shí)例，我們可以選擇算力更強(qiáng)的 GPU 集群；而對(duì)于 Decode 實(shí)例，我們可以選擇像 H20 這樣算力稍小但 HBM 容量和帶寬較大的集群進(jìn)行部署。這種方案目前在業(yè)界較為常見(jiàn)。

我們分析一下這兩種方案各自的優(yōu)劣勢(shì)。對(duì)于融合式推理方案，它首先面臨的是我們?cè)谠粕线M(jìn)行推理時(shí)不可避免的問(wèn)題，即資源沖突和資源搶占。Prefill 和 Decode 請(qǐng)求本身對(duì)計(jì)算和存儲(chǔ)的需求就不一致。我們之前提到，Prefill 是一個(gè)算力密集型任務(wù)，而 Decode 是一個(gè)訪存密集型任務(wù)。將它們都放在同一張 GPU 卡或一個(gè)節(jié)點(diǎn)上，自然會(huì)面臨由于需求不同導(dǎo)致的延時(shí)干擾和計(jì)算資源分配不均的問(wèn)題。在這種情況下，想要對(duì)它們進(jìn)行細(xì)粒度的調(diào)控是非常困難的。然而，這種融合式方案也有它的優(yōu)勢(shì)，即將存儲(chǔ)融合在一起，無(wú)需進(jìn)行 KV Cache 之間的傳輸，相應(yīng)地，存儲(chǔ)管理的實(shí)現(xiàn)會(huì)更加簡(jiǎn)單。

再來(lái)看 P/D 分離的方式，它的核心優(yōu)勢(shì)在于解決了融合式方案中 Prefill 和 Decode 計(jì)算資源搶占的問(wèn)題。將 Prefill 和 Decode 拆開(kāi)后，可以根據(jù)它們各自對(duì)計(jì)算和存儲(chǔ)的需求進(jìn)行針對(duì)性的管理。如果 Prefill 實(shí)例對(duì)計(jì)算的要求比較一致，它們的行為和模式就更容易預(yù)測(cè)，因此在資源調(diào)度上可以采用更粗粒度、更可預(yù)測(cè)的方式進(jìn)行管理，Decode 實(shí)例也是如此。此外，P/D 分離還可以更好地進(jìn)行資源配比。然而，這種方式也引入了一些新的問(wèn)題。首先，它對(duì)存儲(chǔ)的開(kāi)銷(xiāo)和切換會(huì)帶來(lái)額外的挑戰(zhàn)。例如，P/D 分離后，P 實(shí)例和 D 實(shí)例之間的 KV Cache 存儲(chǔ)非常不均衡。在 P 實(shí)例上，可能只有 23% 的存儲(chǔ)用于 KV Cache，而在 Decode 實(shí)例上，可能有 70% 的存儲(chǔ)開(kāi)銷(xiāo)都用于存儲(chǔ) KV Cache。這就導(dǎo)致 P 實(shí)例和 D 實(shí)例之間需要頻繁進(jìn)行 KV Cache 的傳輸，這就要求 GPU 之間以及節(jié)點(diǎn)之間的互聯(lián)帶寬需要更大，同時(shí)需要對(duì)通信庫(kù)進(jìn)行更底層的優(yōu)化支持。此外，由于 P 實(shí)例和 D 實(shí)例之間存儲(chǔ)的不均衡，在進(jìn)行內(nèi)存管理時(shí)，P 實(shí)例上可能會(huì)出現(xiàn)顯存浪費(fèi)的情況。例如，除了存儲(chǔ)權(quán)重和 KV Cache 之外，可能有 30% 到 40% 的顯存無(wú)法被充分利用，這些未被利用的顯存會(huì)導(dǎo)致整個(gè)集群出現(xiàn)顯存浪費(fèi)的問(wèn)題。由于顯存成本較高，這種浪費(fèi)會(huì)顯著增加整個(gè)推理系統(tǒng)的成本。

如何將兩者的優(yōu)點(diǎn)結(jié)合起來(lái)，同時(shí)避免它們的不足。基于上述分析，我們提出了一個(gè)名為“P/D 半分離”的方式。在計(jì)算層面，我們對(duì) Prefill 和 Decode 進(jìn)行隔離，而在存儲(chǔ)層面則進(jìn)行融合。我們希望既能享受計(jì)算隔離帶來(lái)的優(yōu)勢(shì)，又能減少存儲(chǔ)融合導(dǎo)致的 KV Cache 傳輸開(kāi)銷(xiāo)。

在 P/D 半分離的整體架構(gòu)中，首先從計(jì)算層面來(lái)看，我們希望對(duì) Prefill 和 Decode 進(jìn)行分離。這種分離借鑒了云計(jì)算領(lǐng)域常用的虛擬化技術(shù)。早在 20 年云游戲興起時(shí)，就涉及如何在 GPU 的 SM 或其他計(jì)算單元上對(duì)不同游戲?qū)嵗M(jìn)行隔離式切分，當(dāng)時(shí)采用了多種進(jìn)程間虛擬化和隔離技術(shù)。類(lèi)似地，在大模型出現(xiàn)之前，許多 AI 推理服務(wù)也在進(jìn)程維度對(duì)多個(gè)任務(wù)進(jìn)行隔離和虛擬化。因此，我們同樣以進(jìn)程間的方式對(duì) Prefill 和 Decode 實(shí)例進(jìn)行隔離，并按照 SM 的粒度對(duì)資源進(jìn)行分配。這樣做的好處是可以實(shí)現(xiàn)細(xì)粒度的資源管控，同時(shí)盡可能確保 P 實(shí)例和 D 實(shí)例之間有較好的分離。

在存儲(chǔ)維度，我們主要針對(duì) Prefill 和 Decode 的不同需求進(jìn)行了針對(duì)性優(yōu)化。之前的主要問(wèn)題是，如果將它們?nèi)诤希捎?Prefill 和 Decode 對(duì)顯存的需求是動(dòng)態(tài)的，核心邏輯是盡可能高效地利用顯存。這就需要了解當(dāng)前顯存的使用情況以及任務(wù)所需的顯存量。具體來(lái)說(shuō)，分為三個(gè)步驟：第一步是分析當(dāng)前顯存的使用情況；第二步是確定當(dāng)前是 Prefill 還是 Decode，以及該任務(wù)所需的顯存量；第三步是對(duì)顯存空間進(jìn)行資源申請(qǐng)。如果將 Prefill 和 Decode 放在一起運(yùn)行，它們之間可能會(huì)出現(xiàn)讀后寫(xiě)依賴(lài)，以及細(xì)粒度訪存請(qǐng)求互相干擾的問(wèn)題。因此，我們首先將 Prefill 和 Decode 的細(xì)粒度內(nèi)存訪問(wèn)融合成一個(gè)大的原子操作，然后在這個(gè)原子操作上對(duì) Prefill 和 Decode 分別進(jìn)行管理。這樣做的好處是，融合后 Prefill 和 Decode 之間不會(huì)出現(xiàn)讀后寫(xiě)依賴(lài)沖突，同時(shí)也能更好地管理顯存碎片化。

在資源分配方面，我們舉了一個(gè)例子。在優(yōu)化前，我們可能給 Prefill 分配了約 2/3 的資源，給 Decode 分配了 60% 的資源。但如果在下一時(shí)刻我們認(rèn)為應(yīng)該給 Prefill 分配更多資源，由于這兩個(gè)進(jìn)程本身獲得的資源不同，理論上需要重新加載和拷貝 KV Cache、上下文等參數(shù)，這會(huì)產(chǎn)生額外的資源調(diào)整開(kāi)銷(xiāo)。于是，我們想到引入一個(gè)常駐進(jìn)程來(lái)管理 KV Cache 和模型權(quán)重的加載。這樣，原有的 Prefill 和 Decode 進(jìn)程可以預(yù)先依托常駐進(jìn)程進(jìn)行資源加載，無(wú)需引入額外的拷貝開(kāi)銷(xiāo)，從而減少 KV Cache 和資源分配方面的問(wèn)題。

除了前面提到的方案，我們?cè)趯?shí)際生產(chǎn)環(huán)境中，也針對(duì)實(shí)例推理以及集群規(guī)模的 P/D 融合方式進(jìn)行了支持。在實(shí)例級(jí)別，我們主要關(guān)注一臺(tái)或兩臺(tái) 8 卡、16 卡的服務(wù)器規(guī)模。在這種情況下，Prefill 實(shí)例和 Decode 實(shí)例分別進(jìn)行通信，且 Prefill 和 Decode 之間采用異步方式，這樣可以更好地進(jìn)行管理，并減少同步開(kāi)銷(xiāo)。

在集群規(guī)模方面，我們主要與現(xiàn)有的框架，包括 Kimi 開(kāi)源的一些 P/D 分離框架進(jìn)行融合。你可以選擇直接使用現(xiàn)有的 Prefill 和 Decode 實(shí)例，也可以使用我們這種半分離的實(shí)例。核心目標(biāo)是打開(kāi)整個(gè)集群規(guī)模的優(yōu)化空間，從而在上面進(jìn)行更精細(xì)化的優(yōu)化空間探索，找到一些更好的設(shè)計(jì)點(diǎn)。

與 SGLang 相比，我們的吞吐率提升了 10%，延時(shí)降低了兩倍。同時(shí)，我們的 TTFT 和 ITL 的整體延時(shí)都得到了顯著優(yōu)化。從完成率曲線可以看出，與 SGLang 相比，我們?cè)趯?shí)際線上業(yè)務(wù)中完成請(qǐng)求的占比提升明顯快于 SGLang 的結(jié)果。

3 面向華為昇騰的推理優(yōu)化部署實(shí)踐

最近，我們?cè)谌A為昇騰平臺(tái)，特別是其 910B 的 384 超節(jié)點(diǎn)上，進(jìn)行了一些探索。這些探索主要集中在百卡到千卡規(guī)模的集群推理實(shí)踐上。在開(kāi)始之前，我們首先進(jìn)一步分析了為什么需要超節(jié)點(diǎn)，以及華為開(kāi)發(fā)超節(jié)點(diǎn)背后的邏輯。從下圖左邊可以看到，OpenAI 提出了從 L1 到 L5 的演進(jìn)趨勢(shì)，橫軸代表智能水平。理論上，從 L1 到 L5，模型的智能水平應(yīng)該越來(lái)越強(qiáng)。我們經(jīng)過(guò)分析發(fā)現(xiàn)，要支撐這種智能水平的演進(jìn)，整個(gè)推理的能效，即 Token/J，也需要持續(xù)迭代。我們之前介紹的實(shí)例推理主要圍繞 L1 到 L2，或接近 L3 的部分。但未來(lái)，如果要支持多智能體、超大的 MoE，就需要更強(qiáng)的系統(tǒng)能力。

從右邊的趨勢(shì)可以看出，首先，模型規(guī)模越來(lái)越大。DeepSeek、Llama、Kimi 等模型從千億規(guī)模演進(jìn)到萬(wàn)億規(guī)模，這意味著原來(lái)的實(shí)例推理已經(jīng)無(wú)法滿足需求，需要更大的模型來(lái)提供支持。其次，目前大家都有意識(shí)地向 MoE 的超稀疏多專(zhuān)家方向發(fā)展，且專(zhuān)家數(shù)量越來(lái)越多。例如，DeepSeek 有 256 個(gè)專(zhuān)家，而 Kimi 有 384 個(gè)專(zhuān)家。這種多專(zhuān)家的變化與超節(jié)點(diǎn)多卡的方式天然契合，便于進(jìn)行大規(guī)模 EP（Expert Parallelism，專(zhuān)家并行）部署。此外，超長(zhǎng)上下文也是一個(gè)趨勢(shì)。現(xiàn)在，上下文長(zhǎng)度已經(jīng)從 8K、50K 發(fā)展到 128K，甚至更長(zhǎng)。

接下來(lái)，我們來(lái)看在昇騰平臺(tái)上部署會(huì)面臨哪些問(wèn)題。最近，昇騰的許多團(tuán)隊(duì)圍繞 910B 和 920C 進(jìn)行了一些具體的實(shí)踐，這是一個(gè)令人欣喜的過(guò)程。從最初的實(shí)例推理到現(xiàn)在的集群推理，性能有了量級(jí)的提升。然而，從“能用”到“好用”之間仍存在差距。這個(gè)差距主要體現(xiàn)在兩個(gè)方面：一方面，模型的上下文越來(lái)越長(zhǎng)，這帶來(lái)了計(jì)算、存儲(chǔ)和通信的匹配問(wèn)題；另一方面，華為的昇騰架構(gòu)是一個(gè) NPU 架構(gòu)，其算子生態(tài)需要整個(gè)行業(yè)共同迭代。這自然會(huì)面臨開(kāi)源社區(qū)和整個(gè)軟件棧迭代的問(wèn)題。未來(lái)，模型肯定會(huì)逐步演進(jìn)，如何將模型與集群更好地匹配起來(lái)，也是一個(gè)亟待解決的問(wèn)題。

在這里，我想和大家分享一些我們?cè)诔?jié)點(diǎn)上以及結(jié)合未來(lái)模型發(fā)展所遇到的挑戰(zhàn)。首先是長(zhǎng)文本問(wèn)題。長(zhǎng)文本的需求在 Agent 以及未來(lái)的具身智能等領(lǐng)域肯定會(huì)不斷增加。長(zhǎng)文本的核心特點(diǎn)是對(duì) KV Cache 的占用會(huì)越來(lái)越大。如果文本較短，實(shí)例推理或許還能應(yīng)對(duì)，最多支持 4K 到 8K 的上下文。但如果要支持 128K，甚至未來(lái)是 512K 以及更長(zhǎng)的上下文，現(xiàn)有的實(shí)例推理顯存顯然已經(jīng)無(wú)法滿足需求。因此，自然而然地需要從實(shí)例推理轉(zhuǎn)向集群推理，以獲得更大的存儲(chǔ)池來(lái)支持 KV Cache 的存儲(chǔ)。

這自然帶來(lái)了另一個(gè)問(wèn)題：如何解決 KV Cache 之間的傳輸挑戰(zhàn)。從計(jì)算層面來(lái)看，上下文越長(zhǎng)，對(duì)應(yīng)的 KV Cache 以及在 Prefill 階段進(jìn)行 Attention 計(jì)算時(shí)的計(jì)算需求也會(huì)越大。因?yàn)?Attention 計(jì)算本身是隨著上下文長(zhǎng)度呈二次方增長(zhǎng)的，這就必然涉及到 MLA 以及 MoE 算子的計(jì)算優(yōu)化問(wèn)題。在通信層面，KV Cache 越來(lái)越大，必然會(huì)帶來(lái)更多的通信和同步開(kāi)銷(xiāo)。過(guò)去，我們更多關(guān)注的是實(shí)例推理中的 TP（張量并行）并行。但現(xiàn)在，我們可能需要從張量并行切換到序列并行，甚至融合序列并行和專(zhuān)家并行的方式，來(lái)解決計(jì)算和通信開(kāi)銷(xiāo)問(wèn)題。從框架層面來(lái)看，過(guò)去我們主要關(guān)注如何在 P 實(shí)例和 D 實(shí)例之間進(jìn)行調(diào)度。但如今，超節(jié)點(diǎn)本身是一個(gè)融合方案，超節(jié)點(diǎn)與超節(jié)點(diǎn)之間如何協(xié)同支持，以及未來(lái)如何將不同模型部署到不同的超節(jié)點(diǎn)上，這都是框架層面需要考慮的模型適配問(wèn)題。

在對(duì)昇騰架構(gòu)的探索中，我們重點(diǎn)關(guān)注了計(jì)算層面的優(yōu)化問(wèn)題，尤其是與長(zhǎng)文本處理和集群推理相關(guān)的挑戰(zhàn)。首先，從計(jì)算層面來(lái)看，隨著模型上下文長(zhǎng)度的增加，注意力機(jī)制（Attention）的算力需求顯著增大。這不僅體現(xiàn)在對(duì)張量核心（Tensor Core）的計(jì)算需求上，還體現(xiàn)在對(duì)標(biāo)量計(jì)算的需求上。在昇騰架構(gòu)中，標(biāo)量計(jì)算單元（Scalar Unit）和向量計(jì)算單元（Vector Unit）的算力與矩陣計(jì)算單元（Cube Unit）存在較大差距。我們通過(guò)分析發(fā)現(xiàn)，隨著上下文長(zhǎng)度的增加，標(biāo)量和向量計(jì)算的時(shí)間占比可能會(huì)從 10% 飆升到 30% 至 40%。這種非張量計(jì)算帶來(lái)的瓶頸需要從芯片層面進(jìn)行針對(duì)性優(yōu)化。

針對(duì)長(zhǎng)上下文導(dǎo)致的 KV Cache 存儲(chǔ)不均問(wèn)題，這與之前提到的 P/D 分離優(yōu)化類(lèi)似，但面向的是超節(jié)點(diǎn)內(nèi) NPU 和 NPU 之間，甚至是 GPU 和 GPU 之間的部署問(wèn)題。在長(zhǎng)上下文和云端推理場(chǎng)景中，計(jì)算力需求與存儲(chǔ)需求的綁定因素不同。算力需求與請(qǐng)求數(shù)（batch size）緊密相關(guān)，而存儲(chǔ)需求則與上下文長(zhǎng)度相關(guān)。這種不一致性導(dǎo)致在集群推理和云端推理場(chǎng)景中，需要考慮的因素更多，且它們之間的相互影響也更為復(fù)雜。

資源匹配問(wèn)題也是一個(gè)關(guān)鍵挑戰(zhàn)。例如，在 384 超節(jié)點(diǎn)上部署 DeepSeek 模型時(shí)，由于模型的專(zhuān)家權(quán)重?cái)?shù)量（320）與超節(jié)點(diǎn)數(shù)量（384）無(wú)法整除，導(dǎo)致部分 NPU 或 GPU 資源浪費(fèi)。這表明 384 超節(jié)點(diǎn)在設(shè)計(jì)時(shí)可能并未完全針對(duì)特定模型進(jìn)行優(yōu)化，未來(lái)新模型的出現(xiàn)將進(jìn)一步加劇這一問(wèn)題。

針對(duì)這些問(wèn)題，我們與清華大學(xué)和上海交通大學(xué)的團(tuán)隊(duì)進(jìn)行了探索，并針對(duì)一些關(guān)鍵算子進(jìn)行了底層優(yōu)化。這些優(yōu)化包括 L2、L1、L0 緩存之間的數(shù)據(jù)搬運(yùn)和復(fù)用策略，以及基于昇騰 CCE 的底層支持。最近，我們還發(fā)表了一篇論文《FlashOverlap》，提出了針對(duì)昇騰架構(gòu)的細(xì)粒度計(jì)算和通信流水優(yōu)化方法，感興趣的朋友可以查閱。

總結(jié)來(lái)說(shuō)，我們認(rèn)為集群推理其實(shí)是一個(gè)更為復(fù)雜的優(yōu)化問(wèn)題。在進(jìn)行 AI 推理優(yōu)化時(shí)，本質(zhì)上我們都在做各種各樣的多目標(biāo)優(yōu)化。我們既希望延時(shí)低，又希望吞吐量高，還希望資源利用率強(qiáng)，并且能夠盡可能地服務(wù)更多用戶。然而，在這個(gè)過(guò)程中，我們需要考慮諸多因素，包括模型的類(lèi)型、規(guī)模，芯片的算力構(gòu)成，可用的帶寬、顯存，以及整個(gè)節(jié)點(diǎn)的規(guī)模和節(jié)點(diǎn)之間的互聯(lián)帶寬等。我們一直強(qiáng)調(diào)軟硬協(xié)同，其本質(zhì)便是在這樣一個(gè)龐大的優(yōu)化空間里，嘗試對(duì)計(jì)算、通信以及框架等資源配比進(jìn)行合理的映射和優(yōu)化搜索。所以，我覺(jué)得這個(gè)領(lǐng)域是需要持續(xù)進(jìn)行技術(shù)攻關(guān)的，而我們目前也正在不斷地探索，從計(jì)算到框架再到通信層面，我們都在持續(xù)地進(jìn)行嘗試。

4 以有限算力架構(gòu)，釋放終端應(yīng)用潛能

在一些資源受限的芯片上，比如手機(jī)、PC 上，我們還能做哪些工作呢？大的背景是，我們堅(jiān)信未來(lái)大模型將在更廣泛的智能終端設(shè)備上落地，包括大家手里的手機(jī)、筆記本電腦，以及現(xiàn)在比較火的機(jī)器人，還有各種新形態(tài)的終端，這些都將是未來(lái)重要的智能入口。這個(gè)智能入口不僅會(huì)影響到云側(cè)的配合，也會(huì)涉及到端側(cè)有一個(gè)更懂你的智能體來(lái)幫你處理越來(lái)越多的事情。所以，這塊帶來(lái)的想象空間是越來(lái)越大的。結(jié)合現(xiàn)在比較火的具身智能，不管是自動(dòng)駕駛、無(wú)人機(jī)還是機(jī)器人的場(chǎng)景，其實(shí)對(duì) Token 的需求還是很大的，至少是在 100 到 1000 個(gè) Token 這個(gè)量級(jí)。那么，如何用一個(gè)比較好的芯片和基礎(chǔ)設(shè)施去支撐這樣大的 Token 需求，至少在端側(cè)這個(gè)場(chǎng)景是一個(gè)需要解決的問(wèn)題。

在端側(cè)，我們也是從計(jì)算、存儲(chǔ)、通信這幾個(gè)方面做了一些分析，包括在 GPU 和 CPU 上的一些優(yōu)化。這可能涉及到在 SOC 上，能否把上面的 NPU 也利用起來(lái)。因?yàn)槎藗?cè)本身就是一個(gè)存儲(chǔ)非常有限的設(shè)備，所以如何把一個(gè)很大的模型進(jìn)行蒸餾、壓縮，壓縮完以后是否還能滿足需求，以及是否能在有限的空間里用計(jì)算去換存儲(chǔ)的方式做一些優(yōu)化。

目前業(yè)界的優(yōu)化也分為幾類(lèi)。一類(lèi)是做一些投機(jī)解碼等技術(shù)，本質(zhì)上是因?yàn)槎藗?cè)存儲(chǔ)比較貴，而算力相對(duì)來(lái)說(shuō)有一些富余。因?yàn)樵诙藗?cè)，你不需要跑很大的 batch size，一般都是單 batch 和單用戶的推理，所以大部分情況下計(jì)算是有富余的。那么，多出來(lái)的計(jì)算就可以用來(lái)?yè)Q取存儲(chǔ)。所以，現(xiàn)在所有的投機(jī)解碼方式都是在做這塊的事情。另一類(lèi)是模型壓縮，不管是做稀疏量化還是蒸餾，都是為了讓模型在保持智能水平的情況下變得越來(lái)越小。其實(shí)，包括 MIT 和我們團(tuán)隊(duì)之前都做了很多這種壓縮的工作。還有一類(lèi)是端側(cè)本身是一個(gè) SOC 平臺(tái)，那如何在上面做一些協(xié)同優(yōu)化，也是一個(gè)重要的方向。

我們團(tuán)隊(duì)最近開(kāi)展了一項(xiàng)工作，這是一個(gè)典型的軟硬件協(xié)同優(yōu)化方案。我們的思路是從投機(jī)采樣等技術(shù)入手，從模型和軟件兩個(gè)層面進(jìn)行探索。簡(jiǎn)單來(lái)說(shuō)，正常情況下，模型推理包含多個(gè)層級(jí)。之前有早退技術(shù)的概念，即無(wú)需完成所有層級(jí)的計(jì)算就能輸出結(jié)果。例如，一個(gè) 32 層的模型，可能在計(jì)算到第 31 層時(shí)，結(jié)果的概率就已經(jīng)接近閾值，可以提前結(jié)束。但關(guān)鍵問(wèn)題在于，何時(shí)應(yīng)該結(jié)束？這需要一個(gè)判斷過(guò)程。如果將這個(gè)判斷過(guò)程建模，實(shí)際上是在一個(gè)上萬(wàn)規(guī)模的詞表中進(jìn)行搜索分類(lèi)。對(duì)于典型的大模型，詞表通常是萬(wàn)級(jí)的，比如一個(gè) 3 萬(wàn)詞表，這樣的搜索開(kāi)銷(xiāo)非常大。我們希望在享受早退技術(shù)帶來(lái)的計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)減少優(yōu)勢(shì)的同時(shí)，盡量使其可用，否則每次都要搜索一遍，可能會(huì)帶來(lái)不可接受的開(kāi)銷(xiāo)。

核心問(wèn)題在于如何構(gòu)建一個(gè)中間預(yù)測(cè)模型，以縮短在線搜索的開(kāi)銷(xiāo)。比如在某一層判斷是否可以結(jié)束時(shí)，能夠通過(guò)一個(gè)小的推測(cè)模型，在極低開(kāi)銷(xiāo)下進(jìn)行判斷。這個(gè)推測(cè)模型會(huì)根據(jù)輸入，將原本龐大的詞表縮減為一個(gè)非常小的詞表。因?yàn)樵趯?duì)話場(chǎng)景中，下一個(gè)詞相對(duì)比較確定，本質(zhì)上不需要在大詞表中搜索。理論上，可以提前訓(xùn)練一個(gè)小模型，讓它知道在什么范圍內(nèi)找到這個(gè)詞，然后在這個(gè)小詞表下進(jìn)行搜索，從而盡可能降低開(kāi)銷(xiāo)。

如何以低開(kāi)銷(xiāo)、高精度的方式進(jìn)行這種級(jí)聯(lián)計(jì)算。由于我們本質(zhì)上是在做軟硬件協(xié)同優(yōu)化，修改算法不可避免地會(huì)引入一些開(kāi)銷(xiāo)。因此，如果預(yù)測(cè)錯(cuò)誤，就需要一些在線修正機(jī)制。我們?cè)谶@方面也做了一些工程優(yōu)化，以確保預(yù)測(cè)錯(cuò)誤時(shí)能夠快速修正，從而保證精度不受損失。此外，針對(duì)頻繁調(diào)度的開(kāi)銷(xiāo)問(wèn)題，我們?cè)诙藗?cè)開(kāi)發(fā)了一個(gè)調(diào)度引擎，用于記錄早退的位置，并提前存儲(chǔ)早退的概率，結(jié)合離線調(diào)度和在線調(diào)度，優(yōu)化整體的調(diào)度效率。

從結(jié)果來(lái)看，下圖黃色部分是基于一些稀疏化的優(yōu)化，綠色部分是量化優(yōu)化。我們可以看到，通過(guò)軟硬件協(xié)同的方式，在保證精度的同時(shí)提升了速度，使性能盡可能向右上角提升。在實(shí)際部署中，我們?cè)诼?lián)想的 AI PC 上進(jìn)行了部署，端到端的性能大約提升了兩倍。

5 以大模型推理技術(shù)創(chuàng)新，融合人工智能產(chǎn)業(yè)創(chuàng)新

我們與各位探討了在云和端側(cè)部署大模型時(shí)面臨的效率挑戰(zhàn)。我們的核心目標(biāo)是無(wú)論在云端還是端側(cè)設(shè)備上，都能充分利用大模型的優(yōu)勢(shì)，同時(shí)盡可能降低對(duì)硬件資源的需求，并滿足用戶對(duì)推理服務(wù)質(zhì)量的要求。一直以來(lái)，我們致力于將推理系統(tǒng)部署到云端，推動(dòng)整個(gè)產(chǎn)業(yè)鏈的運(yùn)轉(zhuǎn)。因?yàn)椋M管從事基礎(chǔ)設(shè)施和技術(shù)工作的人員主要關(guān)注 Token 的性能，但僅靠 Token 性能是不夠的。我們還需要讓足夠多的應(yīng)用企業(yè)參與進(jìn)來(lái)，形成產(chǎn)業(yè)閉環(huán)。只有當(dāng)大家廣泛使用大模型，探索其在各行業(yè)的應(yīng)用，并在 Token 量大幅提升后，才能有足夠的需求推動(dòng)基礎(chǔ)設(shè)施的發(fā)展。我認(rèn)為這是一個(gè)良好的正向循環(huán)。在端側(cè)，我們則與聯(lián)想等企業(yè)以及各種端設(shè)備進(jìn)行了探索，希望未來(lái)無(wú)論是 AI PC、AI 手機(jī)，還是其他終端設(shè)備，都能為用戶帶來(lái)使用體驗(yàn)上的變革。

我們認(rèn)為未來(lái)端和云并非解耦的，而是需要協(xié)同支撐的。在相當(dāng)長(zhǎng)的一段時(shí)間里，端和云將相互補(bǔ)充、共同存在。在端側(cè)，我們可以部署 3B、7B 或 13B 左右的模型，用于本地化處理和個(gè)人個(gè)性化助理功能。這些模型能夠了解用戶的想法，幫助管理個(gè)人日程，并分析個(gè)性化需求。由于涉及隱私性要求，這些功能需要在本地實(shí)現(xiàn)。而當(dāng)用戶需要處理更復(fù)雜的任務(wù)時(shí)，端側(cè)設(shè)備可以調(diào)用云端的 Agent 和更強(qiáng)大的模型，為用戶提供輔助支持。我們相信，在未來(lái)很長(zhǎng)一段時(shí)間里，需要探索出一個(gè)云與端協(xié)同的框架，以確保大模型在各行業(yè)的更好落地。

我們的愿景是，就像 30 年前水電走進(jìn)千家萬(wàn)戶一樣，如今我們希望通過(guò)端云協(xié)同和更高效的基礎(chǔ)設(shè)施，與上下游通力合作將大模型的成本降低萬(wàn)倍，使其普及到更多領(lǐng)域。

演講嘉賓介紹

曾書(shū)霖，無(wú)問(wèn)芯穹總經(jīng)理，于 2018 年和 2023 年在清華大學(xué)電子工程系獲得工學(xué)學(xué)士和博士學(xué)位，師從清華大學(xué)電子工程系教授、IEEE Fellow 汪玉，研究領(lǐng)域?yàn)檐浻矃f(xié)同優(yōu)化研究和 AI 加速器設(shè)計(jì)。在相關(guān)領(lǐng)域發(fā)表高水平國(guó)際會(huì)議和期刊論文 20 余篇，谷歌學(xué)術(shù)施引九百余次，包括以第一作者或共同一作發(fā)表高水平論文于可重構(gòu)計(jì)算領(lǐng)域旗艦會(huì)議（ FPGA · 25, FPGA · 24）、體系結(jié)構(gòu)領(lǐng)域頂級(jí)會(huì)議 (HPCA · 25, MICRO · 23)、以及頂級(jí)期刊 IEEE TC、ACM TRETS 等。曾獲 FPGA 2025 會(huì)議最佳論文獎(jiǎng)（ FPGA 會(huì)議首次將該獎(jiǎng)項(xiàng)授予完全由中國(guó)大陸科研團(tuán)隊(duì)主導(dǎo)的研究工作，也是亞太國(guó)家團(tuán)隊(duì)首次獲此殊榮）、IEEE TC 2023 Featured Paper of the Month、清華大學(xué)研究生國(guó)家獎(jiǎng)學(xué)金等。在創(chuàng)新創(chuàng)業(yè)方面，作為創(chuàng)始成員參與創(chuàng)立上海無(wú)問(wèn)芯穹智能科技有限公司，并作為智能終端業(yè)務(wù)負(fù)責(zé)人，帶領(lǐng)團(tuán)隊(duì)打造“端模型 + 端軟件 + 端 IP ”的智能終端一體化解決方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

又一推理新范式：將LLM自身視作改進(jìn)操作符，突破長(zhǎng)思維鏈極限

機(jī)器之心Pro 2025-10-04 18:35:49
0 跟貼 0

別急著教AI開(kāi)車(chē)，先讓它看懂世界

虎嗅APP 2026-03-21 17:36:05
0 跟貼 0

對(duì)話易點(diǎn)天下：Agent與過(guò)去有本質(zhì)區(qū)別，安全風(fēng)險(xiǎn)不在于模型微調(diào)，而在于模型選擇

鈦媒體APP 2026-03-20 14:27:07
0 跟貼 0

對(duì)話陳志杰：AI編程搶不了程序員的飯碗，我們是給廚子做飯的人

DeepTech深科技 2025-11-24 19:34:58
0 跟貼 0

AI編程元年：初級(jí)開(kāi)發(fā)者被「團(tuán)滅」？

新智元 2026-03-21 12:38:36
3 跟貼 3

大模型的下半場(chǎng)，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

多模態(tài)推理新范式ThinkMorph ，文字與圖像在統(tǒng)一架構(gòu)共同演化

機(jī)器之心Pro 2026-03-10 16:02:54
0 跟貼 0

英偉達(dá)GTC現(xiàn)場(chǎng)的隱形AI巨頭：老黃機(jī)器人demo背后都是它

量子位 2026-03-21 17:38:21
0 跟貼 0

VL-LN Bench：模擬「邊走邊問(wèn)找具體目標(biāo)」的真實(shí)導(dǎo)航場(chǎng)景

機(jī)器之心Pro 2026-02-02 17:10:55
0 跟貼 0

從經(jīng)歷到知識(shí)：UIUC、清華PlugMem如何重構(gòu)Agent記憶

新智元 2026-03-21 19:19:12
0 跟貼 0

陶哲軒：AI看似在推理，其實(shí)是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0

高通萬(wàn)衛(wèi)星談終端大模型優(yōu)勢(shì)：個(gè)性化與數(shù)據(jù)推理

量子位 2025-12-11 03:38:41
0 跟貼 0

告別GPU空轉(zhuǎn)，這款國(guó)產(chǎn)工作站如何讓OpenClaw真正跑起來(lái)？

智東西 2026-03-21 19:49:09
0 跟貼 0

業(yè)界首個(gè)高質(zhì)量原生3D組件生成模型來(lái)了！來(lái)自騰訊混元團(tuán)隊(duì)

量子位 2025-09-27 12:56:41
0 跟貼 0

找伴侶和做投資，邏輯一模一樣

光輝視角 2026-03-19 14:03:44
1 跟貼 1

“媽?zhuān)T(mén)口要錢(qián)，我們就不進(jìn)去看你了”，游客在壺口瀑布外拍視頻被投訴侵權(quán)，山西壺口瀑布景區(qū)：事發(fā)地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
34645 跟貼 34645

超圖挖掘綜述：模式、工具與生成器

CreateAMind 2026-03-18 14:08:04
0 跟貼 0

Cursor自研模型反超Opus 4.6！價(jià)格腳踝斬，氛圍編程沸騰了

量子位 2026-03-20 12:07:45
8 跟貼 8

量子計(jì)算機(jī)出手，醫(yī)療難題有救了嗎？

DeepTech深科技 2026-03-21 16:36:32
0 跟貼 0

模型飛機(jī)試飛，鏡頭一轉(zhuǎn)發(fā)現(xiàn)事不簡(jiǎn)單，美女吃了熊心豹子膽

美妙一籮筐 2026-03-20 11:43:33
0 跟貼 0

編程已死，鍵盤(pán)長(zhǎng)草！Claude Code之父對(duì)談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
72 跟貼 72

達(dá)利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

極目新聞 2026-03-21 16:52:14
2638 跟貼 2638

鉑智3X周年OTA升級(jí) R6大模型免費(fèi)惠及8萬(wàn)車(chē)主

林林Go 2026-03-21 20:37:31
0 跟貼 0

新華社消息｜四部門(mén)印發(fā)指引規(guī)范平臺(tái)企業(yè)開(kāi)展勞動(dòng)規(guī)則和算法協(xié)商

學(xué)申論的談妹 2026-03-21 15:45:19
0 跟貼 0

硬剛跨國(guó)巨頭，毛利超75%，“醫(yī)學(xué)影像大模型第一股”要來(lái)了

鈦媒體APP 2026-03-21 10:37:07
0 跟貼 0

成品油價(jià)即將迎來(lái)“五連漲”，下周一加滿一箱油可能將多花80元，周末記得加滿油

揚(yáng)子晚報(bào) 2026-03-21 07:37:10
20655 跟貼 20655

普遍漲價(jià)5000，新一代SU7只漲4000，2026新車(chē)定價(jià)的深層邏輯

路咖汽車(chē) 2026-03-20 17:15:15
0 跟貼 0

5289.6公里全程智駕！小鵬G7第二代VLA橫貫中國(guó)挑戰(zhàn)成功

CNMO科技 2026-03-20 12:10:04
1 跟貼 1

無(wú)問(wèn)芯穹王夢(mèng)菲：AI邁向新時(shí)代

融資中國(guó) 2026-03-20 17:29:22
0 跟貼 0

想玩機(jī)械模型？這個(gè)能發(fā)動(dòng)！#金屬拼裝 #V12發(fā)動(dòng)機(jī)

制造科技 2026-03-19 23:00:29
0 跟貼 0

“你已進(jìn)入艷遇高發(fā)地”，河南項(xiàng)城知名商場(chǎng)內(nèi)現(xiàn)不雅標(biāo)語(yǔ)，當(dāng)?shù)厥袌?chǎng)監(jiān)管局回應(yīng)：商場(chǎng)已自行撤下該廣告牌

哈爾濱日?qǐng)?bào) 2026-03-21 14:17:00
186 跟貼 186

1101套房只有1人選房，深圳一安居房項(xiàng)目屢戰(zhàn)屢“冷”

南方都市報(bào) 2026-03-20 22:14:18
913 跟貼 913

湖人這波8連勝，球隊(duì)氣質(zhì)發(fā)生迭代

看球圖一樂(lè) 2026-03-20 14:09:28
1 跟貼 1

上海百年老店官宣閉店！曾經(jīng)去吃頓飯可要一大早就排長(zhǎng)隊(duì)，承載了幾代人的記憶，不少阿姨爺叔的“第一次”

上觀新聞 2026-03-18 17:41:49
963 跟貼 963

迪麗熱巴迪拜回國(guó)后首現(xiàn)身機(jī)場(chǎng)，黑絲長(zhǎng)腿美艷高貴，身材堪比建模

星娛STAR 2026-03-19 23:20:09
8 跟貼 8

匈牙利和斯洛伐克堅(jiān)決反對(duì)，峰會(huì)氣氛冷淡尷尬，歐盟未通過(guò)900億歐元援烏貸款

環(huán)球網(wǎng)資訊 2026-03-21 07:07:24
107 跟貼 107

男子講他的手辦模型都是幾十塊買(mǎi)的，于是老婆用豆包詢問(wèn)價(jià)錢(qián)，網(wǎng)友：最后豆包還回一句“差不多”

重慶科教融媒體 2026-03-21 12:20:29
3 跟貼 3

再見(jiàn)，“四字外援”！丁彥雨航退役，曾在山東男籃效力9個(gè)賽季

齊魯壹點(diǎn) 2026-03-21 07:12:12
73 跟貼 73

一次性講清楚佛教的神仙體系，佛教權(quán)力架構(gòu)圖

隨風(fēng) 2026-03-19 06:32:48
0 跟貼 0

浙江一中學(xué)招聘競(jìng)賽教練，最高200萬(wàn)元年薪，學(xué)校：已有人致電咨詢

大風(fēng)新聞 2026-03-20 22:27:03
131 跟貼 131

17+11！楊瀚森大帽富爾茨！這可是NBA狀元秀
籃球?qū)崙?zhàn)寶典
2026-03-21 12:02:21

扎心了！中國(guó)男性死亡中位數(shù)67歲，剛退休就離場(chǎng)，養(yǎng)老金虧大了？
烏娛子醬
2026-03-20 10:51:20

一臺(tái)造夢(mèng)，一臺(tái)賺錢(qián)，蘋(píng)果 50 周年還藏了兩臺(tái)新 iPhone
愛(ài)范兒
2026-03-20 19:48:12

鬧大了！路虎別車(chē)事件再反轉(zhuǎn)！當(dāng)事人信息遭泄露，警方再發(fā)通報(bào)！
奇思妙想草葉君
2026-03-20 14:45:59

匈牙利大選為何會(huì)成為全球焦點(diǎn)？?jī)纱箨嚑I(yíng)生死對(duì)決
史政先鋒
2026-03-21 12:25:57

殲20總師被除名：長(zhǎng)期領(lǐng)導(dǎo)軍工央企，最近照流出，事發(fā)全過(guò)程披露
博士觀察
2026-03-20 21:41:54

不是李夢(mèng)！馳援女籃世界杯第1人或是她，21歲前鋒，有望取代功勛
萌蘭聊個(gè)球
2026-03-21 09:52:17

西方軍事專(zhuān)家：只有吉爾吉斯斯坦知道，中國(guó)早就是最強(qiáng)超級(jí)大國(guó)了
皇朝冰酷
2026-03-21 17:49:34

美國(guó)已被奪舍，我們是下一個(gè)？
美第奇效應(yīng)
2026-03-21 01:50:29

又投中7個(gè)三分！抱歉戈登：你的NBA紀(jì)錄要不保了
籃球大視野
2026-03-21 15:35:41

風(fēng)向驟變！以德為首的西方國(guó)家齊發(fā)聲：中國(guó)已在換電關(guān)鍵領(lǐng)域崛起
聚焦最新動(dòng)態(tài)
2026-03-21 13:02:00

0-3慘敗！中超頭號(hào)降級(jí)熱門(mén)出爐：3輪不勝0進(jìn)球負(fù)9分，給海牛墊底
球場(chǎng)沒(méi)跑道
2026-03-21 18:09:48

2026年交警正式更名交管！不止換稱(chēng)呼，罰單、停車(chē)、換駕照全變了
混沌錄
2026-03-20 21:00:04

爽，公司全員裁撤，就地解散！
黯泉
2026-03-21 12:20:16

美媒：抱歉了殲-20與殲-35A，F(xiàn)-22和F-35將繼續(xù)主宰天空
零度Military
2026-03-21 07:00:05

阿里巴巴2025年裁員超6.6萬(wàn)人？
芯智訊
2026-03-21 11:06:56

看了新加坡媒體的披露，我才知道，中國(guó)已經(jīng)沒(méi)必要向世界證明什么
觸摸史跡
2026-03-21 02:58:06

福建寧德一派出所教導(dǎo)員辦公室猥褻15歲女生，一審被判2年9個(gè)月，家屬欲申請(qǐng)抗訴
大風(fēng)新聞
2026-03-21 11:58:12

伊朗戰(zhàn)爭(zhēng)最黑暗的終局正在襲來(lái)
荷蘭豆愛(ài)健康
2026-03-21 08:27:54

15分大逆轉(zhuǎn)！北京男籃力克遼寧，趙睿34分大爆發(fā)，趙繼偉26分！
中國(guó)籃壇快訊
2026-03-21 21:36:20

2026-03-21 21:55:00

InfoQ

有內(nèi)容的技術(shù)社區(qū)媒體

12188文章數(shù) 51814關(guān)注度

往期回顧全部

科技要聞

宇樹(shù)招股書(shū)拆解，人形機(jī)器人出貨量第一！

蘋(píng)果CEO庫(kù)克：新款Mac吸引了創(chuàng)紀(jì)錄的首購(gòu)客戶

微軟大刀闊斧重組AI部門(mén)

新SU7只漲4千！雷軍：真怕交車(chē)慢挨罵

阿里Q3財(cái)報(bào)解析：守美團(tuán)，押AI，雙線燒錢(qián)作戰(zhàn)

頭條要聞

軍事專(zhuān)家推演美軍奪取哈爾克島的三種可能：步步驚心

伊朗發(fā)射3800公里射程的導(dǎo)彈最令美軍戰(zhàn)栗的細(xì)節(jié)披露

媒體：高市訪美上演表忠心"外交秀" 還付出巨額代價(jià)

美以襲擊伊核設(shè)施伊朗在霍爾木茲海峽采取重大行動(dòng)

達(dá)利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

頭條要聞

軍事專(zhuān)家推演美軍奪取哈爾克島的三種可能：步步驚心

伊朗發(fā)射3800公里射程的導(dǎo)彈最令美軍戰(zhàn)栗的細(xì)節(jié)披露

媒體：高市訪美上演表忠心"外交秀" 還付出巨額代價(jià)

美以襲擊伊核設(shè)施伊朗在霍爾木茲海峽采取重大行動(dòng)

達(dá)利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

體育要聞

誰(shuí)在決定字母哥未來(lái)？

中超-國(guó)安1-1申花張玉寧3輪3球陳晉一任意球世界波

女足亞洲杯日本1-0澳大利亞奪冠，浜野舞香世界波制勝

鐵人3-0津門(mén)虎！獲隊(duì)史中超首勝津門(mén)虎3輪不勝0進(jìn)球+積負(fù)9分墊底

64118人！工體再創(chuàng)上座率紀(jì)錄，中超歷史第2，僅少3439人

娛樂(lè)要聞

田栩?qū)幗K于涼了？出軌風(fēng)波影響惡劣

《奔跑吧14》名單老粉絲說(shuō)不認(rèn)識(shí)新觀眾卻在追

汪小菲說(shuō)不在臺(tái)北買(mǎi)房馬筱梅通過(guò)汪寶兒示好張?zhí)m

動(dòng)作巨星去世享年86歲，曾與李小龍對(duì)決

上海德云社開(kāi)業(yè)首日，楊議老毛病又犯

財(cái)經(jīng)要聞

通脹警報(bào)拉響，加息潮要來(lái)了？

拆解宇樹(shù)：一年?duì)I收17億機(jī)器人賣(mài)給了誰(shuí)

暴跌！黃金失守4500美元

A股失守4000點(diǎn)：機(jī)構(gòu)激辯調(diào)整主因，下一步策略來(lái)了！

泰蘭尼斯：把童鞋變成了一門(mén)焦慮生意

汽車(chē)要聞

小鵬汽車(chē)2025年Q4盈利凈賺3.8億全年?duì)I收767億

極狐全新阿爾法S5體驗(yàn)72道彎 11萬(wàn)級(jí)轎跑真實(shí)力

實(shí)拍瑞虎5運(yùn)動(dòng)版，新能源設(shè)計(jì)思路的燃油車(chē)？

29.98萬(wàn)起售空間大配置齊全騰勢(shì)N8L性價(jià)比怎么樣？

三電機(jī)+雙8797芯片+500km續(xù)航零跑D19實(shí)車(chē)到店

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

時(shí)尚

本地

教育

數(shù)碼

藝術(shù)要聞

法國(guó)女人就這樣誘惑了全世界的男人...

你敢信？這竟是宇樹(shù)科技的總部，畫(huà)風(fēng)有點(diǎn)清奇

建筑圈好評(píng)如潮的停車(chē)樓，竟要拆除！國(guó)王親自下令！

2025年第二屆少兒美術(shù)教師作品展 | 油畫(huà)選刊（二）

這個(gè)趨勢(shì)好適合亞洲人！不用花大錢(qián)也能跟

瞿穎：別催了，不想太紅

今年春天一定要擁有“這件衣服”，減齡又好看！

80后拼命相親，00后拒絕性生活

本地新聞

春色滿城關(guān)不住｜紹興春日頂流，這片櫻花海藏不住了

春色滿城關(guān)不住｜粉色浪漫已至，來(lái)寧波共賞櫻花雨

春天出門(mén)像出艙？一個(gè)過(guò)敏星人的裝備進(jìn)化史

坐標(biāo)北京，過(guò)敏季反向遷徒

教育要聞

重磅！育才蛇口更名“育才一中”，獨(dú)家分析“變”與“不變”

廣州高三一模出分后，各位家長(zhǎng)這件事可以提前準(zhǔn)備起來(lái)

【獨(dú)家分析】云南中煙2026年校招487人名單出爐：這些專(zhuān)業(yè)和學(xué)校最吃香！

教育縱深丨健康筑基育見(jiàn)成長(zhǎng)

來(lái)上課了——(1)主謂一致第1段

數(shù)碼要聞

存儲(chǔ)芯片短缺困境難以緩解，專(zhuān)家稱(chēng)電腦手機(jī)或漲超20%

幸狐Lume開(kāi)發(fā)板來(lái)襲，129元起配全志T153芯片！

IDC報(bào)告：2025年全球手持智能相機(jī)出貨量猛增83%

迷你主機(jī)新玩法：雙系統(tǒng)+AI一鍵裝

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

無(wú)問(wèn)芯穹曾書(shū)霖談 AI 2.0 時(shí)代的大模型推理：從模型到硬件的協(xié)同優(yōu)化

宇樹(shù)招股書(shū)拆解，人形機(jī)器人出貨量第一！

誰(shuí)在決定字母哥未來(lái)？

田栩?qū)幗K于涼了？出軌風(fēng)波影響惡劣

通脹警報(bào)拉響，加息潮要來(lái)了？

小鵬汽車(chē)2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

法國(guó)女人就這樣誘惑了全世界的男人...

這個(gè)趨勢(shì)好適合亞洲人！不用花大錢(qián)也能跟

春色滿城關(guān)不住｜紹興春日頂流，這片櫻花海藏不住了

重磅！育才蛇口更名“育才一中”，獨(dú)家分析“變”與“不變”

小鵬汽車(chē)2025年Q4盈利凈賺3.8億全年?duì)I收767億