<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      V3→R1→V3.2|一文看懂 DeepSeek 技術演進

      0
      分享至

      DeepSeek,喜歡過節發模型


      DeepSeek 發布時間線,紅色是主要版本

      這點,老美也很抱怨
      “去年感恩節發 V3,今年后發 V3.2”

      但每個人,也深有期待
      V3.2 的性能已經追平 GPT-5 和 Gemini 3.0 Pro,而且開源


      V3.2 和頂級閉源模型的 benchmark 對比,來自 DeepSeek V3.2 技術報告

      接下來,讓我們一起完整看看 DeepSeek 從 V3 到 V3.2 的演進過程中,看看每個版本改了什么,為什么改,以及怎么實現的

      內容基于 Sebastian Raschka 的技術分析,也是用了大量來自于他的插圖;當然,更多的是我自己的補充

      時間線

      去年12月,DeepSeek-V3 發布
      只用了 500 多萬美金的成本,帶來了不輸 Claude 3.5 的成績,并開源

      今年 1 月的,DeepSeek R1 發布
      這是個推理模型,對標 OpenAI 的 o1,價格只有 OpenAI 的幾十分之一

      R1V3 用的是同一個架構,區別在訓練方法


      V3/R1 的架構圖

      R1 之后,DeepSeek 沉寂了大半年

      中間他們在處理從 NVIDIA 換到華為芯片的事,據公開信息,后來又換回了 NVIDIA

      這一年也不是完全沒動靜,陸續發了 V3.1V3.2

      其中V3.2-Exp 發的benchmark 并不突出,關注度有限
      但這個版本其實是在給 V3.2 的 DSA 鋪路,讓各種推理框架和部署工具支持起來

      V3.2 前幾天正式發布,用的就是同樣的架構

      到這里,再讓我們回顧下發布圖


      DeepSeek 發布時間線,紅色是主要版本 幾個概念

      在講具體技術之前,先把幾個基礎概念說清楚

      大模型訓練的兩個階段

      預訓練
      用海量文本訓練,產出 base model(基座模型)
      base model 能續寫文本,但不太會對話,不太會按指令做事

      后訓練
      base model 基礎上繼續訓練,讓模型學會對話、遵循指令、拒絕有害請求
      后訓練通常包含 SFT(監督微調,用人工標注數據訓練)和 RL(強化學習,用獎勵信號優化)

      V3 和 R1 的關系

      DeepSeek 當下的 base modelDeepSeek-V3-Base

      DeepSeek V3、R1 都是經過后訓練的,其中

      • ? V3 走的是標準流程:預訓練 → SFT → RL

      • ? R1 有兩個版本:

        • ? R1-Zero :拿 V3 的預訓練版本(V3-Base),跳過 SFT,直接用純 RL 訓練

        • ? R1 :先用幾千條高質量數據做「冷啟動」微調,再做 RL,比 R1-Zero 更好

      推理模型 vs 普通模型

      普通模型(比如 ChatGPT 默認模式)收到問題后直接給答案

      推理模型(比如 o1、R1)會先「思考」一段,把推理過程寫出來,再給最終答案

      這個「思考」過程通常會用特殊標簽包起來,比如 ...

      用戶能看到模型在想什么,而且這種逐步推理的方式在數學、代碼、邏輯題上效果更好

      專用模型 vs 混合模型

      今年行業里出現了兩種做法:

      專用模型
      推理是推理,聊天是聊天,分開訓練成兩個模型
      用戶想做數學題就用推理模型,想閑聊就用聊天模型
      好處是每個模型在自己的領域做到最好

      混合模型
      一個模型同時具備推理能力和普通聊天能力
      用戶可以通過 prompt 或特殊 token 切換模式
      比如加上 標簽就進入推理模式,不加就是普通聊天

      好處是一個模型搞定所有場景,用起來方便


      今年推理模型和混合模型的發布時間線

      Qwen3 一開始是混合模型,用 標簽切換模式
      后來發現分開訓練效果更好,又拆成了 instruct 和 reasoning 兩個版本

      OpenAI 的 gpt-oss 是混合模型,用 system prompt 控制推理強度
      GPT-5 和 GPT-5.1 應該也是類似的處理方式

      DeepSeek 的路徑

      根據已經發布的信息,DeepSeek 的當前路徑為:

      • ? V3:base model

      • ? R1:專用推理模型(在 V3 基礎上 post-training)

      • ? V3.1、V3.2:混合模型(同時支持推理和普通聊天)

      R1 更多是研究性質,用來探索推理訓練方法
      V3.2 是面向各種場景的產品級模型

      DeepSeek 團隊可能還在做專門的 R2

      V3 的核心:MLA 機制

      現在開始講具體技術
      V3 架構有兩個重點:MoEMLA

      更為具體的介紹,可以看我之前的拆解

      MoE 簡介

      MoE 是 Mixture of Experts 的縮寫,中文叫「專家混合」,普通模型的每一層,所有參數都會參與計算

      MoE 模型的每一層有多個「專家」(就是多組參數),每次只激活其中幾個
      比如一個模型有 256 個專家,每次只用 8 個

      這樣模型參數總量可以很大(能力強),但每次計算只用一部分(效率高)

      DeepSeek V3 用的就是 MoE 架構

      MLA 是什么

      MLA 是 Multi-Head Latent Attention 的縮寫,中文叫「多頭潛在注意力」

      這是 DeepSeek 自己設計的一種注意力機制,目的是省顯存

      為什么要省顯存

      大模型推理時有個東西叫 KV Cache

      簡單說,模型生成每個新 token 時,需要用到之前所有 token 的信息

      這些信息存在 key 和 value 兩個向量里

      為了避免重復計算,通常會把這些向量緩存起來,這就是 KV Cache

      問題是,序列越長,KV Cache 越大,顯存占用越高

      長文本場景下,顯存很容易不夠用

      MLA 怎么省顯存

      正常做法是把完整的 key 和 value 向量存進 KV Cache

      MLA 的做法是:
      先把 key 和 value 壓縮到一個低維空間,存壓縮后的版本

      推理的時候再解壓回來


      MLA 原理圖,key 和 value 先壓縮再存儲

      具體流程:

      1. 1. 輸入的 key 和 value 通過一個下投影矩陣(down-projection),從高維壓縮到低維

      2. 2. 壓縮后的向量存入 KV Cache

      3. 3. 推理時,從 KV Cache 取出壓縮向量

      4. 4. 通過上投影矩陣(up-projection)還原到原始維度

      5. 5. 用還原后的向量做正常的注意力計算

      這個思路和 LoRA 類似:先降維再升維,中間存小的

      代價是多了一次矩陣乘法(還原那一步),但顯存省了

      query 也會壓縮,但只在訓練時,推理時不需要

      MLA 不是 V3 才有的,DeepSeek V2 就引入了這個機制

      R1 的核心:RLVR 訓練

      R1 和 V3 架構完全一樣,區別在訓練方法

      R1 用的是 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵的強化學習)

      更為具體的介紹,可以看我之前的拆解

      什么是強化學習訓練

      大模型的 post-training 階段通常會用強化學習

      基本思路是:

      1. 1. 給模型一個問題

      2. 2. 模型生成一個回答

      3. 3. 用某種方式給這個回答打分(reward)

      4. 4. 根據分數調整模型參數,讓高分回答更容易出現

      關鍵問題是:怎么給回答打分?

      傳統做法:RLHF

      ChatGPT 使用的便是 RLHF
      全稱:Reinforcement Learning from Human Feedback

      先收集人類對不同回答的偏好數據

      然后訓練一個 reward model,讓它模擬人類的打分

      最后用這個 reward model 給模型的回答打分

      這里有一個問題
      reward model 本身可能不準,人類標注成本也高

      RLVR 的思路

      RLVR 的想法是:
      有些任務的答案,可以被程序自動驗證

      數學題有標準答案,代碼能跑通就是對的

      這類任務不需要人工標注,直接用程序判斷對錯


      可驗證任務的例子

      比如模型做一道數學題:

      • ? 如果最終答案和標準答案一致,reward = 1

      • ? 如果不一致,reward = 0

      不需要 reward model,不需要人工標注

      GRPO 算法

      具體的強化學習算法,R1 用的是 GRPO
      全稱:Group Relative Policy Optimization

      這是 PPO 的簡化版


      RLHF、GRPO、RLVR 的對比

      三種方法的區別:

      • ? 傳統 RLHF + PPO :需要一個 reward model(根據人類偏好訓練)和一個 critic model(估計價值的輔助模型)

      • ? GRPO :去掉了 critic model,只保留 reward model,簡化了訓練流程

      • ? RLVR + GRPO :連 reward model 也不要了,直接用程序驗證(計算器驗證數學答案、編譯器驗證代碼)

      R1 的 reward 設計

      R1 用了三種 reward:

      • ? format reward :檢查答案格式是否正確(比如推理過程是否用了指定的標簽)

      • ? language consistency reward :防止模型在回答過程中切換語言(比如問題是中文,回答一會中文一會英文)

      • ? verifier reward :最核心的,數學或代碼答案是否正確

      V3.1:成為混合模型

      V3.1 變成了混合模型,用戶可以通過 prompt template 切換推理模式和普通聊天模式

      但這里的架構沒變,以及 V3.1 基于 DeepSeek V3.1-Base,后者在 V3 基礎上額外訓練了 840B tokens

      V3.1 的具體發布,可以看這里:

      R1-0528 版本升級

      R1-0528 是 R1 的小版本升級,架構和 V3/R1 完全一樣

      改進來自 post-training pipeline 的優化

      性能追上了當時的 OpenAI o3 和 Gemini 2.5 Pro

      具體怎么做的沒有詳細披露,推測是在推理時使用了更多計算資源(讓模型「思考」更長時間)

      V3.2-Exp:DSA 稀疏注意力

      V3.2-Exp 是今年 9 月發的,架構上有實質變化

      核心創新是 DSA(DeepSeek Sparse Attention,DeepSeek 稀疏注意力)

      問題:標準注意力太慢

      標準的 causal attention(因果注意力),當前 token 需要關注所有之前的 token

      計算復雜度是 O(L2),L 是序列長度

      意思是:
      序列長度翻倍,計算量變成 4 倍

      長文本場景下,這個計算量非常大

      一種解決方案:Sliding Window Attention

      Sliding Window Attention(滑動窗口注意力)是一種常見的優化方法

      當前 token 不關注所有之前的 token,只關注最近的 N 個

      比如 N=4096,那每個 token 只關注前面 4096 個 token


      Sliding window attention,只關注固定窗口

      Gemma 3 和 Olmo 3 用的是這個方案

      優點是簡單,復雜度從 O(L2) 降到 O(L×N)

      缺點是窗口大小固定,可能漏掉重要信息

      DSA 的思路

      DSA 不用固定窗口,讓模型自己學習應該關注哪些 token

      每個 token 只關注之前的一部分 token,但這個「一部分」是模型學出來的,不是固定的


      DSA,模型自己選擇要關注哪些 token

      看上圖,關注的 token 位置不是連續的,是「跳著」選的

      DSA 怎么實現

      DSA 有兩個組件:Lightning IndexerToken Selector

      Lightning Indexer:計算相關性分數

      對每個新的 query token,計算它和之前所有 token 的相關性

      用的是 MLA 里壓縮后的向量(前面講過,MLA 會把 key 和 value 壓縮存儲),做點積然后過 ReLU

      相關性分數的計算公式:


      DSA 相關性分數公式

      公式里的符號:

      • ? w:學習到的每頭權重系數,決定每個 indexer head 對最終分數的貢獻

      • ? q:query 向量

      • ? k:key 向量

      • ? t:當前 token 位置

      • ? s:之前的 token 位置(0 ≤ s < t)

      • ? j:indexer head 的索引(DSA 有多個 head,類似多頭注意力)

      indexer 只處理 query,不處理 key

      因為 key 已經壓縮存在 KV Cache 里了,不需要再算

      ReLU 函數會把負值變成 0,但因為有多個 head 的求和,最終分數通常不會是 0

      真正的稀疏性來自下一步的 Token Selector

      Token Selector:選擇 top-k

      根據 Lightning Indexer 算出的分數,選分數最高的 k 個 token

      其他 token 被 mask 掉,不參與注意力計算

      k 在 DeepSeek 公開的代碼里設的是 2048


      DSA 的完整流程 DSA 的效果

      復雜度從 O(L2) 降到 O(L×k)

      k 是選擇的 token 數量(比如 2048),遠小于 L(序列長度可能是幾萬甚至幾十萬)

      V3.2-Exp 的目標不是提升性能,是在保持性能的前提下提升效率

      DeepSeekMath V2:自驗證和自改進

      V3.2 發布前 4 天(11 月 27 日,美國感恩節),DeepSeek 發了 DeepSeekMath V2

      這是一個數學專用模型,基于 V3.2-Exp-Base

      在數學競賽上達到了金牌水平

      更重要的是,它驗證了兩個關鍵技術:Self-Verification(自驗證)和 Self-Refinement(自改進)

      這兩個技術后來用到了 V3.2 里

      RLVR 的問題

      前面講過,RLVR 用程序驗證答案對不對

      但 DeepSeek 團隊指出了兩個問題:

      問題一:correct answers don't guarantee correct reasoning

      正確答案不等于正確推理

      模型可能靠錯誤的邏輯或者運氣得到正確答案

      比如做一道數學題,中間步驟全是錯的,但最后答案碰巧對了

      按 RLVR 的邏輯,這個回答會得到正向 reward

      模型會學到錯誤的推理方式

      問題二:有些任務沒法只看最終答案

      比如定理證明,要求嚴格的逐步推導

      你不能只驗證結論對不對,中間每一步都要對

      最終結論對了,但中間步驟錯了,這個證明就是無效的

      自驗證怎么做

      為了解決上面的問題,DeepSeek 訓練了三個模型:

      LLM 1:證明生成器(Proof Generator)

      生成數學證明

      LLM 2:證明驗證器(Proof Verifier)

      檢查證明是否正確

      不只看最終答案,會檢查每一步推理

      用一個評分標準打分:

      • ? 1 分:完整嚴謹,所有邏輯步驟都有清晰理由

      • ? 0.5 分:整體邏輯正確,但有小錯誤或遺漏細節

      • ? 0 分:有根本性邏輯錯誤或關鍵缺失

      證明生成器和驗證器的結構

      LLM 3:元驗證器(Meta-Verifier)

      驗證「驗證器」是否正確

      驗證器可能會產生幻覺,錯誤地指出不存在的問題

      元驗證器就是用來檢查驗證器的


      Meta-verifier 檢查驗證器是否正確

      這個設置有點 GAN(生成對抗網絡)的意思:

      驗證器推動生成器進步,生成器生成更好的證明,又推動驗證器進步

      訓練細節

      證明驗證器(LLM 2)的訓練:

      • ? 基于 DeepSeek V3.2-Exp-SFT(在 V3.2-Exp 上做了監督微調的版本)

      • ? 用強化學習訓練

      • ? 兩種 reward:format reward(格式正確)+ score reward(預測分數和人工標注分數的接近程度)

      元驗證器(LLM 3)的訓練方式類似

      效果

      使用 meta-verifier 后,驗證器的證明分析質量從 0.85 提升到 0.96

      同時保持了證明分數預測的準確率

      meta-verifier 只在訓練時用,推理時不需要

      自改進怎么做

      Self-Refinement(自改進)是一種推理時的技術

      讓模型根據驗證結果修改自己的答案

      傳統 Self-Refinement

      用同一個 LLM 做三件事:

      1. 1. 生成初始答案

      2. 2. 評估這個答案有沒有問題

      3. 3. 根據評估結果改進答案

      傳統 self-refinement,同一個模型生成、評估、改進

      DeepSeek 發現的問題

      技術報告原文:

      when prompted to both generate and analyze its own proof in one shot, the generator tends to claim correctness even when the external verifier easily identify flaws.

      用同一個模型既生成又驗證,模型會自己騙自己

      讓模型評估自己生成的東西,它傾向于說「沒問題」

      但如果用外部驗證器,很容易發現問題

      看起來應該用兩個模型

      一個生成,一個驗證


      用獨立驗證器的 self-refinement

      但實際做法不同

      技術報告說:

      All experiments used a single model, our final proof generator, which performs both proof generation and verification.

      最終版本還是用了同一個模型

      關鍵在于:訓練時用了獨立的驗證器和元驗證器來「教」這個模型

      模型學會了用同樣的評分標準評估自己的輸出

      和 naive 的單模型 self-refinement 的區別是:這個模型被更強的驗證器「教過」了

      推理時用 2-in-1 的模型,省資源

      迭代次數

      self-refinement 可以做多輪

      生成初始答案 → 評估 → 改進 → 再評估 → 再改進...

      DeepSeek 測到了 8 輪,效果還沒飽和


      迭代次數和準確率的關系

      更多迭代 = 更高準確率 = 更貴

      這是推理時計算量和效果的 trade-off

      V3.2:完整拆解

      先放個 DeepSeek V3.2 的跑分


      DeepSeek V3.2

      我之前寫過一個技術報告拆解:

      架構

      和 V3.2-Exp 完全一樣:MoE + MLA + DSA

      技術報告原文:

      DeepSeek-V3.2 uses exactly the same architecture as DeepSeek-V3.2-Exp
      V3.2 架構

      訓練目標:

      • ? 數學達到金牌水平

      • ? 支持 tool-use(讓模型學會調用外部工具,比如搜索引擎、計算器、代碼解釋器)

      • ? 代碼和 agent 任務表現好

      同時保持計算效率

      DSA 的效果
      DSA 帶來的推理成本節省

      這里,用了 H800

      RL 訓練的變化

      這個是 R1 的 reward 設計

      • ? format reward:格式正確

      • ? language consistency reward:語言一致

      • ? verifier reward:答案正確

      這個是 V3.2 的 reward 設計:

      • ? rule-based outcome reward:基于規則的結果 reward

      • ? length penalty:懲罰過長的輸出(控制 agent 任務的輸出長度)

      • ? language consistency reward:語言一致

      對于通用任務:

      • ? generative reward model:用另一個 LLM 打分,每個 prompt 有自己的評分標準(rubric)

      變化總結:

      • ? 去掉了 format reward

      • ? 加了 length penalty

      • ? 通用任務用 LLM-as-a-judge(因為通用任務沒法用程序驗證)

      數學領域用的是 DeepSeekMath V2 的數據和方法(前面講的自驗證、自改進)

      所以:V3.2 不再是純 RLVR
      應該是:RLVR + LLM-as-a-judge

      GRPO 的改進

      過去幾個月,業內有很多 GRPO 的改進版本

      比較知名的是 DAPO 和 Dr. GRPO

      DAPO 的主要改進

      • ? 非對稱 clipping:上下界不一樣

      • ? 動態采樣:保持 batch size

      • ? token-level loss:用 token 數量而不是樣本數量歸一化 loss

      • ? 顯式的基于長度的 reward shaping

      Dr. GRPO 的主要改進

      • ? 去掉 GRPO 目標函數里的長度歸一化

      • ? 去掉標準差歸一化

      這兩個改進都認為原版 GRPO 有 bias,會偏向過長的錯誤答案,或者過度加權太難/太簡單的問題

      Olmo 3 采用的改進(和 DAPO/Dr. GRPO 類似):

      • ? Zero Gradient Signal Filtering:去掉 reward 全相同的樣本組(這種樣本提供不了梯度信號)

      • ? Active Sampling:維持 batch size

      • ? Token-level loss:用 token 數量歸一化 loss

      • ? No KL Loss:去掉 KL 損失(KL 損失是為了防止模型偏離原始模型太遠,但很多團隊發現去掉效果更好)

      • ? Clip Higher:上界 clipping 比下界稍高

      • ? Truncated Importance Sampling:調整 log probability 差異

      • ? No standard deviation normalization:計算 advantage 時不除以標準差

      V3.2 的改進比較保守,更接近原版 GRPO:

      Domain-specific KL strengths
      不同領域用不同的 KL 權重
      數學領域可以很弱甚至為 0
      但不是完全去掉 KL,而是把它變成超參數

      Unbiased KL estimate
      用 importance ratio 重新加權 KL term
      讓 KL 梯度真正匹配「樣本來自舊策略」這個事實

      Off-policy sequence masking
      跨多個梯度步驟重用 rollout 數據時
      測量當前策略和生成這些數據的舊策略的偏離程度
      丟棄那些 advantage 為負且偏離太遠的序列
      防止模型從過時或偏離的數據中學習

      Keep routing for MoE
      記錄 rollout 時激活了哪些 expert
      訓練時強制用同樣的 routing pattern
      讓梯度更新作用于真正產生了采樣答案的 expert

      Keep sampling mask for top-p/top-k
      如果 rollout 用了 top-p 或 top-k 采樣
      存儲 selection mask
      計算 GRPO loss 和 KL 時重新應用這個 mask
      讓訓練時的 action space 和采樣時一致

      Keep original GRPO advantage normalization
      Dr. GRPO 認為 GRPO 的長度歸一化和標準差歸一化有問題
      V3.2 保留了原版 GRPO 的歸一化,通過上面的其他修改來處理問題

      V3.2-Speciale:極端推理模式

      V3.2 還有一個 Speciale 版本
      針對推理場景的極端優化

      訓練差異

      • ? RL 階段只用推理數據(不用通用聊天數據)

      • ? 減弱 length penalty,允許更長的輸出

      這個是效果


      Speciale 版本的 token 數量和準確率

      更長的輸出 -> 更多推理步驟 -> 更高準確率 -> 更貴

      這是個取舍

      最后

      總結一下,從 V3 到 V3.2 的技術演進:

      V3MoE + MLA
      MoE 讓模型參數大但計算量小
      MLA 通過壓縮 KV Cache 省顯存

      R1RLVR + GRPO
      用可驗證的 reward(數學答案對不對、代碼能不能跑)訓練推理能力
      GRPO 是 PPO 的簡化版

      V3.1變成混合模型
      支持推理和普通聊天切換

      V3.2-Exp加入 DSA 稀疏注意力
      不用固定窗口,讓模型學習應該關注哪些 token
      復雜度從 O(L2) 降到 O(L×k)

      DeepSeekMath V2自驗證 + 自改進
      訓練時用獨立驗證器檢查推理過程
      推理時用同一個模型,因為已經學會了驗證能力

      V3.2整合所有技術
      架構:MoE + MLA + DSA
      訓練:RLVR + LLM-as-a-judge 混合
      GRPO 做了穩定性改進
      支持 Thinking in Tool-Use 這樣的工程內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網友吵翻了

      甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網友吵翻了

      紅星新聞
      2025-12-20 20:12:39
      從電視劇《老舅》讓人感覺到中國影視圈是令人絕望的

      從電視劇《老舅》讓人感覺到中國影視圈是令人絕望的

      西域刀客
      2025-12-20 19:33:03
      為什么感覺美國在走向衰落?那是因為你是中國人

      為什么感覺美國在走向衰落?那是因為你是中國人

      扶蘇聊歷史
      2025-12-19 10:02:54
      73歲的普京為何自曝戀情?看懂俄羅斯最大的困境是啥,你也就懂了

      73歲的普京為何自曝戀情?看懂俄羅斯最大的困境是啥,你也就懂了

      小濤叨叨
      2025-12-21 13:55:48
      底層無貴人,社交無意義

      底層無貴人,社交無意義

      詩詞中國
      2025-12-19 20:34:22
      龍賽羅:梅西經歷的慘敗太多了,C羅5年贏了4個歐冠歷史第一

      龍賽羅:梅西經歷的慘敗太多了,C羅5年贏了4個歐冠歷史第一

      懂球帝
      2025-12-21 08:53:15
      小曲線按照姐姐整容了?馬天宇踩李明德?倪妮糊成路人甲?宋威龍翻身了?姨太問答

      小曲線按照姐姐整容了?馬天宇踩李明德?倪妮糊成路人甲?宋威龍翻身了?姨太問答

      毒舌扒姨太
      2025-12-20 22:26:42
      知名主持王小騫崩潰大哭!自稱女兒患上“正食癥”,心率高達120

      知名主持王小騫崩潰大哭!自稱女兒患上“正食癥”,心率高達120

      攬星河的筆記
      2025-12-20 23:16:35
      壽命與起夜次數有關?研究發現:壽命長的人,每晚起夜在這個次數

      壽命與起夜次數有關?研究發現:壽命長的人,每晚起夜在這個次數

      九天攬月1
      2025-12-21 18:57:31
      丁元英:男人最掉價的行為,不是抽煙喝酒、兜里沒錢,而是這3種

      丁元英:男人最掉價的行為,不是抽煙喝酒、兜里沒錢,而是這3種

      富書
      2025-12-21 10:49:50
      細思極恐!一份90年代報紙的報道,又暴露出南博的“習慣性借出”

      細思極恐!一份90年代報紙的報道,又暴露出南博的“習慣性借出”

      火山詩話
      2025-12-20 06:43:20
      年底了,警惕這40家有st風險的公司,有的已st,有的可能被st!

      年底了,警惕這40家有st風險的公司,有的已st,有的可能被st!

      夜深愛雜談
      2025-12-21 16:34:05
      沖MVP?郭士強無視之人成廣東新核,球迷:胡明軒該與他工資對換

      沖MVP?郭士強無視之人成廣東新核,球迷:胡明軒該與他工資對換

      弄月公子
      2025-12-21 21:50:42
      中國的偉大發明:社會主義市場經濟

      中國的偉大發明:社會主義市場經濟

      中國經濟學人
      2025-11-24 16:53:58
      尼克松訪華時留意到 “打倒美帝國主義” 的標語,毛主席用風趣的話語化解尷尬,尼克松聽后爽朗大笑

      尼克松訪華時留意到 “打倒美帝國主義” 的標語,毛主席用風趣的話語化解尷尬,尼克松聽后爽朗大笑

      清風鑒史
      2025-12-20 18:40:22
      美國航母已就位,委內瑞拉電話打到北京,救不救?王毅斬釘截鐵

      美國航母已就位,委內瑞拉電話打到北京,救不救?王毅斬釘截鐵

      博覽歷史
      2025-12-19 19:03:53
      民進黨支持者竟造謠“嫌犯是大陸籍” 蔣萬安駁斥

      民進黨支持者竟造謠“嫌犯是大陸籍” 蔣萬安駁斥

      看看新聞Knews
      2025-12-21 00:07:04
      拼多多1399元茅臺被質疑,山姆1900元茅臺熱銷

      拼多多1399元茅臺被質疑,山姆1900元茅臺熱銷

      暖心萌阿菇涼
      2025-12-21 12:44:42
      遺憾!李盈瑩被解約,三方聲明公布原因,天津女排需要負責

      遺憾!李盈瑩被解約,三方聲明公布原因,天津女排需要負責

      跑者排球視角
      2025-12-21 21:20:12
      北斗、GPS信號受精準干擾壓制!導航集體失靈事件原因公布!

      北斗、GPS信號受精準干擾壓制!導航集體失靈事件原因公布!

      荊楚寰宇文樞
      2025-12-20 22:07:33
      2025-12-21 23:24:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數 12關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      美國外交系統現重大調整 約有24名駐外大使被要求離任

      頭條要聞

      美國外交系統現重大調整 約有24名駐外大使被要求離任

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      房產
      教育
      游戲
      手機
      公開課

      房產要聞

      中交·藍色港灣一周年暨藍調生活沙龍圓滿舉行

      教育要聞

      遇到油鹽不進的孩子,該怎么辦?

      冠以戰神之名的坦克,能否制霸戰場?坦克世界2.1.1版本ARES將至

      手機要聞

      曝折疊屏iPhone嘗試 UFG 玻璃,明年九月發

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 被灌满精子的少妇视频| 亚洲色欲在线播放一区二区三区 | 亚洲色最新高清AV网站| 免费观看性欧美大片无片| 海林市| 天堂资源中文| 无码人妻丰满熟妇奶水区码 | 黄色影站| 久久精品国产久精国产| 高潮喷水抽搐无码免费| 伦理片免费完整片在线观看| 国产人妻人伦精品1国产丝袜| 成人无码AV片| 亚洲国产成人精品女人久久久| 国产一区二区三区内射高清| 国产黄拍| 国产a在视频线精品视频下载 | 长乐市| 上海集散中心旅游官网订票| 99久久婷婷国产综合精品| 亚洲2017天堂色无码| 人妻精品成人| 欧美精品XXX| 久久亚洲人成网站| 国产综合无码一区二区色蜜蜜| 影音先锋男人站| aⅴ天堂αv国产| 91福利姬| 大香蕉一区| 电影在线观看+伦理片| 人人妻人人澡人人爽精品日本| 亚洲欭美日韩颜射在线二| 亚洲中文字幕无码中文字在线 | 超碰2025| 国产精品久久久久鬼色| 亚洲av无码专区在线厂| 国产成熟人妻换╳╳╳╳| 久久影院综合精品| av天堂中文字幕| 久久久中文| 国产在线熟女|