<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      挑戰(zhàn)GRPO,英偉達(dá)提出GDPO,專攻多獎(jiǎng)勵(lì)優(yōu)化

      0
      分享至



      機(jī)器之心編輯部

      GRPO 是促使 DeepSeek-R1 成功的基礎(chǔ)技術(shù)之一。最近一兩年,GRPO 及其變體因其高效性和簡潔性,已成為業(yè)內(nèi)廣泛采用的強(qiáng)化學(xué)習(xí)算法。

      但隨著語言模型能力的不斷提升,用戶對(duì)它們的期待也在發(fā)生變化:不僅要回答正確,還要在各種不同場景下表現(xiàn)出符合多樣化人類偏好的行為。為此,強(qiáng)化學(xué)習(xí)訓(xùn)練流程開始引入多種獎(jiǎng)勵(lì)信號(hào),每一種獎(jiǎng)勵(lì)對(duì)應(yīng)一種不同的偏好,用來共同引導(dǎo)模型走向理想的行為模式。

      但英偉達(dá)的一篇新論文卻指出,在進(jìn)行多獎(jiǎng)勵(lì)優(yōu)化時(shí),GRPO 可能不是最佳選擇。



      具體來說,在多獎(jiǎng)勵(lì)優(yōu)化場景中,GRPO 會(huì)將不同的獎(jiǎng)勵(lì)組合歸一化為相同的優(yōu)勢值。這會(huì)削弱訓(xùn)練信號(hào),降低獎(jiǎng)勵(lì)水平。

      為了解決這一問題,他們提出了一種新的策略優(yōu)化方法 —— 組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化(GDPO)。該方法通過對(duì)各個(gè)獎(jiǎng)勵(lì)信號(hào)分別進(jìn)行歸一化,避免了不同獎(jiǎng)勵(lì)之間被混合「抹平」,從而更真實(shí)地保留它們的相對(duì)差異,使多獎(jiǎng)勵(lì)優(yōu)化更加準(zhǔn)確,同時(shí)顯著提升了訓(xùn)練過程的穩(wěn)定性。



      • 論文標(biāo)題:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
      • 論文鏈接:https://arxiv.org/pdf/2601.05242
      • 代碼鏈接:https://github.com/NVlabs/GDPO
      • 項(xiàng)目鏈接:https://nvlabs.github.io/GDPO/
      • HuggingFace 鏈接:https://huggingface.co/papers/2601.05242

      在工具調(diào)用、數(shù)學(xué)推理和代碼推理這三類任務(wù)上,論文將 GDPO 與 GRPO 進(jìn)行了對(duì)比評(píng)測,既考察了正確性指標(biāo)(如準(zhǔn)確率、缺陷比例),也評(píng)估了對(duì)約束條件的遵守情況(如格式、長度)。結(jié)果顯示,在所有設(shè)置中,GDPO 都穩(wěn)定地優(yōu)于 GRPO,驗(yàn)證了其在多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化中的有效性和良好泛化能力。



      GRPO 有什么問題?

      目前,GRPO 主要被用于優(yōu)化單一目標(biāo)的獎(jiǎng)勵(lì),通常聚焦于準(zhǔn)確率。然而,隨著模型能力的持續(xù)提升,近期研究越來越傾向于同時(shí)優(yōu)化多個(gè)獎(jiǎng)勵(lì) —— 例如在準(zhǔn)確率之外,還考慮響應(yīng)長度限制和格式質(zhì)量,以更好地與人類偏好保持一致。現(xiàn)有的多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)方法通常采用一種直接的策略:將所有獎(jiǎng)勵(lì)分量相加,然后直接應(yīng)用 GRPO 進(jìn)行優(yōu)化。

      具體而言,對(duì)于給定的問答對(duì),行為策略會(huì)為每個(gè)問題采樣一組響應(yīng)。假設(shè)存在 n 個(gè)優(yōu)化目標(biāo),則第 j 個(gè)響應(yīng)的聚合獎(jiǎng)勵(lì)被計(jì)算為各目標(biāo)獎(jiǎng)勵(lì)之和。隨后,通過對(duì)群組級(jí)別的聚合獎(jiǎng)勵(lì)進(jìn)行歸一化,得到第 j 個(gè)響應(yīng)的群組相對(duì)優(yōu)勢。

      作者首先重新審視了這種將 GRPO 直接應(yīng)用于多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化的常見做法,并發(fā)現(xiàn)了一個(gè)此前被忽視的問題:GRPO 本質(zhì)上會(huì)壓縮獎(jiǎng)勵(lì)信號(hào),導(dǎo)致優(yōu)勢估計(jì)中的信息損失。

      為了說明這一點(diǎn),他們從一個(gè)簡單的訓(xùn)練場景開始,然后推廣到更一般的情況。假設(shè)為每個(gè)問題生成兩個(gè) rollout 來計(jì)算群組相對(duì)優(yōu)勢,且任務(wù)涉及兩個(gè)二值獎(jiǎng)勵(lì)(取值為 0 或 1)。因此,每個(gè) rollout 的總獎(jiǎng)勵(lì)可取 {0, 1, 2} 中的值。

      如圖 2 所示,作者列舉了一個(gè)群組內(nèi)所有可能的 rollout 獎(jiǎng)勵(lì)組合。盡管在忽略順序的情況下存在六種不同的組合,但在應(yīng)用群組級(jí)獎(jiǎng)勵(lì)歸一化后,只會(huì)產(chǎn)生兩個(gè)唯一的優(yōu)勢組。具體來說,(0,1)、(0,2) 和 (1,2) 會(huì)產(chǎn)生相同的歸一化優(yōu)勢值 (-0.7071, 0.7071),而 (0,0)、(1,1) 和 (2,2) 則全部歸一化為 (0, 0)。



      這揭示了 GRPO 優(yōu)勢計(jì)算在多獎(jiǎng)勵(lì)優(yōu)化中的一個(gè)根本性局限:它過度壓縮了豐富的群組級(jí)獎(jiǎng)勵(lì)信號(hào)。

      從直覺上講,(0,2) 應(yīng)該比 (0,1) 產(chǎn)生更強(qiáng)的學(xué)習(xí)信號(hào),因?yàn)榭偑?jiǎng)勵(lì)為 2 意味著同時(shí)滿足了兩個(gè)獎(jiǎng)勵(lì)條件,而獎(jiǎng)勵(lì)為 1 僅對(duì)應(yīng)達(dá)成一個(gè)。因此,當(dāng)另一個(gè) rollout 只獲得零獎(jiǎng)勵(lì)時(shí),(0,2) 應(yīng)該產(chǎn)生比 (0,1) 更大的相對(duì)優(yōu)勢。這種局限性還可能因優(yōu)勢估計(jì)不準(zhǔn)確而引入訓(xùn)練不穩(wěn)定的風(fēng)險(xiǎn)。如圖 5 所示,當(dāng)使用 GRPO 訓(xùn)練時(shí),正確率獎(jiǎng)勵(lì)分?jǐn)?shù)在約 400 個(gè)訓(xùn)練步后開始下降,表明出現(xiàn)了部分訓(xùn)練坍塌。



      近期,Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一個(gè)變體,移除了標(biāo)準(zhǔn)差歸一化項(xiàng),使得優(yōu)勢直接等于原始獎(jiǎng)勵(lì)減去均值。盡管這些工作引入此修改是為了緩解問題級(jí)別的難度偏差,但乍看之下,這一改變似乎也能解決上述問題。具體而言,移除標(biāo)準(zhǔn)差歸一化確實(shí)在一定程度上緩解了問題:(0,1) 和 (0,2) 現(xiàn)在分別產(chǎn)生 (-0.5, 0.5) 和 (-1.0, 1.0) 的不同優(yōu)勢值。

      然而,當(dāng)將此設(shè)置推廣到更多 rollout(保持獎(jiǎng)勵(lì)數(shù)量固定)時(shí),如圖 3 所示,作者觀察到這種修復(fù)方法相比標(biāo)準(zhǔn) GRPO 僅略微增加了不同優(yōu)勢組的數(shù)量。在固定 rollout 數(shù)量為 4、逐步增加獎(jiǎng)勵(lì)數(shù)量的設(shè)置下,也觀察到類似趨勢 —— 不同優(yōu)勢組的數(shù)量僅有適度改善。作者還在第 4.1.1 節(jié)中實(shí)證檢驗(yàn)了移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果,發(fā)現(xiàn)這一修改并未帶來更好的收斂性或更優(yōu)的下游評(píng)估表現(xiàn)。



      GDPO是怎么做的?

      為了克服上述挑戰(zhàn),作者提出了群組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化(GDPO),這是一種旨在更好地保持不同獎(jiǎng)勵(lì)組合之間區(qū)分度、并更準(zhǔn)確地在最終優(yōu)勢中捕捉其相對(duì)差異的方法。

      與 GRPO 直接對(duì)聚合獎(jiǎng)勵(lì)和進(jìn)行群組級(jí)歸一化不同,GDPO 通過在聚合之前對(duì)每個(gè)獎(jiǎng)勵(lì)分別進(jìn)行群組級(jí)歸一化來解耦這一過程。具體而言,GDPO 不是先將所有 n 個(gè)獎(jiǎng)勵(lì)相加再進(jìn)行群組級(jí)歸一化得到總優(yōu)勢,而是為第 i 個(gè)問題的第 j 個(gè) rollout 的每個(gè)獎(jiǎng)勵(lì)分別計(jì)算歸一化優(yōu)勢,如下所示:



      用于策略更新的總體優(yōu)勢通過以下方式獲得:首先將所有目標(biāo)的歸一化優(yōu)勢相加,然后對(duì)多獎(jiǎng)勵(lì)優(yōu)勢之和應(yīng)用批次級(jí)優(yōu)勢歸一化。這確保了最終優(yōu)勢的數(shù)值范圍保持穩(wěn)定,不會(huì)隨著額外獎(jiǎng)勵(lì)的引入而增長。從實(shí)證角度,作者還發(fā)現(xiàn)這一歸一化步驟能夠改善訓(xùn)練穩(wěn)定性。

      通過分離每個(gè)獎(jiǎng)勵(lì)的歸一化,GDPO 緩解了 GRPO 優(yōu)勢估計(jì)中存在的信息損失問題,如圖 2 所示。從圖中可以看到,當(dāng)采用 GRPO 時(shí),不同的獎(jiǎng)勵(lì)組合(如 (0,2) 和 (0,1))會(huì)導(dǎo)致相同的歸一化優(yōu)勢,從而掩蓋了它們之間的細(xì)微差異。相比之下,GDPO 通過為每種組合分配不同的優(yōu)勢值來保留這些細(xì)粒度差異。

      作者通過在兩種實(shí)驗(yàn)設(shè)置下比較 GDPO、GRPO 和「無標(biāo)準(zhǔn)差 GRPO」產(chǎn)生的不同優(yōu)勢組數(shù)量,進(jìn)一步量化了 GDPO 的有效性,如圖 3 所示。在兩個(gè)獎(jiǎng)勵(lì)、rollout 數(shù)量變化的場景中,GDPO 始終產(chǎn)生顯著更多的不同優(yōu)勢組,且隨著 rollout 數(shù)量增加,差距不斷擴(kuò)大。另一方面,當(dāng)固定 rollout 數(shù)量為 4 并增加獎(jiǎng)勵(lì)數(shù)量時(shí),也呈現(xiàn)出類似的模式 ——GDPO 隨著目標(biāo)數(shù)量增長表現(xiàn)出逐步增大的優(yōu)勢粒度。這表明論文所提出的解耦歸一化方法在所有強(qiáng)化學(xué)習(xí)設(shè)置中都能有效增加不同優(yōu)勢組的數(shù)量,從而實(shí)現(xiàn)更精確的優(yōu)勢估計(jì)。

      除了這些理論改進(jìn)之外,作者還觀察到使用 GDPO 能夠持續(xù)產(chǎn)生更穩(wěn)定的訓(xùn)練曲線和更好的收斂性。例如,在工具調(diào)用任務(wù)中,GDPO 在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上都實(shí)現(xiàn)了更好的收斂,如圖 4(見實(shí)驗(yàn)部分)所示。GDPO 還消除了 GRPO 在數(shù)學(xué)推理任務(wù)中觀察到的訓(xùn)練坍塌問題,如圖 5(見實(shí)驗(yàn)部分)所示,使用 GDPO 訓(xùn)練的模型在整個(gè)訓(xùn)練過程中持續(xù)改善正確率獎(jiǎng)勵(lì)分?jǐn)?shù)。實(shí)驗(yàn)部分的更多實(shí)證結(jié)果進(jìn)一步證實(shí)了 GDPO 在廣泛的下游任務(wù)上實(shí)現(xiàn)更強(qiáng)目標(biāo)偏好對(duì)齊的能力。

      到目前為止,論文假設(shè)所有目標(biāo)具有同等重要性。然而在實(shí)際應(yīng)用中,這一假設(shè)并不總是成立。在論文中,作者系統(tǒng)地概述了如何調(diào)整與不同目標(biāo)相關(guān)的獎(jiǎng)勵(lì)權(quán)重,或修改獎(jiǎng)勵(lì)函數(shù)以強(qiáng)制優(yōu)先考慮更重要的目標(biāo)。論文還討論了當(dāng)?shù)讓营?jiǎng)勵(lì)在難度上存在顯著差異時(shí),這兩種設(shè)計(jì)選擇的不同行為表現(xiàn)。具體內(nèi)容可參見論文第三章。

      實(shí)驗(yàn)結(jié)果如何?

      在實(shí)驗(yàn)部分,作者首先在工具調(diào)用任務(wù)上評(píng)估 GDPO 與 GRPO 的效果,然后在數(shù)學(xué)推理任務(wù)上進(jìn)行比較,最后將優(yōu)化獎(jiǎng)勵(lì)數(shù)量擴(kuò)展到三個(gè),在代碼推理任務(wù)上進(jìn)行對(duì)比。

      工具調(diào)用

      從圖 4 的訓(xùn)練曲線可以看到,GDPO 在所有運(yùn)行中都能在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上收斂到更高的值。盡管 GDPO 在格式獎(jiǎng)勵(lì)收斂所需步數(shù)上表現(xiàn)出更大的方差,但最終達(dá)到的格式合規(guī)性優(yōu)于 GRPO。對(duì)于正確率獎(jiǎng)勵(lì),GDPO 在早期階段表現(xiàn)出更快的改善,并在后期達(dá)到比 GRPO 基線更高的獎(jiǎng)勵(lì)分?jǐn)?shù)。



      在表 1 的 BFCL-v3 評(píng)估中,GDPO 也持續(xù)提升了平均工具調(diào)用準(zhǔn)確率和格式正確率。對(duì)于 Qwen2.5-Instruct-1.5B 的訓(xùn)練,GDPO 在 Live/non-Live 任務(wù)上分別取得了近 5% 和 3% 的提升,在整體平均準(zhǔn)確率上提高了約 2.7%,在正確格式比例上提高了 4% 以上。3B 模型上也觀察到類似的改進(jìn)。



      關(guān)于移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果:從圖 4 可以觀察到,雖然「無標(biāo)準(zhǔn)差 GRPO」收斂到與 GDPO 相似且高于標(biāo)準(zhǔn) GRPO 的正確率獎(jiǎng)勵(lì),但它在格式獎(jiǎng)勵(lì)上完全失敗。這導(dǎo)致在 BFCL-v3 上的正確格式比例為 0%(見表 2),表明模型未能學(xué)習(xí)所需的輸出結(jié)構(gòu)。這說明簡單地移除標(biāo)準(zhǔn)差歸一化項(xiàng)以增加優(yōu)勢多樣性可能會(huì)給訓(xùn)練引入不穩(wěn)定性。



      數(shù)學(xué)推理

      從圖 5 中 DeepSeek-R1-1.5B 的訓(xùn)練曲線可以看到,模型傾向于最大化更容易的獎(jiǎng)勵(lì)。在本例中,長度獎(jiǎng)勵(lì)更容易優(yōu)化,GRPO 和 GDPO 都在大約前 100 個(gè)訓(xùn)練步內(nèi)達(dá)到滿分長度獎(jiǎng)勵(lì)。長度獎(jiǎng)勵(lì)的快速上升伴隨著正確率獎(jiǎng)勵(lì)的早期下降,表明這兩個(gè)獎(jiǎng)勵(lì)存在競爭關(guān)系。



      然而,從正確率獎(jiǎng)勵(lì)軌跡來看,GDPO 比 GRPO 更有效地恢復(fù)了正確率獎(jiǎng)勵(lì)。作者還觀察到 GRPO 訓(xùn)練在 400 步后開始不穩(wěn)定,正確率獎(jiǎng)勵(lì)分?jǐn)?shù)逐漸下降,而 GDPO 則繼續(xù)改善。此外,盡管兩者都保持了近乎完美的長度分?jǐn)?shù),但 GRPO 的最大響應(yīng)長度在約 400 步后開始急劇增加,而 GDPO 的最大響應(yīng)長度則持續(xù)下降。圖 9 和圖 10 中 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的訓(xùn)練曲線也顯示出類似的觀察結(jié)果。



      表 3 的基準(zhǔn)測試結(jié)果表明,GDPO 訓(xùn)練的模型不僅在推理效率上比原始模型取得顯著提升(AIME 上超長比例降低高達(dá) 80%),而且在大多數(shù)任務(wù)上也取得了更高的準(zhǔn)確率。對(duì)于 DeepSeek-R1-1.5B,GDPO 在所有基準(zhǔn)測試上都優(yōu)于 GRPO,在 MATH、AIME 和 Olympiad 上分別取得了 2.6%/6.7%/2.3% 的準(zhǔn)確率提升。DeepSeek-R1-7B 和 Qwen3-4B-Instruct 也呈現(xiàn)類似趨勢,GDPO 在更具挑戰(zhàn)性的 AIME 基準(zhǔn)測試上將準(zhǔn)確率提高了近 3%,同時(shí)將超長率分別降低至 0.2% 和 0.1%。



      代碼推理

      作者在代碼推理任務(wù)上檢驗(yàn) GDPO 在優(yōu)化兩個(gè)以上獎(jiǎng)勵(lì)時(shí)是否仍然優(yōu)于 GRPO。如表 5 所示,在雙獎(jiǎng)勵(lì)設(shè)置下,GDPO 在所有任務(wù)上都提升了通過率,同時(shí)保持相似的超長比例。例如,GDPO 在 Codecontests 上將通過率提高了 2.6%,而超長比例僅增加 0.1%;在 Taco 上取得了 3.3% 的通過率提升,同時(shí)將超長違規(guī)降低了 1%。



      在三獎(jiǎng)勵(lì)設(shè)置下也呈現(xiàn)類似模式,GDPO 在所有目標(biāo)上都實(shí)現(xiàn)了更有利的平衡,在保持與 GRPO 相似通過率的同時(shí),顯著降低了超長比例和 bug 比例。

      總體而言,這些結(jié)果表明 GDPO 在獎(jiǎng)勵(lì)信號(hào)數(shù)量增加時(shí)仍然有效,在雙獎(jiǎng)勵(lì)和三獎(jiǎng)勵(lì)配置中都始終比 GRPO 實(shí)現(xiàn)更優(yōu)的跨目標(biāo)權(quán)衡。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      1941年的美軍與德軍差距究竟有多大?彼時(shí)美軍傲氣十足,若是貿(mào)然在陸戰(zhàn)上交手,怕是要被德軍狠狠上一課

      1941年的美軍與德軍差距究竟有多大?彼時(shí)美軍傲氣十足,若是貿(mào)然在陸戰(zhàn)上交手,怕是要被德軍狠狠上一課

      寄史言志
      2026-01-12 21:35:16
      沉寂24小時(shí)后,特朗普乖乖放人了,中國軍艦出動(dòng),傳遞了哪些信號(hào)

      沉寂24小時(shí)后,特朗普乖乖放人了,中國軍艦出動(dòng),傳遞了哪些信號(hào)

      Kerry哲學(xué)
      2026-01-12 16:33:20
      2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤?

      2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤?

      小熊侃史
      2026-01-12 07:35:07
      伊朗警告特朗普:若遭攻擊,必將還擊

      伊朗警告特朗普:若遭攻擊,必將還擊

      新京報(bào)政事兒
      2026-01-11 15:22:48
      沈梓捷傷情更新!沒去醫(yī)院,本人親承一直腿麻,傷的同一只腳!

      沈梓捷傷情更新!沒去醫(yī)院,本人親承一直腿麻,傷的同一只腳!

      細(xì)話籃球
      2026-01-12 23:53:38
      醒醒吧!沒氣質(zhì)就別硬演“黑老大”,賤嗖嗖的樣子,內(nèi)娛沒人了嗎

      醒醒吧!沒氣質(zhì)就別硬演“黑老大”,賤嗖嗖的樣子,內(nèi)娛沒人了嗎

      娛樂圈筆娛君
      2025-12-26 14:32:48
      志愿軍27個(gè)軍,殲敵人數(shù)排名,第一名出人意料

      志愿軍27個(gè)軍,殲敵人數(shù)排名,第一名出人意料

      幽州校尉
      2026-01-12 08:07:49
      蘋果突然上架新品:1月12日,正式開售!

      蘋果突然上架新品:1月12日,正式開售!

      3C毒物
      2026-01-12 00:08:41
      商業(yè)航天股集體觸發(fā)“嚴(yán)重異動(dòng)”警示,多家公司回應(yīng)稱業(yè)務(wù)占比低,后續(xù)行情生變?

      商業(yè)航天股集體觸發(fā)“嚴(yán)重異動(dòng)”警示,多家公司回應(yīng)稱業(yè)務(wù)占比低,后續(xù)行情生變?

      界面新聞
      2026-01-12 23:18:30
      西渝高鐵重慶段在建隧道坍塌致3死,調(diào)查報(bào)告:系自然災(zāi)害造成

      西渝高鐵重慶段在建隧道坍塌致3死,調(diào)查報(bào)告:系自然災(zāi)害造成

      澎湃新聞
      2026-01-12 16:34:26
      閆學(xué)晶認(rèn)慫僅1天,再傳來噩耗!這下麻煩大了,趙本山出手也難救

      閆學(xué)晶認(rèn)慫僅1天,再傳來噩耗!這下麻煩大了,趙本山出手也難救

      阿纂看事
      2026-01-12 12:16:42
      電視真的被嚴(yán)重低估了!換個(gè)思路居然好用到驚呆,簡直是人類之光

      電視真的被嚴(yán)重低估了!換個(gè)思路居然好用到驚呆,簡直是人類之光

      Home范
      2026-01-10 14:55:03
      女排名將孫晉芳美國換血續(xù)命,90歲婆婆貼身照料,婆媳情超越血緣

      女排名將孫晉芳美國換血續(xù)命,90歲婆婆貼身照料,婆媳情超越血緣

      不寫散文詩
      2026-01-12 17:20:45
      補(bǔ)貼政策換擋 車市連續(xù)三個(gè)月銷量下滑

      補(bǔ)貼政策換擋 車市連續(xù)三個(gè)月銷量下滑

      經(jīng)濟(jì)觀察報(bào)
      2026-01-11 19:10:44
      開盤一字漲停,收盤閃崩跌停,給了出去的機(jī)會(huì),為何還打板進(jìn)來?

      開盤一字漲停,收盤閃崩跌停,給了出去的機(jī)會(huì),為何還打板進(jìn)來?

      財(cái)經(jīng)智多星
      2026-01-12 16:24:10
      很多人都是智力低下,只不過生活可以自理,所以一直沒有被發(fā)現(xiàn)

      很多人都是智力低下,只不過生活可以自理,所以一直沒有被發(fā)現(xiàn)

      夜深愛雜談
      2026-01-11 19:20:55
      黎智英等9名被告人一連4日進(jìn)行求情,大量警員戒備

      黎智英等9名被告人一連4日進(jìn)行求情,大量警員戒備

      揚(yáng)子晚報(bào)
      2026-01-12 13:40:58
      委內(nèi)瑞拉欠中國100多億美元債務(wù),美媒:特朗普將決定是否繼續(xù)還

      委內(nèi)瑞拉欠中國100多億美元債務(wù),美媒:特朗普將決定是否繼續(xù)還

      聞香閣
      2026-01-12 22:06:27
      專題片:徐憲平用8萬“收購”價(jià)值約300萬公司股權(quán),13年后獲利數(shù)千萬

      專題片:徐憲平用8萬“收購”價(jià)值約300萬公司股權(quán),13年后獲利數(shù)千萬

      澎湃新聞
      2026-01-12 22:14:26
      北京一男房東因聯(lián)系不上女租客,擔(dān)心出事,直接開鎖進(jìn)了房間。

      北京一男房東因聯(lián)系不上女租客,擔(dān)心出事,直接開鎖進(jìn)了房間。

      南權(quán)先生
      2026-01-12 16:44:03
      2026-01-13 00:07:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12100文章數(shù) 142535關(guān)注度
      往期回顧 全部

      科技要聞

      面對(duì)SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      外媒問王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

      頭條要聞

      外媒問王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

      體育要聞

      一場安東尼奧式勝利,給中國足球帶來驚喜

      娛樂要聞

      蔡少芬結(jié)婚18周年,與張晉過二人世界

      財(cái)經(jīng)要聞

      倍輕松信披迷霧 實(shí)控人占用資金金額存疑

      汽車要聞

      增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      游戲
      旅游
      藝術(shù)

      數(shù)碼要聞

      2025年全球PC出貨量近2.8億臺(tái) 筆記本超2.2億臺(tái)

      教育要聞

      勸退:英國挨罵率最高的專業(yè)!

      任天堂社長承諾:多款備受期待的熱門IP新作開發(fā)中!

      旅游要聞

      四川米易一條街的冬櫻花都開了 粉色花海夢幻綻放

      藝術(shù)要聞

      畫完這組畫,他抑郁了,后來自殺了

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲国产精品无码久久一区二区| 精品久久久无码人妻中文字幕| 亚洲色成人网站www永久四虎| 三个男吃我奶头一边一个视频| 亚洲青青草视频在线播放| 亚洲都市激情| caoporn国产| av在线亚洲国产精品| 亚洲AV无码国产永久播放蜜芽| 亚洲天码中文字幕第一页| 日韩美女久久| 亚洲中文字幕无码永久在线 | 色二区| 顺昌县| 亚洲男人的天堂在线播放| 亚州成人AⅤ| 色av综合av综合无码网站| 亚洲成人av在线观看| 97无码精品人妻免費一区二区| 午夜精品久久久久久| 国产亚洲精品成人aa片新蒲金| 老熟妇乱子交视频一区| 中文字幕无码A片| 国内自拍视频在线观看| 色屁屁www影院免费观看入口| 精品一区二区久久久久网站| 国产tsAV| 男女吃奶做爰猛烈紧视频| 日韩无码专区| 97精品| 精品国模| 国产成人高清亚洲一区久久| 日本区一区二在线免费观看| 国产成人亚洲综合无码| 樱花影院电视剧免费| 国产福利精品导航网址| 色婷婷综合激情视频免费看| 天天躁日日躁AAAAⅩXXX| 一本色道久久综合无码人妻| 鲁丝一区鲁丝二区鲁丝三区| 日本在线999|