<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AEPO:智能體熵平衡策略優(yōu)化,讓探索更穩(wěn),推理更深!

      0
      分享至



      在智能體強(qiáng)化學(xué)習(xí)的快速發(fā)展中,如何在探索與穩(wěn)定之間取得平衡已成為多輪智能體訓(xùn)練的關(guān)鍵。主流的熵驅(qū)動(dòng)式智能體強(qiáng)化學(xué)習(xí)(Agentic RL)雖鼓勵(lì)模型在高不確定性處分支探索,但過(guò)度依賴熵信號(hào)常導(dǎo)致訓(xùn)練不穩(wěn)、甚至策略熵坍塌問(wèn)題。

      為此,中國(guó)人民大學(xué)高瓴人工智能學(xué)院與快手 Klear 語(yǔ)言大模型團(tuán)隊(duì)聯(lián)合提出 Agentic Entropy-Balanced Policy Optimization(AEPO),一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。

      AEPO 系統(tǒng)性揭示了「高熵 Rollout 采樣坍縮」和「高熵梯度裁剪」問(wèn)題,并設(shè)計(jì)了「動(dòng)態(tài)熵平衡 Rollout 采樣」與「熵平衡策略優(yōu)化」兩項(xiàng)核心機(jī)制。前者通過(guò)熵預(yù)監(jiān)控與連續(xù)分支懲罰實(shí)現(xiàn)全局與局部探索預(yù)算的自適應(yīng)分配,后者在策略更新階段引入梯度停止與熵感知優(yōu)勢(shì)估計(jì)以保留高熵 token 的探索梯度。



      圖 1:AEPO 性能概覽:左圖對(duì)比深度搜索任務(wù)性能,右圖對(duì)比通用推理任務(wù)性能

      實(shí)驗(yàn)結(jié)果表明,AEPO 在 14 個(gè)跨領(lǐng)域基準(zhǔn)上顯著優(yōu)于七種主流強(qiáng)化學(xué)習(xí)算法。特別是深度搜索任務(wù)的 Pass@5 指標(biāo):GAIA (65.0%), Humanity’s Last Exam (26.0%), WebWalkerQA (70.0%)。在保持訓(xùn)練穩(wěn)定性的同時(shí)進(jìn)一步提升了采樣多樣性與推理效率,為通用智能體的可擴(kuò)展強(qiáng)化訓(xùn)練提供了新的優(yōu)化范式。



      • 論文標(biāo)題:Agentic Entropy-Balanced Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2510.14545
      • 代碼倉(cāng)庫(kù):https://github.com/dongguanting/ARPO
      • 開(kāi)源數(shù)據(jù) & 模型:https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

      目前AEPO 在 X 上收獲極高關(guān)注度,Github 倉(cāng)庫(kù)已獲星標(biāo) 700 余枚,同時(shí)榮登 Huggingface Paper 日榜第二名!





      研究動(dòng)機(jī):在高熵中尋求平衡

      隨著 Agentic RL 的發(fā)展,如何在持續(xù)探索與訓(xùn)練穩(wěn)定之間取得平衡已成制約智能體性能的關(guān)鍵。現(xiàn)有方法(如 ARPO)通常依賴熵信號(hào)作為依據(jù),并在高熵時(shí)刻觸發(fā)分支采樣探索潛在推理路徑。我們的研究發(fā)現(xiàn)熵驅(qū)動(dòng)的探索雖能提升多樣性,卻也帶來(lái)了顯著的訓(xùn)練不穩(wěn)定:模型在連續(xù)高熵的工具調(diào)用階段容易出現(xiàn)單一鏈條過(guò)度分支,導(dǎo)致探索受限(如下圖左側(cè));同時(shí)在策略更新階段,高熵 token 的梯度常被無(wú)差別裁剪,使模型難以學(xué)習(xí)的探索行為(如下圖右側(cè))。這種熵失衡也使智能體在強(qiáng)化學(xué)習(xí)中容易陷入局部最優(yōu)解。



      圖 2:智能體中的高熵 Rollout 坍縮與高熵梯度裁剪現(xiàn)象

      因此,如何在高熵驅(qū)動(dòng)下同時(shí)實(shí)現(xiàn)高效探索與穩(wěn)定優(yōu)化,成為智能體強(qiáng)化學(xué)習(xí)亟待突破的核心瓶頸。為此,我們提出 AEPO,一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。我們的貢獻(xiàn)如下:

      • 我們系統(tǒng)性分析并揭示了現(xiàn)有熵驅(qū)動(dòng)的 Agentic RL 在高熵階段易出現(xiàn)的「rollout 坍縮」和「梯度裁剪」問(wèn)題,為后續(xù)算法設(shè)計(jì)提供了經(jīng)驗(yàn)與理論依據(jù)。
      • 我們提出了 AEPO 算法,旨在通過(guò)「動(dòng)態(tài)熵平衡 Rollout 采樣」與「熵感知策略優(yōu)化」兩個(gè)階段實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)探索與穩(wěn)定的協(xié)同優(yōu)化。
      • 在 14 個(gè)挑戰(zhàn)性基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,AEPO 在采樣多樣性、訓(xùn)練穩(wěn)定性及工具調(diào)用效率方面均優(yōu)于 7 種主流強(qiáng)化學(xué)習(xí)算法,為智能體在復(fù)雜開(kāi)放環(huán)境下的可擴(kuò)展訓(xùn)練提供了新的啟發(fā)。

      工具調(diào)用的熵變現(xiàn)象:高熵集聚與梯度困境

      通過(guò)分析智能體在多輪工具調(diào)用強(qiáng)化學(xué)習(xí)中的 token 熵變與訓(xùn)練過(guò)程,我們發(fā)現(xiàn)以下核心現(xiàn)象:

      1. 高熵工具調(diào)用步驟存在連續(xù)性:連續(xù)的高熵工具調(diào)用輪次占比達(dá) 56.5%,部分軌跡甚至出現(xiàn) 6 次連續(xù)高熵調(diào)用,這種連續(xù)性導(dǎo)致 rollout 階段的分支預(yù)算分配嚴(yán)重傾斜(如下圖左側(cè));
      2. 高熵 Token 梯度裁剪:傳統(tǒng) Agentic RL 算法在策略更新階段存在「無(wú)差別梯度裁剪」問(wèn)題,未區(qū)分其是否包含有價(jià)值的探索行為,這些 token 大多是在推理中激發(fā)工具調(diào)用,反思等行為的提示(如下圖右側(cè))。



      圖 3:智能體強(qiáng)化學(xué)習(xí)訓(xùn)練中兩種熵相關(guān)問(wèn)題的量化統(tǒng)計(jì)

      上述現(xiàn)象本質(zhì)是高熵信號(hào)的雙重矛盾:高熵是智能體探索工具使用潛力的必要條件,但無(wú)約束的高熵連續(xù)性會(huì)破壞 rollout 資源分配,激進(jìn)的梯度裁剪又會(huì)扼殺高熵的探索價(jià)值。

      AEPO 算法:熵驅(qū)動(dòng)的精準(zhǔn)探索與梯度保護(hù)



      圖 4:AEPO 概述

      動(dòng)態(tài)熵平衡 Rollout 采樣:

      1.熵預(yù)監(jiān)測(cè):按信息增益分配采樣預(yù)算

      傳統(tǒng) RL 算法(如 ARPO)憑經(jīng)驗(yàn)分配全局采樣與分支采樣的坍縮資源,AEPO 則基于信息增益理論,根據(jù)問(wèn)題與工具的信息增益動(dòng)態(tài)調(diào)整采樣預(yù)算,具體來(lái)說(shuō),在總 rollout 采樣的預(yù)算為 k(包含 m 次全局采樣與 k-m 次高熵分支采樣)的條件下,將 Rollout 階段的信息增益簡(jiǎn)單地建模為:



      在語(yǔ)言模型的自回歸解碼過(guò)程中,輸入問(wèn)題的信息增益通常由模型解碼的 token 熵值來(lái)衡量,因此我們可以得到如下正相關(guān)關(guān)系:



      因此,我們的目標(biāo)是盡可能增大 Rollout 階段的信息增益,基于上述公式,AEPO 按信息增益分配采樣預(yù)算:





      2.連續(xù)高熵分支懲罰:避免單一軌跡過(guò)度分支

      即使預(yù)算分配合理,連續(xù)高熵調(diào)用仍可能導(dǎo)致單一軌跡過(guò)度分支。因此 AEPO 通過(guò)動(dòng)態(tài)分支概率施加懲罰:



      實(shí)驗(yàn)驗(yàn)證:如下圖所示,相比于 ARPO 通常僅分支 2-3 條軌跡,而AEPO 可覆蓋全部 8 條預(yù)算軌跡(右圖),采樣聚類數(shù)從 54 提升至 62(左 2 圖),大幅提升 Rollout 采樣的多樣性。



      圖 5:采樣多樣性 ARPO vs AEPO(左)與 Rollout 的分支采樣分布(右)

      熵平衡策略優(yōu)化:

      1.熵裁剪平衡機(jī)制:保留高熵 Token 梯度

      收到 GPPO 啟發(fā),AEPO 將「梯度停止」操作融入到策略更新的高熵裁剪項(xiàng)中,保證了前向傳播不受影響,同時(shí)保護(hù)了高熵 token 的梯度在反向傳播時(shí)不被裁剪。AEPO 在策略更新時(shí)使用如下公式:











      這一設(shè)計(jì)讓高熵探索性 Token 的梯度得以保留,避免訓(xùn)練初期探索能力流失。

      2.熵感知優(yōu)勢(shì)估計(jì):優(yōu)先學(xué)習(xí)高價(jià)值探索行為





      實(shí)驗(yàn)結(jié)果:14 個(gè)基準(zhǔn)驗(yàn)證 AEPO 的高效與穩(wěn)定

      為了充分評(píng)估 AEPO 的泛化性和高效性,我們考慮以下三種測(cè)試集:

      • 計(jì)算型推理任務(wù):評(píng)估模型的計(jì)算推理能力,包括 AIME24、AIME25、MATH500、GSM8K、MATH。
      • 知識(shí)密集型推理任務(wù):評(píng)估模型結(jié)合外部知識(shí)推理的能力,包括 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
      • 深度搜索任務(wù):評(píng)估模型的深度搜索能力,包括 HLE、GAIA、SimpleQA、XBench、Frames。

      深度信息檢索任務(wù):小樣本實(shí)現(xiàn)大突破





      如上表所示,僅用 1K RL 訓(xùn)練樣本,Qwen3-14B+AEPO 在關(guān)鍵任務(wù)上表現(xiàn)優(yōu)異:

      • AEPO 在 Pass@1 上較 ARPO 平均提升 3.9%;在 Pass@5 上較 ARPO 平均提升 5.8%;
      • 對(duì)比梯度裁剪優(yōu)化 RL 算法(DAPO、CISPO、GPPO):AEPO 在 GAIA 任務(wù)上領(lǐng)先 7%-10%,在 Qwen3-14B 基座上取得了 47.6% 的 Pass@1 與 65% 的 Pass@5,這證明熵平衡機(jī)制優(yōu)于單純的梯度裁剪優(yōu)化 RL 算法;
      • 對(duì)比傳統(tǒng) RL(GRPO、Reinforce++):AEPO 在 HLE 任務(wù)上領(lǐng)先 2.6%-3.4%,在 Qwen3-14B 基座上取得了 11.2% 的 Pass@1 與 26% 的 Pass@5,凸顯 Agentic RL 中熵平衡的必要性。



      我們比較了 7 種強(qiáng)化學(xué)習(xí)算法在 10 個(gè)推理任務(wù)中的表現(xiàn),發(fā)現(xiàn):

      • 梯度裁剪優(yōu)化算法的穩(wěn)定性差:在 Qwen 2.5-7B-instruct 上,梯度裁剪優(yōu)化算法表現(xiàn)良好,但在 Llama3-8B 上未顯著優(yōu)于 GRPO,且易導(dǎo)致熵崩潰。
      • Agentic RL 算法具備泛化能力:ARPO,GIGPO,AEPO 等算法在不同模型上表現(xiàn)穩(wěn)定,證明在高熵環(huán)境下的分支探索有效。
      • AEPO 優(yōu)勢(shì)顯著:AEPO 在所有測(cè)試中表現(xiàn)突出,一致性高于 7 種主流 RL 算法。并且平均準(zhǔn)確率比 GRPO 高 5%,更適合訓(xùn)練多輪次 Web 智能體。

      實(shí)驗(yàn):熵穩(wěn)定與準(zhǔn)確率分析

      在 Agentic RL 訓(xùn)練中,熵動(dòng)態(tài)穩(wěn)定性與訓(xùn)練準(zhǔn)確率收斂性是衡量算法有效性的核心指標(biāo):熵過(guò)高易導(dǎo)致探索失控,熵過(guò)低則會(huì)引發(fā)探索不足;而準(zhǔn)確率的持續(xù)提升則直接反映模型對(duì)有效工具使用行為的學(xué)習(xí)能力。

      我們對(duì)比 AEPO 與主流 RL 算法(含 ARPO、GRPO、DAPO 等)在 10 個(gè)推理任務(wù)中的訓(xùn)練動(dòng)態(tài),清晰揭示了 AEPO 在「熵穩(wěn)定」與「準(zhǔn)確率提升」雙維度的優(yōu)勢(shì)。實(shí)驗(yàn)發(fā)現(xiàn)訓(xùn)練的熵?fù)p失驟增與下降都不會(huì)對(duì)性能帶來(lái)增益;相比之下,AEPO 的熵?fù)p失全程維持高且穩(wěn)定,對(duì)應(yīng)穩(wěn)定的性能增益。其表現(xiàn)遠(yuǎn)超其他 RL 算法,且解決了 ARPO 在訓(xùn)練后期熵波動(dòng)的問(wèn)題。



      圖 5:訓(xùn)練指標(biāo)可視化,包括各訓(xùn)練步驟的熵?fù)p失(左)和準(zhǔn)確率(右)

      總結(jié)與未來(lái)展望

      未來(lái)可從三個(gè)方向進(jìn)一步拓展:

      • 多模態(tài) Agent:當(dāng)前 AEPO 與 ARPO 均聚焦文本任務(wù),未來(lái)可擴(kuò)展至圖像、視頻等多模態(tài)輸入,探索多模態(tài)工具的熵平衡優(yōu)化,解決多模態(tài)反饋帶來(lái)的熵波動(dòng)問(wèn)題。
      • 工具生態(tài)擴(kuò)展:引入更復(fù)雜工具(如 MCP 服務(wù)、外部訂機(jī)票酒店服務(wù)調(diào)用、代碼調(diào)試器),基于 AEPO 的熵感知機(jī)制優(yōu)化多工具協(xié)作策略,提升復(fù)雜任務(wù)表現(xiàn),超越現(xiàn)有工具協(xié)作能力。
      • 多智能體強(qiáng)化學(xué)習(xí):探索在更多智能體的協(xié)作學(xué)習(xí),互相任務(wù)交互與博弈中找到平衡,實(shí)現(xiàn)收斂。

      作者介紹

      董冠霆目前就讀于中國(guó)人民大學(xué)高瓴人工智能學(xué)院,博士二年級(jí),導(dǎo)師為竇志成教授和文繼榮教授。他的研究方向主要包括智能體強(qiáng)化學(xué)習(xí)、深度搜索智能體,大模型對(duì)齊等。在國(guó)際頂級(jí)會(huì)議如 ICLR、ACL、AAAI 等發(fā)表了多篇論文,并在快手快意大模型組、阿里通義千問(wèn)組等大模型團(tuán)隊(duì)進(jìn)行實(shí)習(xí)。其代表性工作包括 ARPO、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。

      • 個(gè)人主頁(yè):dongguanting.github.io

      本文的通信作者為中國(guó)人民大學(xué)的竇志成教授與快手科技的周國(guó)睿。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      街面復(fù)市物價(jià)沖天!德黑蘭的平靜之下全是生存焦慮

      街面復(fù)市物價(jià)沖天!德黑蘭的平靜之下全是生存焦慮

      愛(ài)下廚的阿釃
      2026-01-25 05:02:48
      倒霉的演員甘婷婷:演了個(gè)潘金蓮,居然把自己的下半輩子搭進(jìn)去了

      倒霉的演員甘婷婷:演了個(gè)潘金蓮,居然把自己的下半輩子搭進(jìn)去了

      眼底星碎
      2026-01-25 03:12:02
      央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

      央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

      大魚簡(jiǎn)科
      2025-09-02 19:34:00
      辦百日宴擺了28桌,只來(lái)15個(gè)客人!家長(zhǎng):禮錢都沒(méi)看到,虧大了!

      辦百日宴擺了28桌,只來(lái)15個(gè)客人!家長(zhǎng):禮錢都沒(méi)看到,虧大了!

      磊子講史
      2025-09-24 14:17:06
      李銀橋在回憶錄中提及毛岸英犧牲需由彭德懷承擔(dān)一定責(zé)任,但這一表述缺乏充分依據(jù),難以成立

      李銀橋在回憶錄中提及毛岸英犧牲需由彭德懷承擔(dān)一定責(zé)任,但這一表述缺乏充分依據(jù),難以成立

      史海殘?jiān)?/span>
      2025-12-23 11:22:17
      以為是普通貨船?中達(dá) 79 號(hào)藏 60 導(dǎo)彈管,美軍扣船就是賭命

      以為是普通貨船?中達(dá) 79 號(hào)藏 60 導(dǎo)彈管,美軍扣船就是賭命

      流年拾光
      2026-01-23 16:10:18
      他是首任海軍司令,6個(gè)兒子中有3位將軍2個(gè)副主席,兒媳家喻戶曉

      他是首任海軍司令,6個(gè)兒子中有3位將軍2個(gè)副主席,兒媳家喻戶曉

      百年歷史老號(hào)
      2024-05-16 13:39:53
      英超20億大戰(zhàn)!阿森納劍指雙殺曼聯(lián):沖擊百年紀(jì)錄 核心對(duì)決

      英超20億大戰(zhàn)!阿森納劍指雙殺曼聯(lián):沖擊百年紀(jì)錄 核心對(duì)決

      葉青足球世界
      2026-01-25 05:00:03
      三四線城市,翻盤了

      三四線城市,翻盤了

      城市財(cái)經(jīng)
      2026-01-12 11:39:42
      云南省公安廳情報(bào)指揮中心合成作戰(zhàn)支隊(duì)支隊(duì)長(zhǎng)袁滿榮接受紀(jì)律審查和監(jiān)察調(diào)查

      云南省公安廳情報(bào)指揮中心合成作戰(zhàn)支隊(duì)支隊(duì)長(zhǎng)袁滿榮接受紀(jì)律審查和監(jiān)察調(diào)查

      昆明信息港
      2026-01-24 14:55:58
      太精彩了!溫瑞博苦戰(zhàn)七局擊敗樊振東德國(guó)隊(duì)友,奪冠后振臂歡呼

      太精彩了!溫瑞博苦戰(zhàn)七局擊敗樊振東德國(guó)隊(duì)友,奪冠后振臂歡呼

      楊哥乒乓
      2026-01-24 21:49:04
      WTT馬斯喀特站國(guó)乒喜憂參半:溫瑞博首冠封神,林詩(shī)棟陷保分危機(jī)

      WTT馬斯喀特站國(guó)乒喜憂參半:溫瑞博首冠封神,林詩(shī)棟陷保分危機(jī)

      上觀新聞
      2026-01-25 04:47:06
      記住吧,歷史總要清算

      記住吧,歷史總要清算

      火事雜談
      2026-01-24 18:52:38
      暴跌60%,引來(lái)全國(guó)牙科關(guān)店潮,暴利的牙科生意真的走到了盡頭?

      暴跌60%,引來(lái)全國(guó)牙科關(guān)店潮,暴利的牙科生意真的走到了盡頭?

      小熊侃史
      2026-01-17 07:50:11
      CBA最新消息!曝頂級(jí)外援加盟遼寧男籃,上海男籃留用弗格

      CBA最新消息!曝頂級(jí)外援加盟遼寧男籃,上海男籃留用弗格

      體壇瞎白話
      2026-01-24 10:09:39
      開(kāi)年必看!5款本月發(fā)售游戲盤點(diǎn),硬核競(jìng)技與史詩(shī)劇情拉滿

      開(kāi)年必看!5款本月發(fā)售游戲盤點(diǎn),硬核競(jìng)技與史詩(shī)劇情拉滿

      17173游戲網(wǎng)
      2026-01-23 10:25:15
      舒淇談拍全裸寫真:“笨啊,反正都要脫,干脆啪就脫給你看”

      舒淇談拍全裸寫真:“笨啊,反正都要脫,干脆啪就脫給你看”

      TVB的四小花
      2026-01-22 15:25:56
      甘愿讓國(guó)家消失!小國(guó)總統(tǒng)走投無(wú)路,請(qǐng)求徹底并入北約鄰國(guó)

      甘愿讓國(guó)家消失!小國(guó)總統(tǒng)走投無(wú)路,請(qǐng)求徹底并入北約鄰國(guó)

      Hi科普啦
      2026-01-22 14:10:07
      少些勝負(fù)觀、多些平常心,U23亞洲杯決賽中國(guó)隊(duì)對(duì)決日本隊(duì),重在享受比賽!

      少些勝負(fù)觀、多些平常心,U23亞洲杯決賽中國(guó)隊(duì)對(duì)決日本隊(duì),重在享受比賽!

      上觀新聞
      2026-01-24 04:37:08
      上海知名主持蔚蘭近況!自爆三個(gè)月沒(méi)洗澡,住進(jìn)月租1.2萬(wàn)養(yǎng)老院

      上海知名主持蔚蘭近況!自爆三個(gè)月沒(méi)洗澡,住進(jìn)月租1.2萬(wàn)養(yǎng)老院

      說(shuō)歷史的老牢
      2026-01-24 11:49:25
      2026-01-25 06:24:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛現(xiàn)身上海菜市場(chǎng)

      頭條要聞

      張又俠、劉振立被查 解放軍報(bào)發(fā)布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報(bào)發(fā)布社論

      體育要聞

      當(dāng)家球星打替補(bǔ),他們?cè)诠室鈹[爛?

      娛樂(lè)要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財(cái)經(jīng)要聞

      “百年老字號(hào)”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      健康
      親子
      游戲
      藝術(shù)
      手機(jī)

      耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

      親子要聞

      哄睡新妙招!吹風(fēng)機(jī)聲+束帶,寶寶一會(huì)兒就睡著了,網(wǎng)友:為什么孩子大了才告訴我!

      《輪回之獸》的優(yōu)化不會(huì)像《寶可夢(mèng)》系列那樣差

      藝術(shù)要聞

      18位西方畫家筆下的女人,美得驚艷了時(shí)光!

      手機(jī)要聞

      追覓首款手機(jī)狂攬億元訂單:自研芯片+模塊化影像,硬剛?cè)A為小米

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 99热这里只有精品最新地址获取| 色色免费视频| 欧美日产国产精品| 精品国产乱码久久久久夜深人妻| 男人天堂久久| 精品流白浆| 日韩精品人妻中文字幕有码| 色综合久久久无码中文字幕| 中国美女a级毛片| 中文字幕无码不卡免费视频| 国产三级精品三级| 国产欧美一区二区精品久久久| 欧美丝袜性交| 日韩精品射精管理在线观看| 精品人妻V| 国产九九视频在线播放| 国产精品任我爽爆在线播放6080| 久草91这里只有精品| 无人区码一码二码w358cc| 两个人的视频高清在线观看免费| 亚洲2017天堂色无码| 午夜日逼| 拍摄av现场失控高潮数次| 亚洲欧洲制服| 一本色道精品| 久久巨| 亚洲黄站| 国产乱子伦真实精品| 成在线人视频免费视频| 国产精品高清一区二区三区| 国外欧美一区另类中文字幕| 国产精品一区二区 尿失禁| 梅州市| 国产午夜福利在线机视频| 成人网站亚洲| 国产乱子伦无套一区二区三区| 亚洲精品熟女| 久久精品中文字幕一区| 超碰人人草| 欧美?级毛片一进一出夜本色| 欧美成人18|