<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      關鍵技術詳解|騰訊一念 LLM 分布式推理優化實踐

      0
      分享至


      作者 | 袁鐿

      編輯|李忠良

      策劃|AICon 全球人工智能開發與應用大會

      從 vLLM、SGLang,到 TensorRT-LLM、MindIE,再到新興的“一念”,不同團隊在算子優化、顯存管理與調度策略上不斷博弈,性能指標在短短半年間就提升了數倍。為什么會出現這樣激烈的競爭?現有的開源框架是否已足夠成熟?推理系統究竟卡在哪些“瓶頸”?

      InfoQ 榮幸邀請到了 袁鐿 騰訊 /PCG 機器學習平臺技術負責人在 AICon 全球人工智能開發與應用大會·深圳站上分享了《一念 LLM 分布式推理優化實踐》,從 KV cache 全鏈路管理、算子封裝與自研,到多維并行(PP/DP/EP)、MoE 負載均衡與 MLA、以及 PD 分離與多階段流水線調度,給出了一套工程化解法。

      12 月 19~20 日的 AICon 北京站 將錨定行業前沿,聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統,讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

      詳細日程見:

      https://aicon.infoq.cn/202512/beijing/schedule

      以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。

      “一念 LLM”是一款面向大語言模型的推理框架,與 vLLM、SGLang、TensorRT-LLM 等同屬一類。那么,在已有眾多開源框架的前提下,為什么還需要開發“一念 LLM”?


      要回答這個問題,先看大語言模型推理框架的基本工作流:當系統接收到大量并發請求,請求首先進入并行調度模塊,隨后進入顯存管理。顯存管理包括為 KV cache 分配顯存;當顯存不足時,需要決定是從外部 KV Cache 調入,還是將部分請求 offload 到內存,或更遠的存儲介質。

      顯存就緒后,系統會對請求進行批處理,并針對不同模型進行算子調度,生成 KV cache。隨后算子開始執行,完成后進入采樣階段。在生成過程中,會設置諸如 temperature 等參數,系統隨之生成一系列 Token。生成結束后,可能還需進一步處理,例如將 Token 轉換為結構化輸出(如 JSON),或對齊業務約定的模式;又或者在生成某個 Token 后,基于對下一個 Token 的概率分布,執行投機解碼以加速推理。

      整體流程中,不同模塊大體對應并行調度、顯存與隊列管理,以及算子調度,這些也是各框架之間的主要差異所在。至于算子層面,若深入代碼會發現各框架相互借鑒較多:由于 Transformer 架構和模型結構相對穩定,優化路徑趨于一致;一旦某個算子實現效果更優,往往會被迅速吸收并推廣。

      從貢獻角度來看,硬件廠商通常在算子研發上具備天然優勢,因為其對自家硬件的理解最為深入,能夠充分利用硬件特性進行設計。典型代表是 TensorRT-LLM 與 MindIE。

      對于非硬件廠商而言,研發的重點更多集中在調度與顯存管理,例如 vLLM 最初從 paged attention 入手,SGLang 以 prefix caching 作為起點,而“一念”等框架也在此方向進行探索。同時,學術界也持續在這些機制上開展研究與創新。

      另一個在算子方面貢獻顯著的群體是模型廠商,他們貢獻了大量算子。隨著 DeepSeek 的興起,過去半年間推理框架領域的競爭異常激烈。為什么會如此激烈?假設在 H20 16 張卡的條件下,可以部署完整版本的 DeepSeek 模型,如果所有算子的 MFU 僅為 60%,理論吞吐量應可達到 30K。

      然而,實際情況是在今年 2 月份時,vLLM 和 SGLang 的性能僅為 2K。經過半年的激烈競爭與優化,目前 vLLM 和 SGLang 的性能已提升至原來的兩到三倍。與此同時,TensorRT-LLM 橫空出世,最新測試數據達到 11.2 K。

      一念的最新數據則為 14.6K。但整體來看,與理論預估的 30K 相比,仍存在巨大的差距。這也意味著,在基礎設施層面仍有廣闊的優化空間,相關工作需要持續深入推進。

      “一念 LLM”的設計思路與實踐


      那么,為什么要做一念框架這件事?我們的判斷基于兩個核心因素。

      首先,推理環節在業務邏輯中的比重將會越來越大。一個模型即可完成整個業務流程時,推理就會成為后臺系統中最龐大的服務。這一趨勢直接帶來對業務快速響應和系統穩定高效的更高要求。

      對于一個開源框架而言,如果無法在研發路徑上保持較高的可控性,那么在定制能力與系統穩定性之間就會產生沖突,從而可能影響業務收益與整體的穩定性。

      其次,在算子優化方面,硬件廠商和模型發布者往往會進行深度優化。因此,“一念”在設計時便以高效引入開源算子、支持多種硬件為基礎假設,并在此之上構建了基本結構。

      在整體架構的最上層,我們采用的是手寫模型。事實上,大語言模型本質上都是手寫模型,只是常見的實現方式多基于 PyTorch,用 Python 編寫;而我們選擇使用 C++ 實現,并在此過程中進行顯存優化。

      顯存優化的重要性不言而喻。以 Kv-cache 為例,其本身就會消耗大量顯存,而在追求更高吞吐量與更長序列長度的場景中,顯存問題尤為關鍵。同時,還需要通過高效的調度來進一步提升吞吐性能。

      在算子層面由三部分組成:開源封裝、移植算子、自研算子。針對不同硬件進行適配,我們額外封裝了一層類 CUDA 的接口,以支持多種硬件平臺,包括 Nvidia GPU、華為昇騰芯片以及騰訊紫霄芯片。通過這一設計,可以實現對下層異構硬件的屏蔽,對上層提供統一使用體驗。

      需要特別指出的是,由于我們對顯存實現了全流程的自主管理,在 R1 模型上,Kv-cache 的可用顯存比業界水平提升約 130%,而吞吐量提升約 30%。

      推理優化的挑戰與突破

      在進行大語言模型推理優化時,首先需要明確所面臨的問題與限制。隨著應用規模的擴大,Prefilling Tokens 的長度不斷增加,而真正導致效率低下的環節主要集中在 Decoding Tokens 階段。


      如上圖,在 A100 上進行 Forwarding 計算時,隨著輸入 Token 數量的增加,GPU 的實時有效計算能力會逐漸逼近硬件上限。一旦達到上限,即便繼續增加 Token 數量,計算功率也無法進一步提升,只能通過延長計算時間來完成額外的任務。

      另一個瓶頸在于 decoding 階段。其效率較低,因為在常規情況下每次僅能生成一個 Token,即便結合投機解碼,通常也只能生成兩到三個 Token。因此,提高 batch size 成為一個顯著的優化手段。

      然而,增加 batch size 會帶來新的挑戰。由于序列長度不斷增長,較大的序列長度疊加更大的 batch size,將導致 Kv-cache 的需求急劇增加,從而直接受限于顯存容量。

      因此,在有限顯存條件下,提升推理階段 Token 的并行處理能力。同時需要注意,一旦某一階段達到硬件極限,就不應繼續增加負載,否則只會導致整體耗時增加。


      接下來,來看推理過程中的多個階段。在 MoE 部分,采用 256 個路由專家加 1 個共享專家的架構。如上 DeepSeek 的結構圖可以看到,在計算過程中,大量 Token 經過路由表時,會導致各個專家之間的負載分布不均。而共享專家的路徑則是全量 Token 直接通過,沒有經過路由,因此共享專家的負載會異常集中。

      換言之,上半部分是稀疏計算但負載不均,下半部分則是高負載計算。典型的解決方案有兩點:一是通過增加并行 Token 數,使不均衡效應被攤薄;二是采用 EP 的方式,為共享專家設置多副本,將其分配到不同的卡或芯片上進行并行計算,從而獲得更多計算資源。

      在 MLA 部分,其最大特點是對 Kv-cache 進行壓縮,從而減少單個副本內各卡的 Kv-cache 占用。但這也帶來新的問題:多卡之間的壓縮 CompressedKv 出現重復,造成顯存浪費。同時,額外的 Project 操作也進一步增加了開銷。對應的解決方案包括權重吸收,以及采用全 DP(Data Parallelism),即只保留一份副本,避免重復存儲。


      目前的技術主要從計算、通信和顯存三個維度展開優化。最原始的方案是 全 TP(Tensor Parallelism),這種方式實現最為簡單,但其特點是:在 MoE 階段計算呈稀疏狀態,同時通信開銷較大;另一個關鍵問題是 Kv-cache 的冗余存儲。在全 TP 方案中 ,若使用 4 張卡,就會產生 4 份冗余副本。

      針對這一問題,出現了第一批改進方案:通過減少冗余,將不同的 MoE 分配到盡量少的卡上。例如,將兩張卡之間的內容保持一致,計算邏輯相同,只是輸入數據不同(如 batch1 與 batch2)。

      在這種情況下,可以邏輯上等價于將 batch 擴大一倍,從而使后續 MoE 階段的 batch 規模加倍。該方案的優勢在于顯著增大了 MoE 階段的 Token 數量,同時降低了部分通信與 Kv-cache 的冗余。但也帶來了新的問題:權重和 buffer 有所增加。

      在實際的小規模部署中,會遇到 DP 無法擴展過大的問題。原因在于,當 DP 規模增大時,雖然 Kv-cache 的冗余有所減少,但權重與 buffer 占用卻顯著增加。如果資源消耗超過可用顯存,就會無法正常運行。

      進一步擴展的思路是增加 MLA 與 DP 的份數,并在跨機時引入 EP。EP 的優勢在于通信量減少,因為它只需傳輸對應專家所需的參數、路由信息及部分狀態數據。

      然而,采用共享專家進行負載均衡會增加顯存開銷,形成“蹺蹺板”效應。常見的解決方式是擴大批處理規模,將更多專家分布到多張卡上,即使每張卡只增加一個專家或共享專家,也能獲得收益。


      不過,僅依靠擴大 DP + 大 EP 的組合方案仍不足以解決問題,因此引入了PD 分離(Prefill 與 Decode 分離)的思路。其原因在于 Prefill 與 Decode 兩個階段混合執行時會相互影響性能。Prefill 階段通常一次性輸入數千個 Token,會將硬件完全占滿。例如,若系統吞吐能力為 1K,卻一次性輸入 4K Token,則耗時將增加至原來的 4 倍;此時若 Decode 與之混合執行,Decode 的延遲也會隨之放大。

      此外,在 DeepSeek 中,由于引入了權重吸收機制,Prefill 與 Decode 混合執行還會帶來額外的權重和顯存開銷。更重要的是,二者的最優 batch size 本就不同:Prefill 階段每個請求的 Token 數量較大,因此只需較小的 batch size 就能充分利用集群;而 Decode 階段則需要更大的 batch size 才能達到集群利用率最大化。

      但其缺點在于需要進行 Kv-cache 同步,同時需要較大的并行請求規模,才能充分發揮硬件性能。這類需求往往適合高性能大規模集群,因此成為硬件廠商和云廠商最關注的場景。如果確有 PD 分離的需求,并不建議自行實現。因為該方案涉及調度、集群管理、故障排查等復雜問題,對周邊系統提出極高要求,實施和維護成本巨大。因此更為可行的方式是依賴云廠商的成熟解決方案。

      最后值得思考的是,為什么推理系統會逐漸走向“小型機化”?按理來說,互聯網服務應當依托海量、低成本、具備柔性伸縮能力的機器來支撐,而不是依賴高性能單機。

      但現實情況是,由于推理請求普遍為同步執行,且伴隨大量數據交換,這種模式逐漸推動了“小型機化”的趨勢。以上述推理過程為例,61 層的 DeepSeek 模型在輸出一個 Token 時需要進行 122 次跨機通信。如果中間環節的性能不足,其結果可想而知。


      基于這一問題,我們必須探索其他路徑來減少跨機通信。從并行技術的角度來看,流水線并行是一種較為傳統的方案。以兩機為例,該方法僅需進行兩次跨機通信:一次將數據傳遞過去,另一次再傳回來,并且是異步進行的。這在通信量上具有明顯優勢。

      然而,由于 Kv-cache 以及自回歸邏輯等特性,使得當前推理框架在實現多 batch 推理時的復雜度和成本依然較高。

      在“一念”的實踐中,目前在多階段流水線并行方面實現較為完善,整體性能處于領先水平。需要注意的是,在 Forward 階段,流水線要求資源得到充分填充,因此任務的劃分必須盡量均勻。

      在此過程中,需要通過多 batch 的方式實現負載均衡,因為在推理過程中部分 batch 可能退出,同時新的 batch 會不斷進入。

      例如,在 prefill 階段,可能很多的請求仍處于 decode 狀態,如果此時 prefill 與 decode 混合在同一批次中,再疊加更多的 decode 請求,就可能導致 decode 階段因 prefill 的操作而性能下降。

      為此,必須在 batch 調度中引入多種負載均衡策略。這并不是一種全新的技術,而是流水線并行本應具備的特性。不同之處在于,我們首次在大規模語言模型推理這種有狀態服務中實現了這一點。完成優化后,系統吞吐量從 5K 提升至 9K。


      關于如何進一步提升 MoE 的利用率,這里存在幾個關鍵問題。

      首先,在 DP(Data Parallelism)中,最直接的方式是僅保留一份 KvCache,從而避免在多卡之間的冗余存儲。但這樣會帶來新的挑戰:權重需要集中放置在單卡上,而非分散在 2 張、4 張或 8 張卡上,從而顯著增加單卡的顯存壓力。如果再遇到一個 64K 的請求,必須保證任意一個 DP 都能處理該請求,這對中間計算過程中 buffer 的要求更為嚴格。

      其次,當多個 DP 將資源切分得過細時,如果同時出現大規模請求,例如在 8 個 DP、8 張卡的情況下,每個 DP 都接收到一個 64K 的請求,那么 MoE 階段的壓力將放大為 64K × 8,導致中間緩存成為瓶頸。因此,需要在 DP 之間引入負載均衡機制,確保無論如何調度,都不會使 MoE 的 buffer 被過載。

      為應對這些問題,一方面必須進行更精細化的顯存管理,以承載更高的權重與 buffer 開銷。這也是我們選擇直接從顯卡層面進行顯存分配,而不是依賴 PyTorch 等框架自動管理的原因。

      另一方面,還需要在 DP 之間進行調度與均衡。結合前述的 MT-Batch 與流水線并行,我們還可以在不同 batch 之間進行調度,從而確保每個 batch 內部的 DP 負載更加均衡。

      通過這些優化,目前系統吞吐量已提升至 14.6K。然而,如果仔細對比會發現問題:從單 DP 擴展到 8 DP,理論上吞吐應接近 8 倍,但實際僅提升不足一倍。這表明我們的優化仍不充分。

      相較之下,TensorRT-LLM 在開啟 DP 前后幾乎實現一倍的提升,說明其 DP 算子的性能明顯優于我們。這也是后續我們需要重點借鑒的地方。

      總結與展望


      我們并非不做 EP 和 PD 分離,而是選擇先實現 PP。這一順序主要取決于硬件條件。從下圖中可以看到 Token 并行數與最終硬件性能的關系。藍色曲線代表 H800,橙色曲線代表 H20,二者之間存在約十倍的性能差距。

      這意味著在不同 Token 數下,算子的性能上限存在顯著差異。H20 很快便會達到天花板并進入平穩期,再增加只會帶來時延。

      EP 和 PD 分離的首要收益在于可支持更大的 batch size。而 PP 帶來更優的顯存利用率和更低的通信開銷。

      因此,我們先實現了 PP,目前正推進 EP 與 PD 分離。在 batch size 已接近上限的情況下,下一步的重點是進一步釋放顯存并優化通信。

      我們當前的工作也聚焦在幾個關鍵問題上:

      一是調度策略與業務場景的兼容。如果業務峰值是 10 倍量級,現有策略更偏向“保吞吐”,那么后續調度需要在保證吞吐的同時,把 TPOT、TTFT 等體驗指標也做上去(既降低首 Token 時延、又提升持續輸出效率),這對調度提出了更高要求;

      二是柔性 KV cache 匹配。目前我們的 prefix cache 采用嚴格匹配:例如一個會話約 50 輪,對到第 51 輪時會發生窗口回滾(從第 2 輪到第 51 輪重新送入模型)。此時大部分上下文相同,但由于嚴格匹配,KV cache 往往無法命中。因此我們在推進“柔性 KV cache”,力圖在上下文高度相似的情況下也能復用緩存,減少重復計算。

      三是模型層間進度是否必須同步。從研究與實踐看,答案是否定的:不同層的計算負載與時序分布并不一致,沒必要強行保持層層同速。適度引入層間解耦 / 異步有望提升整體效率。

      四是batch 之間的流程編排。雖然兩個 batch 在邏輯上相互獨立,但若把它們視為計算圖,并不必然沖突;因此沒必要做硬件強隔離。通過在不沖突的算子間交叉 / 穿插執行,可進一步提升資源利用率與吞吐。此外,我們也在推進多模態支持與國產 GPU適配等相關工作。

      謝謝大家!

      AI 重塑組織的浪潮已至,Agentic 企業時代正式開啟!當 AI 不再是單純的輔助工具,而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

      把握行業變革關鍵節點,12 月 19 日 - 20 日,AICon 全球人工智能開發與應用大會(北京站) 即將重磅啟幕!本屆大會精準錨定行業前沿,聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統,讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      釣魚佬的身份有多離譜?網友:我去釣魚碰到了市長,還請我吃楊梅

      釣魚佬的身份有多離譜?網友:我去釣魚碰到了市長,還請我吃楊梅

      另子維愛讀史
      2025-12-11 20:33:40
      《大生意人》今晚結局:玉兒生子,蘇紫軒放棄復仇,瑞麟回京高升

      《大生意人》今晚結局:玉兒生子,蘇紫軒放棄復仇,瑞麟回京高升

      牛鍋巴小釩
      2025-12-13 11:01:56
      高市政權下的日本,西方媒體終于察覺到不對勁了……

      高市政權下的日本,西方媒體終于察覺到不對勁了……

      環球時報國際
      2025-12-12 23:56:09
      原來有這么多不體面但掙錢的小生意!原來都是悶聲發大財啊!

      原來有這么多不體面但掙錢的小生意!原來都是悶聲發大財啊!

      另子維愛讀史
      2025-12-06 22:09:07
      沖鋒衣之后有新寵 戶外“貼身層”迎來消費旺季

      沖鋒衣之后有新寵 戶外“貼身層”迎來消費旺季

      中國商報
      2025-12-11 15:51:59
      豬肝再次成為關注對象!醫生發現:常吃豬肝,可能會收獲4大好處

      豬肝再次成為關注對象!醫生發現:常吃豬肝,可能會收獲4大好處

      搖感軍事
      2025-11-30 18:57:30
      京東001號快遞員已退休,勤懇工作16年,劉強東承諾的房給了嗎?

      京東001號快遞員已退休,勤懇工作16年,劉強東承諾的房給了嗎?

      阿纂看事
      2025-12-10 15:38:14
      周末重磅!中央財辦發聲!

      周末重磅!中央財辦發聲!

      證券時報
      2025-12-13 13:35:03
      WTT總決賽!男單4強名單出爐,張本智和絕殺晉級,林詩棟壓力很大

      WTT總決賽!男單4強名單出爐,張本智和絕殺晉級,林詩棟壓力很大

      知軒體育
      2025-12-13 18:14:53
      中美日,其實已經基本上算是明牌了,美國戰略收縮,日本想補位

      中美日,其實已經基本上算是明牌了,美國戰略收縮,日本想補位

      扶蘇聊歷史
      2025-12-11 13:59:27
      【2025.12.13】扒醬料不停:那些你不知道的八卦一二三

      【2025.12.13】扒醬料不停:那些你不知道的八卦一二三

      娛樂真爆姐
      2025-12-13 23:12:55
      CBA13日綜述:郭艾倫復出16+5,北京隊首發全部得分上雙

      CBA13日綜述:郭艾倫復出16+5,北京隊首發全部得分上雙

      孤影來客
      2025-12-14 00:44:15
      中國不方便做的事泰國做,與柬埔寨用中國武器對打,能剿滅電詐嗎

      中國不方便做的事泰國做,與柬埔寨用中國武器對打,能剿滅電詐嗎

      面包夾知識
      2025-12-13 12:06:59
      錢多有什么用!向太曝馬伊琍再婚,文章離婚有難言之隱,現狀唏噓

      錢多有什么用!向太曝馬伊琍再婚,文章離婚有難言之隱,現狀唏噓

      子芫伴你成長
      2025-12-13 23:37:10
      一炮“送走”柬埔寨副司令,泰軍三軍壓境,不把洪森打服誓不罷休

      一炮“送走”柬埔寨副司令,泰軍三軍壓境,不把洪森打服誓不罷休

      大國知識局
      2025-12-10 22:21:12
      官宣!曼聯走了,切爾西來了,英超魔咒交棒,利物浦持續時間最長

      官宣!曼聯走了,切爾西來了,英超魔咒交棒,利物浦持續時間最長

      嗨皮看球
      2025-12-13 14:39:37
      中國以色列關系麻煩了,使館抗議臺以官方往來,與加沙戰爭有關?

      中國以色列關系麻煩了,使館抗議臺以官方往來,與加沙戰爭有關?

      面包夾知識
      2025-12-13 23:37:15
      郭富城小閨女面相奇特,醫院老人看后愣三分鐘,預言未來不一般

      郭富城小閨女面相奇特,醫院老人看后愣三分鐘,預言未來不一般

      動物奇奇怪怪
      2025-12-12 13:01:11
      關于郭德綱被約談,北京西城文旅局的回應來了

      關于郭德綱被約談,北京西城文旅局的回應來了

      TVB的四小花
      2025-12-12 16:56:52
      絕了!蘋果打豆漿,賽過吃燕窩!這3種搭配,祛黃補氣超省心

      絕了!蘋果打豆漿,賽過吃燕窩!這3種搭配,祛黃補氣超省心

      江江食研社
      2025-12-12 22:30:04
      2025-12-14 01:04:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11821文章數 51627關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      百萬支體溫計2周搶空 有老板備20萬現金一箱貨都沒買到

      頭條要聞

      百萬支體溫計2周搶空 有老板備20萬現金一箱貨都沒買到

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      教育
      游戲
      手機
      公開課
      軍事航空

      教育要聞

      TTS新傳論文帶讀:弄不懂的數字資本主義看這一篇就可以啦!!

      夢幻西游風少為沖冠給3只凈臺寵改書,旭旭寶寶一月直播重心轉移

      手機要聞

      全球首個三星三折疊屏消費者誕生:42歲 嚴寒中排隊將近24小時

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品自在在线午夜免费| 亚洲日韩中文字幕在线播放| 大同县| 国产色精品久久人妻| 国产露脸无套对白在线播放| 久久久999| 日本极品少妇videossexhd| 国产成人久久久777777麻豆| 亚洲中文字幕日产乱码| 久久99精品国产麻豆婷婷| 久久久噜噜噜久久| 亚洲中文无码手机永久| 亚洲色图综合| a天堂视频在线观看| 亚洲中文字幕精品久久| 激情内射人妻1区2区3区| 亚洲AV成人无码久久精品四虎| 成人av中文字幕在线播放 | 乱60一70归性欧老妇| 婷婷有码| 久久精品中文字幕一区| 毛片一区二区三区无码| 国产精品美女一区二三区| 超碰人人妻| 四虎成人精品无码| 国产亚洲精品aaaa片小说| 亚洲加勒比久久88色综合| 免费一本色道久久一区| 99久久人妻无码中文字幕系列| 成人国产网站| 亚洲18禁| 黑人一区| 日夜啪啪一区二区三区| 新版资源天堂中文| 18禁男女爽爽爽午夜网站免费| 中国不卡一区| 国产九九| 墨玉县| 女人被狂躁c到高潮| 狠狠色噜噜狠狠狠狠97俺也去| 91新视频|