金絲大環刀,解剖AI的工程難題。
大模型在推理時產生的每個 token(詞或子詞)所需的時間越短,模型的 輸出速度 就越快。
快速的 token 生成直接決定了 響應延遲(毫秒級)和 吞吐量(每秒可生成多少 token)。
實現高速輸出的關鍵在于硬件(高算力 GPU/TPU、低延遲網絡)、模型優化(量化、稀疏、Mixture?of?Experts)和高效推理框架(TensorRT、vLLM 等)以及緩存與動態批處理等調度技術。
我們來測試下同等硬件下,GPT-OSS 20b 和120b 對比Qwen3 32b的輸出速度
![]()
深度測試
問題起源于一個截圖,說GPT-OSS 20b輸出速度達到驚人的6000 token/s
![]()
環境:截圖中說的groq平臺 https://groq.com/
測試問題
1 如何寫個agent去實現coding,利用ddd思想的相關mcp tools和function call
2 比做AI workflow更可靠嗎?優勢和劣勢是什么?
gpt-oss 20b
![]()
![]()
qwen3 32b
![]()
![]()
gpt-oss 120b
![]()
![]()
多測試一個問題給 gpt-oss
寫一篇1萬字的長篇小說,講一個傳統后端程序員,在2025年受到AI沖擊,經歷長達3年的轉型期,終于成為AI程序員的故事
![]()
我調整了推理等級,選low的時候也沒有什么太大提升
結論
gpt-oss 20b 比qwen3 32b 快4倍,大約1200 tokens/s,速度非常快,甚至gpt-oss 120b也比qwen快。但沒有達到 6000 tokens/s的速度。
GPT?OSS 的強勁源自:
1 海量、干凈的預訓練語料, 產生 豐富的知識表征;
2 規模化、混合精度+并行訓練,十億級參數;
3 高效實現 + 優化 ,結果就是Token 速度快、內存節省;
在聊天機器人、實時搜索、智能客服等交互式場景,用戶只需要幾百毫秒甚至更少的等待時間即可得到答案,極大提升用戶滿意度。
在批量數據處理、日志分析等后端任務時,系統同樣能在相同算力下完成更多工作,顯著降低成本和能耗。
token 速度快=低延遲、高吞吐,對提升產品體驗、提升業務效率、降低運營成本以及實現實時安全審查都具有重要意義。GPT-OSS確實未來可期!
回復【GPT】,一起評測研究GPT-OSS。下一篇我詳細講一講 AI工作流為什么會比 智能體工作流落后,給大家一些轉型和學習的思路。
我是刀哥,大廠架構師,出海創業者,深入研究AI工具和AI編程。關注我,了解更多AI知識!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.