NVIDIA Deep Learning Compute 是一支專(zhuān)注于“算法-軟件-硬件”協(xié)同設(shè)計(jì)的 AI 加速團(tuán)隊(duì)。“讓 AI 更快、更省、更具擴(kuò)展性”是我們的使命。從模型創(chuàng)新,軟件設(shè)計(jì)開(kāi)發(fā),直到芯片微架構(gòu),從底層算子到端到端系統(tǒng),我們?nèi)珬4蛲ǎ?qū)動(dòng) GPU 架構(gòu)的持續(xù)演進(jìn)。
![]()
崗位申請(qǐng)通過(guò)以下郵箱投遞:
sh-recruitment@nvidia.com
以下社招崗位工作地點(diǎn)為:北京或上海
JR2009042
Deep Learning Performance Architect
- 出色的 C 或 C++ 編程和軟件設(shè)計(jì)能力
- 具備 Python 使用經(jīng)驗(yàn)者優(yōu)先
- 性能建模、性能分析、調(diào)試以及代碼優(yōu)化或有關(guān) CPU 和 GPU 的架構(gòu)知識(shí)
- 需要具備 GPU 編程經(jīng)驗(yàn)(需具備 CUDA 或 OpenCL 相關(guān)知識(shí))
JR2008612
Deep Learning Performance Architect
- 出色的 C 或 C++ 編程和軟件構(gòu)建能力
- 在內(nèi)核開(kāi)發(fā)及針對(duì) GPU(或其他加速器)的性能優(yōu)化方面的經(jīng)驗(yàn)
- 熟悉常見(jiàn)的深度學(xué)習(xí)軟件框架(例如 Torch、JAX、TensorFlow、TensorRT)以及流行的 AI 模型(例如 LLM 和 AI 生成內(nèi)容模型)
- 熟悉并了解用于深度學(xué)習(xí)應(yīng)用的硬件框架的相關(guān)知識(shí)和背景
JR2008606
Deep Learning Performance Architect
- 熟悉基于 GPU 或加速器的深度學(xué)習(xí)平臺(tái)及軟件棧
- 扎實(shí)的計(jì)算機(jī)架構(gòu)基礎(chǔ)
- 熟悉 LLM 或生成式 AI 的深度學(xué)習(xí)算法以及內(nèi)核優(yōu)化技術(shù)
- 系統(tǒng)架構(gòu)設(shè)計(jì)及性能優(yōu)化方面的經(jīng)驗(yàn)
- 熟悉機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架
JR2007904
LLM Reinforcement Learning Framework Engineer
- 在強(qiáng)化學(xué)習(xí)領(lǐng)域擁有豐富的經(jīng)驗(yàn),并能將其應(yīng)用于大型 LLM
- 數(shù)學(xué)和 AI 算法方面擁有深厚的基礎(chǔ),尤其擅長(zhǎng)強(qiáng)化學(xué)習(xí)領(lǐng)域
- 在實(shí)際應(yīng)用中成功運(yùn)用強(qiáng)化學(xué)習(xí)算法的豐富經(jīng)驗(yàn)
JR2007656
Senior Deep Learning Compiler Engineer - CUDA
- 出色的 C 或 C++ 編程和軟件工程技能,有 ACM 背景者優(yōu)先
- 扎實(shí)的計(jì)算機(jī)體系結(jié)構(gòu)基礎(chǔ)知識(shí)
- 具備很強(qiáng)的問(wèn)題抽象能力和解決問(wèn)題的方法論
- 需要具備扎實(shí)的編譯器背景,包括 MLIR、TVM、Triton 和 LLVM 等方面的知識(shí)
JR2006912
Senior Manager, Deep Learning Performance Architecture
- 擁有 10 年以上軟件開(kāi)發(fā)經(jīng)驗(yàn),其中至少 6 年具備實(shí)際管理經(jīng)驗(yàn)的軟件工程師
- 扎實(shí)的軟件設(shè)計(jì)基礎(chǔ)以及對(duì)深度學(xué)習(xí)優(yōu)化的深刻理解
JR2006086
Senior Infrastructure Software Engineer
- 精通包括 Python 在內(nèi)的多種編程語(yǔ)言的編程技能
- 在分布式系統(tǒng)和集群管理堆棧(日志記錄、監(jiān)測(cè)、調(diào)度等)方面擁有深入的經(jīng)驗(yàn)
- 具有持續(xù)集成和部署工具(例如 GitLabCI)的實(shí)際操作經(jīng)驗(yàn)
- 出色的用戶理解能力、在眾多競(jìng)爭(zhēng)請(qǐng)求中進(jìn)行優(yōu)先級(jí)排序的能力以及達(dá)成共識(shí)的能力
JR2003184
Deep Learning Performance Architect
- 在相關(guān)領(lǐng)域(例如性能模型和優(yōu)化)擁有 4 年以上的工作經(jīng)驗(yàn)將是一個(gè)加分項(xiàng)
- 熟悉深度學(xué)習(xí)平臺(tái)架構(gòu)(例如 GPU)
- 扎實(shí)的計(jì)算機(jī)體系結(jié)構(gòu)背景
- 熟悉 LLM 或生成式 AI 深度學(xué)習(xí)算法
- 在系統(tǒng)性能或能源效率模型開(kāi)發(fā)與分析方面的經(jīng)驗(yàn)
- 熟悉機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架
JR2005687
Senior LLM Train Framework Engineer
- 具備使用 AI 訓(xùn)練框架(例如 PyTorch、JAX)的經(jīng)驗(yàn),以及或具備推理和部署環(huán)境(例如 TensorRT-LLM、vLLM、SGLang)的相關(guān)經(jīng)驗(yàn)
- 熟練掌握分散式教學(xué)方法
- 精通 Python 編程、軟件開(kāi)發(fā)、調(diào)試、性能分析、測(cè)試編寫(xiě)以及文檔編制
- 具備 CUDA 或集體編程技能是一個(gè)很大的優(yōu)勢(shì)
- 在多個(gè)工程項(xiàng)目中持續(xù)展現(xiàn)出高效工作的表現(xiàn),并通過(guò)新的創(chuàng)新手段改進(jìn)了 AI 庫(kù)
- 對(duì) AI 或深度學(xué)習(xí)的基本原理及其實(shí)際應(yīng)用有著深刻的理解
JR2004388
Deep Learning Performance Software Engineer
- 出色的 C 或 C++ 編程和軟件設(shè)計(jì)能力
- 具備 Python 使用經(jīng)驗(yàn)者優(yōu)先
- MLIR 使用體驗(yàn)良好
- AI 代理具有優(yōu)勢(shì)
- 性能建模、性能分析、調(diào)試以及代碼優(yōu)化或有關(guān) CPU 和 GPU 的架構(gòu)知識(shí)
- 需要具備 GPU 編程經(jīng)驗(yàn)(使用 CUDA 或 OpenCL)
- 3 年相關(guān)工作經(jīng)驗(yàn)
JR2004376
Deep Learning Performance Software Engineer
- 在相關(guān)領(lǐng)域(例如性能模型和優(yōu)化)擁有 4 年以上的工作經(jīng)驗(yàn)將是一個(gè)加分項(xiàng)
- 熟悉深度學(xué)習(xí)平臺(tái)架構(gòu)(例如 GPU)
- 扎實(shí)的計(jì)算機(jī)體系結(jié)構(gòu)背景
- 熟悉 LLM 或生成式 AI 深度學(xué)習(xí)算法
- 在系統(tǒng)性能或能源效率模型開(kāi)發(fā)與分析方面的經(jīng)驗(yàn)
- 熟悉機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架
JR2004267
Senior Performance Software Engineer, Deep Learning Libraries
- 2 年以上相關(guān)行業(yè)工作經(jīng)驗(yàn)
- 展現(xiàn)出了出色的 C++ 編程和軟件設(shè)計(jì)能力,包括調(diào)試、性能分析以及測(cè)試設(shè)計(jì)等方面
- 具備以性能為導(dǎo)向的并行編程經(jīng)驗(yàn),即便并非在圖形處理器上進(jìn)行(例如使用 OpenMP 或 pthreads)
- 對(duì)計(jì)算機(jī)架構(gòu)有深入的理解,并且具備一定的匯編編程經(jīng)驗(yàn)
JR2003400
Deep Learning Performance Architect - Perf Tools
- 4 年以上的軟件開(kāi)發(fā)經(jīng)驗(yàn)
- 出色的軟件設(shè)計(jì)能力、編程能力(精通 C++ 或 Python),以及在底層程序中的分析和調(diào)試能力
- 對(duì)計(jì)算機(jī)架構(gòu)(流水線、內(nèi)存層次結(jié)構(gòu))以及操作系統(tǒng)基礎(chǔ)知識(shí)有深入的理解
- 具備性能建模、架構(gòu)模擬、性能分析及評(píng)估方面的經(jīng)驗(yàn)
JR2005883
Deep Learning Performance Architect
- 出色的 C 或 C++ 編程和軟件設(shè)計(jì)能力
- 具備 Python 使用經(jīng)驗(yàn)者優(yōu)先
- 性能建模、性能分析、調(diào)試以及代碼優(yōu)化或有關(guān) CPU 和 GPU 的架構(gòu)知識(shí)
- 需要具備 GPU 編程經(jīng)驗(yàn)(使用 CUDA 或 OpenCL)
- 3 年以上相關(guān)工作經(jīng)驗(yàn)
JR2002836
Software Engineer, cuDNN - Deep Learning
- 具備 C 或 C++ 開(kāi)發(fā)的強(qiáng)編程技能,有 CUDA 開(kāi)發(fā)的工作經(jīng)驗(yàn),并熟悉 Python
- 對(duì)線性代數(shù)有很好的理解
- 熟悉機(jī)器學(xué)習(xí)的最新趨勢(shì)
- 具有設(shè)計(jì)高級(jí)軟件架構(gòu)的經(jīng)驗(yàn)
- 良好的問(wèn)題解決能力,包括算法和數(shù)據(jù)結(jié)構(gòu)的應(yīng)用
- 具有性能分析、性能剖析和代碼優(yōu)化方面的經(jīng)驗(yàn)
JR1978683
Senior AI Training Performance Engineer
- 計(jì)算機(jī)科學(xué)、電子工程或計(jì)算機(jī)與電子工程相關(guān)專(zhuān)業(yè)博士學(xué)位(或同等經(jīng)驗(yàn))且有 5 年以上工作經(jīng)驗(yàn);或碩士學(xué)位且有 4 年以上相關(guān)工作經(jīng)驗(yàn)
- 在深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面有扎實(shí)的背景,尤其是訓(xùn)練方面
- 對(duì)計(jì)算機(jī)架構(gòu)有深入的理解,并熟悉 GPU 架構(gòu)的基礎(chǔ)知識(shí)
- 具備分析和優(yōu)化應(yīng)用程序性能的豐富經(jīng)驗(yàn)
- 具有處理器和系統(tǒng)級(jí)性能建模方面的經(jīng)驗(yàn)
- 具備 C++、Python 和 CUDA 編程技能
JR2003166
AI Computing Performance Architect, Perf Analysis and Kernel Dev
- 4 年以上 GPU 編程或深度學(xué)習(xí)應(yīng)用性能優(yōu)化的行業(yè)經(jīng)驗(yàn)
- 具備開(kāi)發(fā)和優(yōu)化通用矩陣乘法(GEMM)內(nèi)核的實(shí)踐經(jīng)驗(yàn)
- 在分析和提升 GPU 內(nèi)核性能方面有實(shí)際經(jīng)驗(yàn),并取得了可衡量的成果(例如性能提升、效率提高)
- 精通用于 GPU 加速的 CUDA 編程
- 具有性能分析工具(例如 NVIDIA Nsight)的使用經(jīng)驗(yàn)
JR1997399
AI Computing Development Engineer, TensorRT-LLM
- 2 年以上相關(guān)軟件開(kāi)發(fā)經(jīng)驗(yàn)
- 出色的 C 或 C++ 或 Python 編程及軟件設(shè)計(jì)能力,包括調(diào)試、性能分析和測(cè)試設(shè)計(jì)
- 對(duì) AI 有著濃厚的興趣,對(duì)深度學(xué)習(xí)(例如 LLM、生成模型等)的最新發(fā)展有所了解
- 擁有使用深度學(xué)習(xí)框架(例如 PyTorch、TensorRT-LLM、NeMo、vLLM)的工作經(jīng)驗(yàn)
JR1997648
Infrastructure Software Engineer, Deep Learning Libraries
- 具備扎實(shí)的 Python(或其他類(lèi)似語(yǔ)言)編程技能,并熟悉 C 或 C++ 開(kāi)發(fā)
- 具備搭建、維護(hù)及自動(dòng)化持續(xù)集成系統(tǒng)(例如 Jenkins)的經(jīng)驗(yàn)
- 精通軟件配置管理工具(例如 Git、Perforce)和構(gòu)建系統(tǒng)(例如 Make、CMake、Bazel)
JR1999021
Infrastructure Software Engineer, Deep Learning Libraries
- 3 年以上相關(guān)工作經(jīng)驗(yàn)
- 具備扎實(shí)的 Python(或其他類(lèi)似語(yǔ)言)編程技能,并熟悉 C 或 C++ 開(kāi)發(fā)
- 具備搭建、維護(hù)以及自動(dòng)化持續(xù)集成系統(tǒng)(例如 Jenkins、GitHub Actions、GitLab 管道、Azure DevOps)的能力
- 精通軟件配置管理工具(例如 Git、Perforce)和構(gòu)建系統(tǒng)(例如 Make、CMake、Bazel)
JR2003871
Senior AI Infrastructure Software Engineer
- 具備高級(jí)的 Python 技能(必須具備),豐富的 JavaScript 經(jīng)驗(yàn),以及深厚的軟件工程原理、面向?qū)ο缶幊袒蚝瘮?shù)式編程以及編寫(xiě)高性能、可維護(hù)代碼的知識(shí)
- 在實(shí)際生產(chǎn)環(huán)境中,具備出色的微服務(wù)、網(wǎng)絡(luò)應(yīng)用程序、SQL 和 NoSQL 數(shù)據(jù)庫(kù)(特別是 MongoDB 和 Redis)的構(gòu)建能力,且能夠運(yùn)用容器、Kubernetes 和 CI、CD 工具進(jìn)行開(kāi)發(fā)
- 在分布式消息系統(tǒng)(例如 Kafka)方面擁有豐富經(jīng)驗(yàn),并且能夠?qū)⑹录?qū)動(dòng)或解耦架構(gòu)融入到強(qiáng)大的企業(yè)解決方案中
- 在實(shí)際操作中整合和優(yōu)化 LLM 或智能代理框架(例如 LangChain、LangGraph、AutoGen、OpenAI 函數(shù)、RAG、向量數(shù)據(jù)庫(kù)、及時(shí)工程)的經(jīng)驗(yàn)
應(yīng)屆生與實(shí)習(xí)生招聘崗位
崗位申請(qǐng)通過(guò)以下郵箱投遞:
campuscn@nvidia.com
以下應(yīng)屆生與實(shí)習(xí)生招聘崗位工作地點(diǎn)為:北京或上海
JR2007916
Deep Learning Performance Architect - New College Grad 2026
JR2006158
Deep Learning Performance Architect - Intern - 2026
Deep Learning Performance Architect
- 深入理解軟硬件性能分析方法,并有優(yōu)化性能經(jīng)驗(yàn)
- 熟悉并行編程模型或 CUDA
- 了解常用 AI 編譯技術(shù)(例如 OpenAI Triton、MLIR、TVM 等)
- 熟悉主流 LLM 框架(vLLM、SGLang、TensorRT-LLM)
JR2007090
Deep Learning Performance Architect - New College Grad 2026
JR2006236
Computer Architecture Intern - LLM, 2026
JR2006158
Deep Learning Performance Architect - Intern - 2026
JR2006721
Computer Architecture Intern – 2026
Deep Learning Performance Architect
- 扎實(shí)的計(jì)算機(jī)系統(tǒng)知識(shí)背景,以及數(shù)理邏輯能力
- 對(duì)大模型場(chǎng)景的推理優(yōu)化工作有直接的相關(guān)經(jīng)驗(yàn),包括但不限于TensorRT LLM、vLLM、SGLang、MLC LLM、LLama.cpp 等
- L3 有模型系統(tǒng)聯(lián)合優(yōu)化的技術(shù)經(jīng)驗(yàn),包括但不限于低比特量化,speculative decoding、sparse attention、模型壓縮等
NVIDIA DevTech Compute APAC – 計(jì)算專(zhuān)家團(tuán)隊(duì)
我們是一支“懂?dāng)?shù)學(xué)、懂芯片、懂應(yīng)用”的工程師隊(duì)伍,分布在北京、上海、深圳、臺(tái)北、首爾、悉尼,擁有超過(guò) 100 名工程師。我們堅(jiān)持性能剖析導(dǎo)向優(yōu)化,基于真實(shí)工作負(fù)載做協(xié)同設(shè)計(jì),并在過(guò)去十多年里與國(guó)內(nèi)外領(lǐng)先公司合作,共同發(fā)現(xiàn)、優(yōu)化并推進(jìn)了眾多關(guān)鍵計(jì)算方向。
崗位申請(qǐng)通過(guò)以下郵箱投遞:
sh-recruitment@nvidia.com
以下社招崗位工作地點(diǎn)為:
上海、北京或深圳
社招崗位
JR2005689
Developer Technology Engineer – LLM
- 具備大規(guī)模 LLM 訓(xùn)練或推理方面的經(jīng)驗(yàn),包括 LLM 框架的開(kāi)發(fā)以及性能優(yōu)化
- 具備并行編程經(jīng)驗(yàn)者優(yōu)先,理想情況下需具備 CUDA C 或 C++ 編程能力
- 出色的溝通和組織能力,具備邏輯清晰的解決問(wèn)題思路,良好的時(shí)間管理和任務(wù)優(yōu)先級(jí)安排能力
JR2005874
Developer Technology Engineer - AI
- 3 年以上工作經(jīng)驗(yàn),熟練掌握 C 或 C++ 或 Python 編程語(yǔ)言,對(duì)軟件設(shè)計(jì)、編程技術(shù)和算法有深刻的理解
- 擁有 2 年以上基于 LLM 的訓(xùn)練框架開(kāi)發(fā)及性能優(yōu)化方面的經(jīng)驗(yàn)
- 扎實(shí)的數(shù)學(xué)基礎(chǔ),包括線性代數(shù)和數(shù)值方法
- 具備并行編程經(jīng)驗(yàn),優(yōu)先考慮熟悉 CUDA C 或 C++ 的申請(qǐng)者
JR2005877
Developer Technology Engineer - AI
- 需要至少 2 年的工作經(jīng)驗(yàn)
- 精通 C 或 C++ 或 Fortran 語(yǔ)言
- 對(duì)軟件設(shè)計(jì)、編程技術(shù)和算法有深入的了解
- 在 LLM 的訓(xùn)練和推理優(yōu)化方面擁有專(zhuān)業(yè)知識(shí),包括但不限于在分布式訓(xùn)練和推理、NCCL、NVSHMEM、IB、RoCE 等方面的開(kāi)發(fā)和優(yōu)化經(jīng)驗(yàn)
- 扎實(shí)的數(shù)學(xué)基礎(chǔ),包括線性代數(shù)和數(shù)值方法
- 具備并行編程經(jīng)驗(yàn)者優(yōu)先,理想情況下需熟悉 CUDA C 或 C++ 和 OpenACC 語(yǔ)言
崗位申請(qǐng)通過(guò)以下郵箱投遞:
campuscn@nvidia.com
以下應(yīng)屆生與實(shí)習(xí)生招聘崗位工作地點(diǎn)為:北京或上海
應(yīng)屆生與實(shí)習(xí)生招聘崗位
JR2007764
Developer Technology Engineer - AI, New College Graduate 2026
JR2007832
Developer Technology Engineer - AI, New College Grad 2026
JR2007816
Developer Technology Engineer - AI, New College Grad 2026
JR2006910
AI Developer Technology Engineer Intern, CUDA - 2026
JR2006904
Developer Technology Engineer Intern - 2026
Developer Technology Engineer
- 具備 LLM 訓(xùn)練或推理方面的經(jīng)驗(yàn),包括 LLM 框架的開(kāi)發(fā)以及性能優(yōu)化
- 具備并行編程經(jīng)驗(yàn)者優(yōu)先,理想情況下需具備 CUDA C 或 C++ 編程能力
- 出色的溝通和組織能力,具備邏輯清晰的解決問(wèn)題思路,良好的時(shí)間管理和任務(wù)優(yōu)先級(jí)安排能力
JR2007742
Developer Technology Engineer - New College Grad 2026
Developer Technology Engineer
- 具備使用一種或多種物理仿真工具(例如 MuJoCo、Isaac Sim、PyBullet、Drake 或 Gazebo)的實(shí)際經(jīng)驗(yàn)
- 曾參與具身智能(Embodied AI)相關(guān)項(xiàng)目,或在專(zhuān)注于物理仿真的仿人機(jī)器人公司具有工作經(jīng)歷
- 熟悉 C++、CUDA、Python 和 Linux
GTC 2026 將于 2026 年 3 月 16 至 19 日在美國(guó)加州圣何塞及線上同步舉行,點(diǎn)擊鏈接立即注冊(cè)線上大會(huì)或購(gòu)買(mǎi)現(xiàn)場(chǎng)參會(huì)門(mén)票。
注冊(cè)參加 AI 大會(huì) | 2026 年 3 月 16 — 19 日 | NVIDIA GTC 圣何塞及線上
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.