![]()
機器之心報道
編輯:+0、陳陳
剛剛,Transformers v5 發布首個 RC(候選) 版本 v5.0.0rc0。
![]()
GitHub:https://github.com/huggingface/transformers/releases/tag/v5.0.0rc0
這次更新標志著這一全球最流行的 AI 基礎設施庫,正式跨越了從 v4 到 v5 長達五年的技術周期。
作為 Hugging Face 最核心的開源項目,自 2020 年 11 月 v4 版本發布以來,Transformers 的日下載量已從當時的 2 萬次激增至如今的超過300 萬次,總安裝量突破12 億次
它定義了業界如何使用模型,支持的架構也從最初的 40 個擴展至超過400 個,涵蓋了文本、視覺、音頻及多模態領域,社區貢獻的模型權重更是超過75 萬個,涵蓋了文本、視覺、音頻及多模態領域。
官方表示,在人工智能領域,「重塑」是保持長盛不衰的關鍵。Transformers 作為生態系統中領先的模型定義庫,需要不斷演進并調整庫的形態,以保持其相關性。
v5 版本將 PyTorch 確立為唯一核心后端,并聚焦于四大維度的進化:極致的簡潔性、從微調邁向預訓練、與高性能推理引擎的互操作性,以及將量化提升為核心功能。
簡潔性
團隊的首要關注點是簡潔性。
Hugging Face 希望模型的集成方式是干凈、清晰的。簡潔性能夠帶來更廣泛的標準化、更強的通用性,以及更全面的生態支持。
新增模型
從本質上講,Transformers 始終是一個模型架構工具箱。Hugging Face 目標是收錄所有最新的模型架構,并成為模型定義的唯一可信來源。
在過去 5 年里,平均每周新增 1–3 個新模型,時間線如下圖所示:

- 模塊化方法
在過去一年里,Hugging Face 大力推進模塊化設計。這種方式使維護更簡單、集成速度更快,并能促進社區之間的協作。
![]()
盡管 Hugging Face 始終尊崇「一個模型,一個文件」的哲學,但他們仍在不斷引入一些抽象層,以簡化通用輔助函數的管理。這方面最典型的例子就是引入了 AttentionInterface,它為注意力機制提供了一個集中的抽象層。Eager 方法將保留在建模文件中;而其他方法,如 FA1/2/3 (FlashAttention)、FlexAttention 或 SDPA,則被移至該接口中。
- 模型轉換工具
Hugging Face 也正在大力構建工具,以幫助識別某個新模型與現有模型架構之間的相似性。該功能通過機器學習來發現不同模型文件之間的代碼相似度。
進一步來說,Hugging Face 希望自動化模型轉換流程:當有新模型需要集成到 Transformers 中時,系統將自動創建一個草稿 PR(Pull Request),將其轉換成符合 Transformers 格式的版本。
這一流程將減少大量手動工作,并確保整體的一致性。
代碼精簡
- 精簡 Modeling & Tokenization/Processing 文件
Hugging Face 對建模文件和標注相關文件也進行了大規模重構。
得益于前文提到的模塊化方法,加上對不同模型之間的統一標準化,建模文件得到了顯著改善。標準化讓許多不真正屬于模型本體的工具都被抽象出去,使建模代碼只保留模型前向 / 反向傳播所需的核心部分。
與此同時,v5 也在簡化 tokenization & processing 文件:未來將只關注 tokenizers 后端,并移除 Fast 和 Slow tokenizer 這兩個概念。
圖像處理器今后也將只保留 fast 版本,這些版本依賴 torchvision 作為后端。
最后,v5 將逐步停止對 Flax / TensorFlow 的支持,轉而專注于 PyTorch 作為唯一后端;不過團隊也在與 JAX 生態合作伙伴協作,以確保模型能夠與該生態兼容。
PyTorch 基金會執行董事、Linux 基金會 AI 部總經理 Matt White 表示:隨著 v5 版本的發布,Transformers 正全面轉向 PyTorch。
訓練
關于 v5 版本的訓練仍然是團隊工作的重點,之前 Hugging Face 專注于微調而不是大規模預訓練以及完整訓練,v5 加大了對后者的支持。
預訓練
為了支持預訓練,Hugging Face 重新設計了模型初始化方式,同時也加入了對前向與反向傳播優化算子支持。目前,v5 已經與 torchtitan、megatron、nanotron 等工具實現了更廣泛的兼容。
微調與后訓練
Hugging Face 表示將繼續與 Python 生態系統中的所有微調工具保持緊密合作。同時,Hugging Face 也在與 JAX 生態中的 MaxText 等工具兼容,以確保他們的框架與 Transformers 之間具備良好的互操作性。
現在,所有微調和后訓練工具都可以依賴 Transformers 作為模型定義的來源;這也進一步可以通過 OpenEnv 或 Prime Environment Hub 來支持更多的 Agentic 使用場景。
推理
推理也是 v5 優化的重點方向之一,Hugging Face 帶來了多項范式級的更新:包括專用內核、更干凈的默認設置、新的 API,以及優化對推理引擎的支持。
此外,和訓練階段類似,Hugging Face 也投入了大量精力來封裝推理內核。
在這項工作之外,他們還為推理新增了兩個專用 API:
- 連續批處理和 paged attention 機制。這些功能已經在內部開始使用,之后會有使用指南放出。
- 全新的 transformers serve 服務系統,可部署一個兼容 OpenAI API 的服務器,用于部署 Transformers 模型。
在 v5 的更新中,Hugging Face 明確強化了對推理場景的支持,尤其是像模型評估這類需要同時處理大量請求的任務。
值得注意的是,Transformers v5 的定位并不是取代 vLLM、SGLang、TensorRT-LLM 這樣的專業推理引擎。相反,他們的目標是與這些引擎實現兼容。
生產環境
本地部署
團隊與最流行的推理引擎緊密合作,從而能夠將 Transformers 作為后端使用。這帶來了顯著的價值:只要某個模型被添加到 Transformers 中,它就會立即在這些推理引擎中可用,同時還能充分利用各引擎的優勢,例如推理優化、專用內核、動態批處理等。
另外,Hugging Face 也在與 ONNXRuntime、llama.cpp 和 MLX 展開密切合作,以確保 Transformers 與這些建模庫之間具有良好的互操作性。例如,得益于社區的大量努力,現在在 Transformers 中加載 GGUF 文件以進行進一步微調變得非常簡單。反之,也可以輕松地將 Transformers 模型轉換為 GGUF 文件,以便在 llama.cpp 中使用。
對于 MLX 而言也是如此,transformers 的 safetensors 文件可以直接兼容 MLX 的模型。
最后,Hugging Face 也在推動本地推理的邊界,并與 executorch 團隊緊密合作,讓 Transformers 模型能夠在設備端直接運行,對多模態模型(視覺、音頻)的支持也在快速擴展中。
量化
量化正迅速成為當代前沿模型開發的標準,許多 SOTA 模型如今都以低精度格式發布,例如 8-bit 和 4-bit(如 gpt-oss、Kimi-K2、DeepSeek-R1)。
緊跟技術前沿,v5 將量化作為 Transformers 的核心能力之一,確保它能夠與主要功能完全兼容,并為訓練與推理提供一個可靠的量化框架。
參考鏈接:https://huggingface.co/blog/transformers-v5
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.