DeepSeek4月24日發(fā)布了DeepSeek-V4-Pro旗艦?zāi)P图癉eepSeek-V4-Flash高效模型。同日下午,由智源研究院牽頭研發(fā)的眾智FlagOS宣布已在第一時間對兩個“巨無霸”模型進行全面適配,目前已完成DeepSeek-V4-Flash在8款以上 AI 芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數(shù)等國產(chǎn)芯片。FlagOS 同時正在推進 DeepSeek-V4-Pro 模型在多個芯片的遷移適配,后續(xù)即將開源。
據(jù)了解,此次發(fā)布的DeepSeek-V4-Flash采用“FP4+FP8混合精度”,該精度目前僅英偉達(dá)Blackwell及之后的高端芯片支持,國內(nèi)所有非英偉達(dá)AI芯片均未支持FP4。換句話說,如果按原有技術(shù)路徑,這個新模型基本只“認(rèn)”英偉達(dá)最新款顯卡。
圍繞這一難題,F(xiàn)lagOS研發(fā)團隊進行了迅速攻堅,實現(xiàn)了FlagGems全算子替代、為o-group采用獨立張量并行策略解鎖更多低顯存場景、FP4到BF16的精度路徑轉(zhuǎn)換等三項關(guān)鍵技術(shù)突破。以FP4到BF16的精度路徑轉(zhuǎn)換為例,研發(fā)人員通過權(quán)重反量化和計算路徑重建,讓DeepSeek-V4-Flash不再只是“最新款英偉達(dá)卡才能跑”的模型,而是能夠在當(dāng)前各種廠商的主流AI芯片上穩(wěn)定運行。
據(jù)悉,此次FlagOS的適配成果,從算子層、編譯層、框架層到工具層,為大模型跨芯片適配提供了全方面技術(shù)支撐,將原本數(shù)周的適配周期縮短至數(shù)天,真正實現(xiàn)頂尖國產(chǎn)大模型在國產(chǎn)芯片上的極速落地。
來源:北京日報客戶端
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.