1月28日,智源研究院主導的多模態大模型研究成果“通過預測下一個詞元進行多模態學習的多模態大模型”正式上線國際頂級學術期刊Nature,預計2月12日刊發紙質版。資料顯示,這是我國科研機構主導的大模型成果首次登陸Nature正刊。該研究推出的Emu3模型,核心突破在于僅采用“預測下一個詞元”的自回歸路線,將文本、圖像、視頻統一到同一表示空間,通過單一Transformer架構實現多模態數據的聯合訓練,無需依賴對比學習、擴散模型等專用路線。實驗顯示,其在文生圖、視覺語言理解、視頻生成等任務上的性能,可與各類成熟的任務專用模型相媲美,還能拓展至圖文交錯生成、機器人操作建模等場景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.