![]()
蘋果公司研究人員于2026年1月14日公布了一款名為Manzano的新型多模態人工智能模型,該模型能夠同時實現高效的視覺理解與文本到圖像的生成,解決了當前同類模型在兩項任務間難以兼顧的問題。
Manzano由近30名蘋果研究人員共同開發,其核心技術在于采用混合視覺分詞器(hybrid vision tokenizer),同時生成連續和離散的視覺表征,從而統一處理圖像理解和圖像生成任務。該模型架構包含三個主要組件:一個生成雙重視覺表示的混合視覺分詞器、一個接收文本和圖像嵌入并預測后續離散標記的語言模型解碼器,以及一個將預測標記轉化為實際像素的圖像解碼器(基于擴散模型)。
傳統多模態模型通常因視覺表征方式沖突而受限——圖像生成傾向于使用離散標記,而圖像理解則依賴連續嵌入。為解決這一矛盾,許多系統采用雙分詞器策略或凍結預訓練模型連接獨立生成模塊,但這往往導致任務沖突或失去協同優化機會。Manzano通過將語義預測與像素渲染分離,在保持語言模型統一處理能力的同時,實現了兩項任務的高效協同。
實驗結果顯示,Manzano在多個基準測試中表現優異,無論是3億參數的小型版本還是300億參數的大型版本,均達到或超越現有最先進統一多模態模型的性能水平。該模型能有效應對反直覺或違背物理規律的提示(如“鳥在大象下方飛行”),并在圖像編輯任務中展現出強大能力,包括指令引導編輯、風格遷移、補繪/擴繪及深度估計。
盡管目前Manzano尚未集成至任何蘋果設備中,但這項研究表明蘋果正在積極提升其自有圖像生成技術,未來有望應用于Image Playground等本地化AI功能中,進一步增強用戶創作體驗。相關論文已公開發布,詳細闡述了模型的訓練方法、擴展性實驗與人類評估結果。
參考鏈接:
https://9to5mac.com/2026/01/14/apple-model-manzano-combines-vision-understanding-and-image-generation/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.