網易首頁 > 網易號 > 正文申請入駐

IBM推出Mellea開源庫助力輕量級AI模型提升效率

2026-01-22 21:50:31　來源: 至頂頭條

北京舉報

分享至

大語言模型仍然主導著AI排行榜，但新興的輕量級模型正在縮小差距。例如，IBM最新的Granite 4.0模型系列能夠以極低的成本超越更早期且規模更大的前沿模型。

這就是IBM和其他科技公司在許多企業任務中采用小語言模型（SLM）的原因。運行這些模型需要更少的計算能力、內存和電力，正如斯坦福大學團隊最近發現的那樣，它們能夠在筆記本電腦或手機上勝任大多數AI任務。為了標記這一里程碑，該團隊提出通過所謂的"每瓦特智能比"來評估大語言模型的規模。

IBM Granite模型在這一指標上已經表現突出。但如果通過以更適合SLM的方式構建應用程序，能夠進一步增強其智能水平呢？IBM最近發布了Mellea，這是一個新的開源庫，旨在通過在推理時施加要求等方式，使與語言模型的交互像與其他軟件一樣可預測。

Mellea仍處于早期階段，是IBM稱為生成式計算的更大研究議程的一部分。目前，智能體的構建方式混亂且臨時，需要冗長復雜的提示，只有大型前沿模型才能處理。生成式計算設想了一種更結構化、更簡化的設計，這將使Granite和其他精簡的開源大語言模型能夠表現得與重量級模型一樣好甚至更好。

IBM的一對研究科學家Nathan Fulton和Hendrik Strobelt在近一年前開始構建Mellea。兩人從小就開始編程。在東德長大的Strobelt在父親的Robotron計算機上學會了BASIC語言。在圣路易斯郊區，Fulton在家里被長期放置在壁櫥里的舊Apple II計算機上自學了Applesoft BASIC。

他們都在相差15年的時間里在研究生院學習了計算機科學。Strobelt專注于搜索和可視化大型文檔集合的方法，而Fulton專門研究用于驗證自動化機器（從汽車到飛機）按人類意圖行為的數學邏輯。當對大語言模型的興趣不斷升溫時，他們都在馬薩諸塞州劍橋的IBM研究院工作。

我們最近與他們交流，討論了Mellea以及他們讓小型開源語言模型更可靠和用戶友好的探索。

解決的核心問題

Fulton表示，他們希望用小模型做大模型的事情。他們認為最好的方法是擺脫冗長的提示和獲得想要響應的神奇咒語。可以通過將問題分解為可驗證和迭代解決的小塊來實現這一點。將任務分解為一系列子任務通常會帶來更好的結果，小模型可以非常高效地做到這一點。

Strobelt補充說，大語言模型需要失敗模式。任何與大語言模型合作過的開發者都會立即理解為什么擺脫提示并提供代碼會很有用。小到中型大語言模型有很多價值，Mellea可以釋放這些價值。

失敗模式的重要性

Fulton強調失敗模式的重要性。構建一個在90%示例上有效的演示很容易，但當你不知道系統在哪里會失敗時，10%的失敗率是不可接受的。如果你試圖自動化一個失敗很重要的任務，而沒有辦法檢測失敗模式，那它就不會工作。想象一下，如果你寫的每十封郵件中有一封不發送或發送給所有人，它就不會是一個有用的商業工具。

Mellea中的失敗模式實現

Strobelt解釋了通過稱為"指令-驗證-修復"的模式來實現。向模型發送指令；根據一組要求驗證返回的內容。不僅僅是與模型聊天，還可以要求它寫一封邀請同事參加辦公室聚會的郵件，并附帶兩個條件：郵件應該引人入勝，且不超過100個單詞。如果兩個條件都不滿足，模型會回去嘗試修復其初始工作。通過添加規范，也定義了失敗。

Fulton舉例說，如果你在寫法律簡報，可以解析引用并檢查案例法以查看它們是否存在。如果模型在運行時產生錯誤引用，可以拒絕它并繼續。

模型的選擇性使用

Fulton說明Mellea將問題分解為片段，僅在需要時使用語言模型。在最先進的GPU上運行大語言模型來解決相對簡單的問題是沒有意義的。語言模型以自然語言進行計算。無論告訴它編寫程序還是解決數學問題，問題都作為文本處理；數學問題被重新表述為算術，在計算器上運行，答案以自然語言返回。

Strobelt補充說，如果可以將長提示分解為更小的片段，可以減小模型大小，因為每個指令都更小。這是經典的分而治之方法。連接組件，可以并行運行一些，但每個都可以單獨優化。

IBM采用小模型的原因

Fulton指出它們更節能，使用更短的提示，消耗更少的計算資源。大語言模型需要頂級芯片，這些芯片會變得很熱并推高推理能源成本。小模型不需要耗電的芯片，也不需要所有的冷卻設備。

協作過程

Fulton描述了他們最初并肩編寫代碼，隨著范圍擴大，他們成為共同負責人并雇用了兩名軟件開發人員。現在他們每天上午10點開站立會議，并在IBM內部宣傳Mellea。

Strobelt表示他希望Mellea直觀且易于使用，而Nathan想要構建軟件系統。理論背景和用戶體驗關注可以帶來很好的討論。

與其他框架的區別

Fulton說Mellea專為編寫結構化程序而設計，可以將復雜任務分解為更小的可檢查步驟。它提供了逐步執行約束的機制。雖然可以在其他框架上執行此操作，但Mellea有一種有主見的編程風格。他們為設計需要在現實生活中工作的強大系統的軟件工程師構建它。

Strobelt補充說Mellea不會將你鎖定在可能很昂貴的智能體軟件模式中。如果你是企業，不需要用大炮打鳥。

長期愿景

研究人員希望在開放空間中實現協同設計的軟件棧和模型。Mellea是為炒作周期的長尾而構建的。如果可以運行小模型，可以運行更多Token，因為每個Token更便宜。可以運行驗證調用并仍然節省一些錢。

對AI未來的展望

Strobelt對創建能夠幫助找到疾病治愈方法或發現世界運作基本原理的應用程序感到興奮。Fulton認為AI令人興奮，因為任何人都可以構建非常強大的東西。他表示如果現在是博士生，可能會在中國研究通用機器人技術，那里有一個生態系統。機器人技術可能會在未來幾年迎來ChatGPT時刻。

Q&A

Q1：Mellea是什么？它能解決什么問題？

A：Mellea是IBM開發的開源庫，旨在讓與語言模型的交互像其他軟件一樣可預測。它通過"指令-驗證-修復"模式，將復雜任務分解為可驗證的小步驟，讓小語言模型能夠高效完成大模型的工作，同時提供失敗檢測機制。

Q2：小語言模型相比大語言模型有什么優勢？

A：小語言模型更節能，需要更少的計算能力、內存和電力，不需要頂級芯片和復雜的冷卻設備。IBM提出了"每瓦特智能比"概念來評估模型效率，小模型在成本控制方面表現突出，同時仍能勝任大多數AI任務。

Q3：生成式計算與傳統智能體開發有什么不同？

A：傳統智能體構建方式混亂臨時，需要冗長復雜的提示，只有大型前沿模型才能處理。生成式計算采用更結構化、簡化的設計，通過分而治之的方法將問題分解為小塊，讓輕量級開源模型也能達到甚至超越重量級模型的表現。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.