2023 年,三星公司在接入 ChatGPT 不久之后,接連發生數起內部機密泄露事件。事件起因是三星員工將半導體設備參數、產品源代碼和生產良率等商業機密直接輸入對話系統,導致敏感信息被錄入 ChatGPT 的訓練數據庫。
無論是政務數據、個人隱私還是企業知識產權,一旦上傳至云端都可能面臨泄露風險。當前手機上常見的 AI 應用,其運行模式通常是將用戶的查詢數據上傳到云端服務器進行處理,而非在手機本地運行大模型。這意味著用戶在使用時需要同意服務商的數據使用協議,授權其上傳和處理數據。
這種云端模式存在隱私和安全方面的風險。未來,隨著大模型使用成本的下降,AI 將真正滲透到日常生活的方方面面。屆時,如果未來所有智能交互都依托云端基礎設施,社會各層級的信息將不可避免地向少數平臺集中,無法兼顧數據安全和智能化。
為此,南京大學計算機學院研究員李猛團隊在近期一項研究中,通過使用國產顯卡來推動模型的本地化部署,旨在解決上述隱私與安全問題。與此同時,該研究也旨在利用更少的顯存資源完成更復雜的計算任務,從而緩解高性能顯存供應緊張的問題。
![]()
(來源:課題組)
研究中,他和團隊首次發現了混合專家模型中“低分專家可被替換”這一關鍵規律,基于此規律他們首次設計出能將專家緩存命中率提升 2 倍以上、能夠最大化顯存利用效率的系統方法。
在中小企業或家庭等邊緣計算場景中,這項技術能大幅降低硬件成本。例如,原本需要兩張顯卡才能運行的任務,現在一張顯卡即可勝任。未來人們不再需要將模型全部權重加載到顯存中,就能顯著節省推理服務的顯存占用。
另一個極具潛力的方向是移動端。手機內存天然受限,目前大多只能運行高度壓縮的模型,這往往伴隨著計算量增大和性能損失。而本次技術能將更強大的混合專家模型部署到手機上,這意味著用戶無需購買超大內存的手機,就能在現有設備上體驗到更高智能水平的模型。
![]()
(來源:https://arxiv.org/pdf/2508.18983)
未來無需為追求更強 AI 購買更高內存手機
李猛團隊之所以致力于將大模型能力部署在手機等邊緣端側設備上,是因為這種方式能讓 AI 計算在本地完成,數據無需離開用戶設備,從而在隱私保護、安全性和服務可靠性方面都更具優勢,為用戶提供一種更穩健、可控的 AI 使用方案。
那么,這會對手機價格帶來影響嗎?手機內存規格是廠商定價的一個因素。但是,本次技術的核心在于更高效地利用手機已有的內存硬件,而不是改變其物理規格或推高價格。
李猛觀察到,隨著大模型能力向端側下沉,未來手機行業的一個趨勢是:為了在本地運行更強的 AI 模型,手機內存規格可能會被動提升,這確實可能導致手機價格上漲,用戶相當于為更強大的端側智能付費。而本次成果恰好提供了一個更優的解決方案:它能讓手機在現有內存容量下,實現原本需要更大內存才能支撐的推理能力。
這意味著用戶可能無需為追求更強 AI 功能而必須購買更高內存版本的手機,從而在獲得先進體驗的同時,緩解了因硬件升級帶來的成本壓力。
對于普通用戶而言,他們可能直觀上會覺得云端大模型能力更強、體驗更好。然而,在必須使用本地模型的合規場景下,本次技術首先解決了“有無”問題,使得在端側部署可用模型成為可能。
其次,對于高度重視個人隱私的用戶來說,這項技術至關重要。如果你很在意數據安全,那么就不希望將個人信息交給那些數據處理政策不明的 App。
目前,一些大模型具備所謂的“讀心術”功能,本質上是通過全面收集和分析用戶的歷史數據(包括使用記錄和對話內容)來推測個人信息。這種深度的數據采集和潛在的信息泄露風險是相當可怕的,而本地化部署則能從根本上避免此類隱私問題。
![]()
(來源:https://arxiv.org/pdf/2508.18983)
將模型的內存占用減少一半以上
據介紹,李猛團隊在與業界溝通時發現:當前國內高校采購英偉達顯卡時,面臨價格高昂和受制裁的限制,因此需要尋找國內可替代的顯卡方案。
然而,李猛在嘗試使用國產顯卡進行開發時發現,這些顯卡雖然在算力上能夠滿足需求,但顯存容量普遍不足。例如,在嘗試將一個大模型載入 24GB 顯存時,盡管算力是足夠的,但卻因顯存不足而無法加載完整模型。
目前,各種手機助手在提供本地 AI 功能時,底層實際上都運行著一個大模型(可能是廠商自研的),需要被加載到手機內存中進行本地計算。
眼下,一些廠商已開始嘗試將模型完全部署在本地運行,但這帶來了顯著的內存占用問題。手機內存本身已被各類應用大量占用,再加載一個大模型就如同在擁擠的房間里硬塞進一個沙發,空間會更加捉襟見肘。
因此,李猛團隊開始探索如何在固定規格的顯卡中加載并運行更大的模型。核心思路是充分利用算力資源,通過優化顯存使用來以更經濟、高效的方式運行模型。
由于 Transformer 等架構的模型是分層計算的,所以當前那些沒被使用的層無需一直占用顯存。
基于此,他們將暫時不需要的模型權重存放在外部,待需要時再動態加載至顯存中,從而緩解顯存瓶頸,旨在實現在有限顯存條件下運行更大模型的目標,即讓模型無需完整駐留內存,而是只將當前必需的部分保留在內存中,其余部分暫存于外部,待需要時再動態調入。
這相當于將模型的內存占用減半甚至更多,從而在有限的手機內存資源下,高效地實現強大的本地 AI 功能。
![]()
(來源:https://arxiv.org/pdf/2508.18983)
刷新對于國產顯卡的認識
另據悉,這次研究由李猛和業界共同探索完成。最初,李猛團隊期望能在手機上部署該技術,但發現當時模型對內存的需求仍然過大,超出了手機的承載能力,因此手機端合作暫時擱置。
隨后,李猛團隊轉向與國產算力團隊展開合作。后者為其提供了自研的國產計算卡等資源支持,這些卡雖然算力足夠,但顯存容量同樣有限。在這一現實約束下,李猛和學生梳理了已有的相關工作,但無論是預加載方案還是直接丟棄部分專家的方案,都無法在速度和精度上同時令人滿意。
于是,他們轉而開始研究混合專家模型訓練過程中的原理性工作,并注意到了其中可能存在的專家冗余特性。由此,他們提出了“專家替換”的猜想,但初期嘗試表明,直接進行全局替換效果不佳。
此時,他們關注到高通研究院的相關成果,后者發現丟棄低分專家有時對精度影響不大,這讓他們意識到:或許可以專注于對低分專家進行替換。
將“替換”與“聚焦低分”這兩個思路結合后,他們取得了關鍵突破:只需替換低分專家,就能同時實現速度快和精度高。但是,這只優化了單步計算,而一個實用的系統需要達到全局最優。
為此,他們進一步探索了專家選擇在連續幾步中的規律,發現其存在明顯的連續性。基于此,李猛團隊將專家替換策略與多步預測相結合,設計了一套完整的系統,能夠最大化專家復用概率并將顯存命中率提升至最高。
當這套系統在國產算力和英偉達等計算平臺上驗證有效后,他們重新審視了手機端的應用。雖然手機端需要更精細的內存管理,但底層原理是相通的。
![]()
(來源:https://arxiv.org/pdf/2508.18983)
據了解,整個研發過程是在“不改動模型架構、不犧牲精度”的嚴格約束下推進的。正是這種約束促使他們必須從系統層面發現新規律,并讓其果真發現了“專家可替換性”的規律,它直接催生了新的系統設計,帶來了整體性能的顯著提升。目前,這一“專家替換”思路及相應的系統設計仍是該團隊的首創,尚未見到類似工作。
這次研究也讓李猛對國產硬件有了全新的認識。在項目啟動前,他尚未實際接觸到國產硬件,對國產算力的性能和生態完善度也曾存有疑慮。而通過這次實踐,他切身感受到國產硬件生態正在快速成長且實力可觀。
盡管在工具鏈等方面可能仍面臨一些挑戰,但他和團隊所需的支持最終都能找到解決方案。“可以說,我親眼見證了國內計算生態與硬件能力建設的顯著進步。雖然與國際頂尖水平仍有差距,但未來的發展前景無疑是值得期待的。”李猛表示。
![]()
(來源:https://arxiv.org/pdf/2508.18983)
基于此次研究,他和團隊形成了一個重要認知:即單純聚焦于硬件或軟件算法都遠遠不夠,必須推動軟硬件與算法的協同設計和螺旋式迭代。
這指引他們確立了新的研究方向:持續專注于端側與邊緣側,包括手機、個人電腦及小型服務器等資源受限場景,致力于提升這些設備上的智能計算能力。
李猛告訴 DeepTech,他的愿景是希望智能計算(如 Token 所代表的計算資源)能像水電一樣,成本降至全社會可普遍使用的水平,讓小型或廉價設備也能承載強大的智能。
展望未來,他計劃進一步降低單位智能的計算成本,并推動其在更廣泛場景的落地。未來,也許僅需幾十或幾百元的小型硬件模塊,就能讓普通設備具備顯著的智能化能力。這將從根本上提升社會生產力,將人們從重復、繁重的勞動中解放出來,從事更具創造性的工作。
正如自來水的普及徹底改變了人們取用水的方式,李猛相信通過將智能計算推向邊緣和終端、不斷降低成本,最終將實現智能技術的普惠化。
參考資料:
相關論文 https://arxiv.org/pdf/2508.18983
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.