在很多人的印象里,想要在本地運行百億級別的大模型,至少是需要一臺配備了足夠大顯存顯卡或者計算卡才能夠做到的事情,畢竟這些模型要跑起來,顯存的壓力往往要比算力的壓力要大上不少,輕薄本和迷你主機這種輕小、便攜的產品則往往只能夠勉強運行7B乃至更小的模型,盡管對于日常的使用來說已經基本夠用,但是對于很多有著更高需求的用戶來說依舊有些捉襟見肘。
![]()
不過,當一臺配備酷睿Ultra 9 285H處理器和96GB內存,但是體積僅有1升的迷你主機在萬眾矚目之下流暢運行1200億參數的大模型時,相信整個行業仿佛聽到了一個新時代開啟的轟鳴。英特爾通過系統性創新,將昔日遙不可及的數據中心級算力,成功植入個人計算設備的深刻變革。上周在重慶舉辦的2025英特爾技術創新與產業生態大會上,英特爾在AI新技術與軟件創新論壇上的分享,為業界展現了在當下的邊緣算力下,端側AI實用化程度的重要進展。
![]()
內存架構的革命性突破,是英特爾此次技術展示的基石。長期以來,集成顯卡的顯存配置如嚴重制約了大型模型在端側設備上的運行潛力,即使一些設備能夠在BIOS當中調整顯存分配,但是繁瑣的設置過程以及固定分配對于系統內存的占用都影響著使用體驗。而英特爾推出的“共享GPU內存覆蓋”技術,徹底打破了這一桎梏。用戶可通過英特爾顯卡控制面板,在5%至95%的寬泛區間內,自由調節系統內存分配給顯存的比例。這種動態調配能力意味著,在128GB系統內存的豪華配置下,高達120GB的空間可轉化為顯存,在96GB配置上也能釋放出90GB的龐大顯存資源。更具革命性的是其獨特的并行訪問機制,CPU與集成顯卡能夠同時訪問這片共享內存區域,既確保了大模型對顯存的渴求,又保障了系統多任務處理的流暢性,這種精妙的平衡設計,展現了英特爾在系統架構優化上的深厚功力。正是這一“大顯身手”的創新,讓千億模型在輕薄本和迷你主機上運行成為可能。
![]()
現場演示環節展示了Ultra 9 285H處理器搭配96GB內存配置在從20B到120B參數規模模型在端側設備上運行的實際效果,面對“小李未吃早飯跑步暈倒”的同一問題時,GPT-OSS-20B模型給出了簡潔的基礎性回答;Qwen3-30B模型則展現出多角度的分析能力,提供了多條原因與建議;而當挑戰升級至GPT-OSS-120B模型時,其回答不僅縝密全面,更以結構化表格形式呈現,并附上詳細的解釋與防范措施。67GB的顯存占用,直觀印證了大內存配置對于承載頂尖智能的必要性。更具震撼力的是長上下文處理能力的驗證,當《紅樓夢》前五章超過30K的復雜文本被輸入80B模型,并被要求以“劉姥姥與賈寶玉滴血認親”的創意方向續寫第六章時,系統不僅深刻理解了古典文學的語境與風格,更融合了現代網絡敘事元素,生成了長達1500字、情節跌宕起伏的全新章節。這一壯舉證明,端側AI在深度理解以及更多需要創造能力的領域展現實力。
![]()
英特爾為端側AI帶來的改變不僅如此,端側AI還從單純的思考者,進化為具備聽、看、說等全方位感知能力的行動者。在視覺感知領域,DeepSeek OCR技術的本地化部署展現了卓越實力。不同于傳統基于CNN的OCR,這款Transformer架構的模型,不僅能精準識別復雜版式文檔中的文字與排版,更能將表格數據直接轉換為規范的Markdown格式,為日常辦公的數字化流程提供了高效、私密的解決方案。在聽覺與表達層面,TTS聲音克隆技術在端側的實現同樣令人矚目。該系統支持FastSpeech2、GPT-Sovits等主流模型,不僅能生成高度自然的個性化語音,還能模擬雙人對話場景。更重要的是,本地化處理完全規避了聲音數據上傳云端的隱私風險,帶來更安全,更靈活的端側使用體驗。
![]()
最具沖擊力,也最吸引人的展示,莫過于多種AI應用融合的自動化工作流。面對“制作康熙與洪承疇野史短片”的復雜任務,英特爾展示了從信息搜集到視頻生成的全鏈條自動化處理。當網絡爬蟲遇到無法抓取的頁面時,DeepSeek OCR迅速介入,將圖像化的信息轉化為可處理文本;隨后,大模型對信息進行分解,通過模型上下文協議(MCP)調用后續工具生成口播腳本;TTS技術擬合出指定聲音,最終由Wan2.2模型生成視頻。整個流程僅需數小時,而過去完成同樣工作,一個工作室可能需要耗費數天甚至一周時間。這一生動案例,淋漓盡致地展現了端側AI在重塑生產力方面的巨大潛能,它將復雜的創作過程壓縮,讓個體能力得到前所未有的放大。
![]()
為了持續突破算力邊界,英特爾在硬件創新上同樣持續向前。與知名主控廠商群聯PHISON聯合開發的aiDAPTIV+技術,開創性地提出了“以存代算”的理念。該技術通過將大模型推理過程中消耗算力最嚴重的預處理階段所產生的KV Cache,持久化存儲于PCIe Gen5 AI SSD中。當用戶遇到相似問題時,系統無需重新計算,可直接從高速SSD中調用緩存,從而極大加速響應。在實際測試中,針對RAG系統和代碼生成場景,這項技術實現了驚人的7-8倍首token時間提升,為實時性要求嚴苛的應用鋪平了道路。
![]()
英特爾還借助雷電互聯技術構建本地高效算力集群。利用雷電接口高達40Gb/s的帶寬和僅為5G以太網1/3-1/5的超低時延,兩臺酷睿Ultra 9 285H設備可通過張量并行方式,協同運行高達235B參數的龐大模型。盡管當前6-7 tokens/s的輸出速度尚有提升空間,但這一分布式架構為預算有限卻渴求更大算力的應用場景,提供了極具吸引力的新選擇,其在優化之后的潛力令人充滿期待。
![]()
![]()
英特爾的端側AI布局,已從最初的工作站,游戲本逐漸擴展到輕薄本以及迷你主機。除此之外,英特爾還展示了配備單卡或雙卡ARC B60的小型工作站以及采用至強W處理器加四張ARC B60的部門級工作站,英特爾構建了層次分明的產品矩陣,無論是賦能智能座艙、智能家居的AI Box,還是提升車載智能與NAS功能的解決方案,酷睿Ultra的算力正無處不在。
![]()
而展望未來,英特爾在端側AI上的征程正邁向一個更加激動人心的新階段。明年年初,代號為Panther Lake的第三代酷睿Ultra處理器將基于Intel 18A這一英特爾最先進的半導體制程工藝進入大規模量產。作為首款采用Intel 18A制程打造的客戶端SoC,Panther Lake將引入可擴展的多芯粒架構,并配備多達16個全新的性能核與能效核,實現CPU性能超過50%的飛躍。其集成的全新英特爾銳炫GPU,擁有最多12個Xe核心,圖形性能提升同樣超過50%。更重要的是,其更出色的XPU設計將平臺AI性能推向前所未有的180 TOPS高峰,這將為端側運行更龐大、更復雜的模型,以及實現更沉浸、更流暢的AI生成體驗提供源源不斷的動力。
支撐這一飛躍的,正是新一代Intel 18A制程革命性的技術實力。作為英特爾研發和制造的首個2納米級節點,Intel 18A相較于前代實現了每瓦性能提升高達15%,芯片密度提升約30%。其關鍵創新包括全新的RibbonFET晶體管架構,實現了更高效的開關控制,以及突破性的PowerVia背面供電技術,優化了電力傳輸與信號完整性。結合先進的Foveros 3D封裝技術,Intel 18A將作為核心技術平臺,支撐英特爾未來至少三代客戶端與服務器產品的研發與生產,為端側AI的持續進化奠定堅不可摧的基石。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.