![]()
全球智能手機市場經(jīng)歷兩年下滑,在2024年一掃頹勢,根據(jù)Canalys數(shù)據(jù),出貨量增長7%。今年上半年繼續(xù)增長4%。
同時,CounterPoint Research發(fā)布報告稱,600美元以上的高端機型上半年同比增速達到8%,創(chuàng)下歷史新高[1]。
終端設備的競爭也是核心零部件的競爭,SoC廠商自然身處其中,扮演重要角色。疊加生成式AI帶來的算力躍進,聯(lián)發(fā)科憑借天璣系列芯片,穩(wěn)穩(wěn)地站上了出貨量第一的位置。
今年9月,聯(lián)發(fā)科推出AI算力翻倍的旗艦SoC天璣9500。在人工智能向終端設備滲透的加速周期,軍備競賽的第一槍就此打響。
架構的勝利
移動SoC的設計是個系統(tǒng)性工程。決定樓層高度的是地基,決定芯片能力上限的是底層架構。
如果把開發(fā)一顆芯片比作建造一座大樓,芯片架構設計就是建筑方案設計,根據(jù)“大樓”的定位和需求,確定樓層數(shù)、風格、電梯和樓梯布局。
天璣系列連續(xù)幾代性能穩(wěn)步提升的背后,是聯(lián)發(fā)科對芯片架構大刀闊斧的改造過程。
2023年發(fā)布的天璣9300,用行業(yè)首發(fā)的全大核CPU架構完成了多核性能的逆襲。今年的天璣9500沿用“1+3+4”的第三代全大核架構,同時拋棄了Cortex-X4系超大核,全面轉投性能更強的C1系列架構。
所謂“1+3+4”,指1個C1-Ultra,3個C1-Premium,均為最新一代C1系超大核,外加4個C1-Pro。
C1-Ultra作為“黑鷹”Cortex-X925的后一代,結合臺積電第三代3nm制程,不僅讓天璣系列首次邁入“4”開頭時代——主頻高達4.21GHz,同時還實現(xiàn)了IPC的兩位數(shù)提升。
相比上代產(chǎn)品,天璣9500的單核性能提升32%,多核性能增加17%。
![]()
業(yè)內(nèi)常用時鐘頻率和IPC(Instruction Per Clock)的乘積來衡量CPU的性能。簡單來說,前者相當于單位時間搬磚的次數(shù),后者相當于一次搬多少塊磚。
理論上兩者越大越好,但人干活會出汗,芯片計算會發(fā)熱。高頻需要更高的電壓支持,代價是發(fā)熱量和耗電量急劇增加。
天璣9500通過C1-Ultra更寬的指令流水線、更聰明的亂序執(zhí)行和升級的預取技術,進一步實現(xiàn)了IPC的突破。更高的IPC,意味著更低頻率的等效性能——在有限中盡可能創(chuàng)造無限,是芯片架構的魅力所在。
CPU架構以外,天璣9500的更大的亮點在于GPU和NPU性能雙突破。
GPU采用最新一代Mali G1-Ultra MC12,憑借聯(lián)發(fā)科與ARM聯(lián)合研發(fā)的全新“Drage”架構,光追性能提升超過一倍,游戲畫面的流暢性進一步提升。同時,能效比提升超過40%,有效延長手機續(xù)航。
而NPU方面,創(chuàng)新采用“超性能+超能效”的雙NPU架構,算力較上一代直接翻倍,其中超能效NPU引入“存算一體”架構,通過減少數(shù)據(jù)搬運能耗和延遲,提升AI計算效率,實現(xiàn)輕負載AI模型Always-On運算,讓“隨時響應”和“長續(xù)航”得以兼容,賦能主動式 AI應用。
緩存的進一步擴容,是天璣9500的隱藏“大招”。
蘋果從2013年的A7開始效仿桌面處理器加入L3緩存,時至今日,最新發(fā)布的A19 Pro相比前代產(chǎn)品,最后一級緩存整整提高了50%。
蘋果保持大緩存設計習慣的背后,是因為CPU和內(nèi)存性能之間存在剪刀差。在處理器內(nèi)部,CGN(CPU、GPU、NPU)通常要從內(nèi)存調(diào)取數(shù)據(jù),做對應的計算工作,最后再把結果搬回內(nèi)存。
因此決定計算快慢的,除了CGN的計算速度之外,還有數(shù)據(jù)的“搬運速度”,當數(shù)據(jù)搬運速度低于計算速度,就造成了“內(nèi)存墻”,拖垮計算效率。
![]()
這種情況下,緩存作為數(shù)據(jù)的臨時倉庫,便成為近年來堆料的核心陣地,也是天璣系列一以貫之的設計思路。
在前代產(chǎn)品的基礎上,天璣9500再接再厲,L3從12MB大幅增加到16MB,SLC維持10MB水平,為需要密集計算的應用打下基礎。
激進的IPC升級,“存算一體”架構的引入,加上緩存針對性的擴容,組合成了聯(lián)發(fā)科的芯片設計水平的代表作,也將移動SoC的技術競爭推向了新的高度。
擺正算力和功耗的天平
半導體行業(yè)一個普遍共識是,沒有完美的芯片,只有完美的Trade-off。
在芯片設計中,性能(Performance)、功耗(Power)、面積(Area)組成了一個不可能三角,芯片設計能力的體現(xiàn),始終是在不可能的三角中尋找最平衡的區(qū)間。
當智能手機大踏步進入AI時代,對“平衡”的把控能力就更加迫切。
由于網(wǎng)絡延遲和隱私保護等原因,近年來,AI推理從云端向端側遷移,既是行業(yè)共識,也是不可逆轉的趨勢。與之對應,算力瓶頸儼然成為困擾終端廠商的棘手問題。
![]()
微軟首席電氣工程師保羅?楚諾克算過一筆賬[2],按照61%的利用率,每塊H100一年要消耗大約3740度電,相當于一個美國家庭的平均功耗。云端訓練芯片對功耗可以寬容,但端側要求明顯嚴苛。
在寸土寸金的手機里,芯片設計公司追逐的圣杯,是在功耗恒定的情況下擠出更多算力,即“計算效率”。
這種設計思路既推動了NPU(神經(jīng)網(wǎng)絡加速器)的脫穎而出,也貼合了天璣9500的設計哲學:既要保證“算力夠用”,又要解決“功耗降不下來”的難題。
根據(jù)英特爾研究,一個采用7nm制程的AI芯片,光數(shù)據(jù)搬運產(chǎn)生的功耗就高達35pJ/bit,占總功耗的63.7%。也就是說,減少數(shù)據(jù)搬運,是降低功耗的重要途徑。
因此在天璣9500中,聯(lián)發(fā)科采用了創(chuàng)造性的雙NPU架構,兩顆NPU各司其職,一個作為性能核心支持端側運行參數(shù)量大的模型,另一個采用“存算一體”架構,作為能效核心,運行參數(shù)量較小的模型。
所謂“存算一體”架構,核心是將NPU內(nèi)部的計算單元與緩存融為一體,從根本減少搬運路程。使得天璣9500將AI算力提高到100TOPS的同時,最大程度避免了高功耗問題。
端側大模型搭配小模型是智能手機AI部署的一大趨勢。天璣9500的超能效NPU,可以實現(xiàn)輕負載AI模型Always-On運算,對實時翻譯和對話式AI這類應用來說,用戶體驗可以從“請求-響應”變成“隨時響應”。模型始終在線,但更加省電。
![]()
在權威機構ETHZ的AI Benchmark測試里,天璣9500獲AI性能榜單冠軍
和端側AI類似,手機游戲同樣受困于性能和功耗的兩難抉擇,一直以來也是檢驗芯片實力的“照妖鏡”。對算力和功耗的平衡藝術,在劍與魔法的世界公平的考驗著每一家芯片設計公司。
消費電子領域,硬件與軟件大多互為催化劑,游戲公司對畫質(zhì)和沉浸式體驗的追逐,會倒逼芯片公司發(fā)力游戲體驗。后者性能的提升,又會推動前者的進步。
從天璣9200首發(fā)移動端硬件光線追蹤開始,聯(lián)發(fā)科接連布局全局光照效果、OMM追光引擎,讓移動端游戲體驗直逼主機級效果。天璣9500再接再厲,通過在移動端率先支持主機級Ray-tracing Pipeline技術,帶來了前所未有的沉浸式主機級光追效果。
![]()
除此之外,天璣9500首發(fā)GPU Dynamic Cache (動態(tài)緩存)架構,讓GPU可以利用SLC系統(tǒng)級高速緩存,從而進一步降低功耗,同樣意在提高游戲體驗。
在性能和能耗這個困擾手機游戲多年的命題上,天璣9500通過幾代產(chǎn)品的技術積累,提供了一個盡可能完美的解決方案。
按照測算,天璣9500支持的光追下游戲幀率從9300的60幀躍升至行業(yè)領先的120幀,功耗逆勢降低14%,將反差做到了極致。
在一個又一個場景中創(chuàng)造驚艷的體驗,是對物理學最浪漫的詮釋。
穩(wěn)穩(wěn)站上第一梯隊
2007年的第一代iPhone發(fā)布會上,喬布斯拿出手機撥通了位于舊金山的一家星巴克電話,玩笑稱要預定4000份拿鐵,店員不明所以,但現(xiàn)場觀眾掌聲雷動——這一幕被現(xiàn)場的媒體定格,成為了電子產(chǎn)業(yè)史上繞不開的里程碑。
然而,喬布斯玩笑式的電話,卻成為未來十多年里,產(chǎn)業(yè)界求索的圖騰。
2011年,蘋果智能語音助手Siri隨iPhone 4S隆重登場,掀開了消費電子產(chǎn)業(yè)對人工智能的想象。時至今日,大量AI功能被塞進手機里的同時,兩大趨勢越發(fā)凸顯:
一是AI不再是相機美顏和語音助手的附屬功能,反而變成重構手機體驗的新引擎;
二是智能手機的競爭焦點,逐步從比拼硬件參數(shù)向軟硬強耦合的產(chǎn)品力轉移,其根本思路就是圍繞真實場景,針對用戶需求做突破。
![]()
2011年,Siri第一次亮相
結合IDC的定義,30TOPS是AI手機SoC的入門檻。這從事實層面將時間線拉到了天璣9300上市的2023年。
人工智能時代賦予聯(lián)發(fā)科的角色,不是純粹的“算力供應商”,而是基于對用戶需求場景的深刻洞察,將代碼和電路變成實實在在的用戶體驗,支撐起無從察覺卻無處不在的智能未來。
從解決大模型入端帶來的算力激增與功耗約束之間的矛盾,到滿足游戲用戶對GPU極致渲染能力與持久續(xù)航之間的雙重期待,用戶需求為先,一直是聯(lián)發(fā)科設計研發(fā)的出發(fā)點。
在今年的天璣開發(fā)者大會上,聯(lián)發(fā)科提出了 Agentic AI UX的五大愿景:主動及時、知你懂你、互動協(xié)助、學習進化、專屬隱私信息守護。在天璣9500上,聯(lián)發(fā)科與終端廠商聯(lián)合打造的量產(chǎn)的端側AI功能,恰恰是這種愿景的延伸與產(chǎn)物。
在與vivo的合作中,聯(lián)發(fā)科為后者定制的NPU,幫助其實現(xiàn)了全球首發(fā)的視頻錄制功能,為vivo X300系列提供了強大的追焦系統(tǒng),可支持毫秒級運動追蹤與瞬時快門響應,還打造了能夠“學習進化”的AI定制美顏功能。
在OPPO最新旗艦Find X9上,針對搜索這一場景,聯(lián)發(fā)科通過系統(tǒng)級整合賦能OPPO AI 端側落地,與OPPO共同打造了“知你懂你”的AI意圖搜索應用,幫助用戶實現(xiàn)一鍵即搜。
![]()
為了改善文生圖與文生文這兩個普及最廣、工作場景中效率提升最為顯著的AI應用,天璣9500憑借內(nèi)置的生成式AI引擎2.0與Transformer專用固化電路,實現(xiàn)了多項端側AI能力的突破:
支持4K超高畫質(zhì)文生圖在手機端側直接生成,同時將文生文大語言模型的端側響應速度提升了一倍。由此最大程度解決了高并發(fā)時段響應延遲、生成效率低下的問題。
上網(wǎng)、游戲、辦公……真實的需求場景始終是放大芯片與大眾需求的連接器,使得芯片這個技術與資本高度密集的產(chǎn)業(yè),始終有足夠的市場和動力,快速向前滾動和發(fā)展。
當人工智能的蔓延再次沖擊原本井然有序的市場格局,聯(lián)發(fā)科用務實的研發(fā)理念和對市場需求的理解,一步步站上了全球芯片設計產(chǎn)業(yè)的第一梯隊。
AI時代的到來,市場紛紛大講未來,聯(lián)發(fā)科對于未來有著清晰的技術規(guī)劃和持續(xù)投資,更加值得關注的是,這家廠商同樣注重當下——從引領端側視頻生成、4K文生圖等等這些落地應用,我們看到,先進的AI,更是觸手可及的AI。
當“天璣”(Dimensity)這個芯片品牌在2019年第一次亮相時,恐怕很少有人能預料,聯(lián)發(fā)科在此后的手機市場變化中所扮演的角色,更難以想象,一代又一代的天璣芯片所創(chuàng)造的持續(xù)價值。
![]()
參考資料
[1]2025年上半年全球高端智能手機銷量創(chuàng)歷史新高,CounterPoint Research
[2]算力巨獸能耗驚人:英偉達H100 AI芯片總耗電量將超歐洲小國,IT之家
作者:徐珊珊
編輯:何律衡
責任編輯:徐珊珊
封面圖片來自ShotDeck
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.