<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      當(dāng)千億參數(shù)撞上5毫米芯片

      0
      分享至

      1. 文 | 科技不許冷

      過去兩年,全球科技界仿佛被卷入了一場名為Scaling Law的宗教狂熱。在OpenAI和NVIDIA的布道下,所有人的目光都鎖定在參數(shù)量的指數(shù)級增長上。從175B到萬億參數(shù),從H100到Blackwell,似乎算力就是正義,規(guī)模就是真理。投資人和媒體熱衷于討論GPT-5何時通過圖靈測試,仿佛只要堆足夠多的卡,硅基生命就會在云端的數(shù)據(jù)中心里自然涌現(xiàn)。

      然而,在云端算力狂飆突進的背面,物理世界的工程界正面臨著一道嚴(yán)峻的高墻。

      你一定有過這樣的體驗:對著智能音箱喊一聲“關(guān)燈”,它卻還要反應(yīng)兩秒鐘,甚至因為Wi-Fi波動回你一句“網(wǎng)絡(luò)連接中,請稍后再試”。在那個尷尬的瞬間,所謂的人工智能,表現(xiàn)得還不如一個五塊錢的物理開關(guān)。

      對于這種“云端依賴癥”,消費者頂多抱怨兩句。但對于自動駕駛、工業(yè)機器人、醫(yī)療急救設(shè)備這些“要命”的終端來說,完全依賴云端的“超級大腦”既不現(xiàn)實,也不安全。

      想象一下,一輛時速100公里的自動駕駛汽車,在識別到前方有障礙物時,如果需要把數(shù)據(jù)上傳到千里之外的云計算中心,等待推理完成后再傳回剎車指令——光是數(shù)據(jù)在光纖里跑個來回的物理時間Latency,就足以釀成一場事故。更別提還有隱私泄露的風(fēng)險:誰愿意把自己家里的攝像頭畫面、個人的醫(yī)療病歷,毫無保留地傳到公有云上?


      于是,2025年的技術(shù)風(fēng)向悄然逆轉(zhuǎn)。相比于云端那些遙不可及、每秒燒掉幾萬美金電費的“超級大腦”,工程界開始死磕一個更性感、也更艱難的命題:端側(cè)AI。

      而這并不是一次簡單的“減配”,而是一場極度反人性的工程惡戰(zhàn)。我們要把那個吞噬幾千張顯卡算力的AGI,“暴力瘦身”塞進一顆面積僅數(shù)平方毫米、功耗僅幾瓦的端側(cè)芯片中,同時還要保持它的“智商”不掉線。

      今天,我們剝離具體的商業(yè)包裝,從底層架構(gòu)視角,來復(fù)盤這場發(fā)生在芯片與算法上的“腦科學(xué)”革命。

      當(dāng)140GB撞上幾百兆的物理極限

      在討論怎么做之前,我們必須先理解端側(cè)AI面臨的物理極限,那簡直是一種令人絕望的算力悖論。

      目前的通用大模型LLM是一個十足的“富貴病”患者,它對資源的索取是貪得無厭的。讓我們看一組數(shù)據(jù):以一個70B即700億參數(shù)的模型為例,如果我們想要運行它,僅加載模型權(quán)重Weights就需要占用約140GB的顯存。這還只是“靜態(tài)”的占用,模型在推理過程中產(chǎn)生的KV Cache更是內(nèi)存吞噬獸,且隨著對話長度的增加呈線性增長。

      而在端側(cè),現(xiàn)實是殘酷的。目前主流的車載芯片、智能家居SoC,甚至是你手中最新的旗艦手機,留給NPU的專用內(nèi)存往往只有幾GB,摳門一點的入門級芯片甚至只有幾百MB。

      要把140GB的龐然大物,塞進幾百MB的狹小空間里,這不僅是“把大象裝進冰箱”,簡直是“把整個國家圖書館的藏書,強行塞進一個隨身攜帶的公文包里”。而且,用戶還提出了一個更變態(tài)的要求:你必須在0.1秒內(nèi),從這個公文包里精準(zhǔn)地翻出任意一本書的第32頁。

      這就是端側(cè)AI面臨的不可能三角:高智商、低延遲、低功耗,三者難以兼得。

      為了打破這個悖論,行業(yè)目前普遍達成了一個共識:未來的AI架構(gòu)必須是“人格分裂”的——也就是“云-邊-端”三級分層架構(gòu)。

      單一的云端不夠快,單一的端側(cè)不夠強。未來的智能系統(tǒng)會像人類的神經(jīng)系統(tǒng)一樣分工:云端是“大腦皮層”,部署千億級參數(shù)的Teacher Model,負責(zé)處理極其復(fù)雜的、不著急的長尾問題,比如寫一篇論文或者規(guī)劃一次長途旅行。端側(cè)是“脊髓”和“小腦”,直接運行在傳感器旁邊的芯片上,負責(zé)高頻、實時、隱私敏感的任務(wù),比如語音喚醒、急救避障。

      但問題來了:即便只做“脊髓”,現(xiàn)在的芯片也常常跑不動。如何在極小的參數(shù)規(guī)模下保留大模型的涌現(xiàn)能力?這成為了算法工程師面臨的頭號難題。

      三把手術(shù)刀下的暴力美學(xué)

      要在端側(cè)跑通大模型,算法工程師們不得不干起外科醫(yī)生的活,對模型進行一場精密的手術(shù)。這其實是一門關(guān)于“妥協(xié)”的藝術(shù),在精度和速度之間尋找那個微妙的平衡點。目前的行業(yè)主流路徑,主要包含三把手術(shù)刀。

      第一把刀是知識蒸餾。 這是端側(cè)模型保持高智商的關(guān)鍵。我們不需要端側(cè)模型去閱讀所有的原始互聯(lián)網(wǎng)數(shù)據(jù),那需要海量算力,我們只需要它學(xué)會“怎么思考”。 所以,工程師讓云端的超大模型Teacher先學(xué)一遍,提煉出核心邏輯、特征分布和推理路徑,再“傳授”給端側(cè)的小模型Student。這就像是把一本百萬字的學(xué)術(shù)巨著,由教授濃縮成了一本幾千字的“學(xué)霸筆記”。行業(yè)內(nèi)的一線實踐表明,通過這種方式,一個0.5B參數(shù)的小模型,在特定的垂直場景如座艙控制、家電指令中,其表現(xiàn)甚至能逼近通用的百億參數(shù)模型。它也許不會寫詩,但它絕對聽得懂“把空調(diào)調(diào)高兩度”。


      第二把刀是極致量化。 這可以說是工程界最“暴力”的美學(xué)。通用大模型通常使用FP16甚至FP32進行運算,精度極高,小數(shù)點后十幾位都保留著。但在端側(cè),每一比特的存儲和傳輸都消耗電量。 工程師們發(fā)現(xiàn),大模型其實極其“魯棒”,砍掉一些精度并不影響大局。于是,他們通過PTQ訓(xùn)練后量化或QAT量化感知訓(xùn)練,將模型權(quán)重從FP16直接壓縮到INT8甚至INT4。這意味著,原本需要16車道的高速公路,現(xiàn)在只需要4車道就能跑通。模型體積瞬間壓縮了4倍以上,推理速度成倍提升。但這其中的難點在于“校準(zhǔn)”——如何在壓縮精度的同時,不破壞模型的語義理解能力?這需要極其精細的數(shù)學(xué)調(diào)優(yōu),防止某些關(guān)鍵的離群值被誤殺。

      第三把刀是結(jié)構(gòu)剪枝。 神經(jīng)網(wǎng)絡(luò)中存在大量“冗余”的連接,就像人類大腦中有些神經(jīng)元并不活躍一樣。通過結(jié)構(gòu)化剪枝,可以直接剔除那些對輸出結(jié)果影響微乎其微的參數(shù),從而在物理層面減少計算量。

      推倒那堵阻擋數(shù)據(jù)的內(nèi)存墻

      軟件層面的“瘦身”只是第一步,真正的硬仗在于硬件,也就是芯片架構(gòu)。

      如果你去問芯片設(shè)計師,大模型最讓他們頭疼的是什么?他們大概率不會說是“計算”,而是“訪存”。在傳統(tǒng)的馮·諾依曼架構(gòu)下,計算單元和存儲單元是分離的。大模型跑起來時,數(shù)據(jù)就像早高峰的車輛,在內(nèi)存DRAM和計算單元之間瘋狂往返。

      這就好比一個廚師切菜速度極快,但他每切一刀,都要跑去隔壁房間的冰箱里拿一根蔥。結(jié)果就是,廚師大部分時間都在跑路,而不是在切菜。這就是著名的“內(nèi)存墻”危機。在端側(cè)大模型推理中,甚至有超過80%的功耗不是花在計算上,而是花在“搬運數(shù)據(jù)”的路上。


      這種尷尬逼出了全新的架構(gòu)思路:DSA領(lǐng)域?qū)S眉軜?gòu)。

      我們觀察到,像云知聲、地平線這些在端側(cè)深耕多年的硬科技企業(yè),之所以能把芯片出貨量做到上億顆,核心就是不再迷信通用的CPU或GPU架構(gòu),而是針對Transformer模型搞起了“特權(quán)設(shè)計”。

      首先是存算一體化的探索。既然廚師跑路太累,那就把冰箱搬進廚房,甚至直接把案板裝在冰箱門上。通過盡可能拉近存儲單元與計算單元的物理距離,甚至在SRAM中直接進行計算,極大地減少了數(shù)據(jù)搬運的“過路費”。

      其次是異構(gòu)計算調(diào)度。在SoC內(nèi)部,搞起了精細分工:CPU負責(zé)流程控制,DSP負責(zé)信號處理如降噪,而將最繁重的矩陣乘法運算交給高度定制的NPU。

      最關(guān)鍵的是算子硬化。針對大模型核心的Attention機制算法,芯片設(shè)計團隊直接在硅片上“刻死”了加速電路。這種做法雖然犧牲了通用性,但在處理大模型推理時,效率高得嚇人。這種“算法定義芯片”的策略,使得端側(cè)方案在處理語音喚醒、指令識別時,能夠做到毫秒級響應(yīng)。這不僅是某一家企業(yè)的技術(shù)選擇,更是整個端側(cè)AI芯片行業(yè)為了突破摩爾定律瓶頸而達成的“妥協(xié)后的最優(yōu)解”。

      從全知上帝到熟練工匠

      除了在硬件上死磕,另一個更務(wù)實的路徑是:承認AI的局限性,從“通用”走向“專用”。

      通用大模型往往因為什么都懂,導(dǎo)致什么都不精。它容易產(chǎn)生“幻覺”,一本正經(jīng)地胡說八道。在寫科幻小說時這是創(chuàng)意,但在醫(yī)療診斷或工業(yè)控制中,這是災(zāi)難。

      這時候,像商湯醫(yī)療這類廠商的“平臺化”策略就顯得非常聰明。面對醫(yī)療行業(yè)數(shù)據(jù)復(fù)雜、算力受限的痛點,他們沒有試圖做一個全知全能的“AI醫(yī)生”,而是搭建了一個流水線,生產(chǎn)各種專精的“特種兵”。

      通過將技術(shù)封裝為“模型生產(chǎn)平臺”,讓醫(yī)院基于自己的高質(zhì)量數(shù)據(jù),訓(xùn)練出針對特定病種的專用模型。這種思路本質(zhì)上是將AI從“全能博士”變成了“熟練技工”。

      這種“小而美”的垂直智能體,需要的算力更少,但給出的診斷建議卻更靠譜。醫(yī)生不需要一個能寫代碼、能畫圖的AI,他們需要一個能精準(zhǔn)讀懂CT片子、能快速整理病歷的助手。

      同樣的邏輯也發(fā)生在云知聲的產(chǎn)業(yè)路徑中:不在通用大模型的紅海里燒錢,而是通過在醫(yī)療、家居等垂直領(lǐng)域的深耕,打磨端側(cè)技術(shù)與芯片,賺取數(shù)據(jù)反饋,進而反哺基礎(chǔ)研究。

      這殊途同歸的背后,是整個中國AI產(chǎn)業(yè)的集體覺醒:不再盲目追求參數(shù)規(guī)模的“大”,而是轉(zhuǎn)向追求應(yīng)用落地的“實”。

      最后

      在媒體的聚光燈下,大家熱衷于討論OpenAI的Sora如何震驚世界,或者為GPT-5何時通過圖靈測試而爭論不休,并總將AGI與‘毀滅人類’的宏大敘事綁定。

      但在聚光燈照不到的角落,在深圳的華強北,在蘇州的工業(yè)園,在上海的張江,成千上萬的工程師正在做著更枯燥、但或許更具顛覆性的工作:將AI的價格打下來,將AI的體積縮下去。

      從云端到端側(cè),從通用到垂直,這不僅是技術(shù)架構(gòu)的演進,更是AI價值觀的回歸。

      真正的“萬物智能”,不是每個人都必須要時刻連接到一個全知全能的上帝般的云端大腦。而是萬物——無論是你手邊的空調(diào)、車?yán)锏膬x表盤,還是醫(yī)院里的CT機,都擁有一顆雖然微小、但足夠聰明、足夠獨立的“芯”。

      當(dāng)一顆幾十塊錢的芯片,能跑得動擁有邏輯推理能力的大模型,且不再依賴那根脆弱的網(wǎng)線時,智能時代的奇點才算真正到來。

      科技不應(yīng)該只是服務(wù)器里的幽靈,它應(yīng)該以最硬核、最靜默的方式,嵌入我們生活的每一塊玻璃、每一顆芯片里,靜水流深。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      湖南催收巨頭“永雄集團”再降1000萬賤賣總部大樓,創(chuàng)始人老家另一幢大樓亦在叫賣;子公司179名員工曾被跨省執(zhí)法帶離

      湖南催收巨頭“永雄集團”再降1000萬賤賣總部大樓,創(chuàng)始人老家另一幢大樓亦在叫賣;子公司179名員工曾被跨省執(zhí)法帶離

      極目新聞
      2025-12-10 18:57:42
      12月25日前必辦!人社部提醒:有老人的家庭,這3件事拖不得,

      12月25日前必辦!人社部提醒:有老人的家庭,這3件事拖不得,

      叮當(dāng)當(dāng)科技
      2025-12-10 12:45:41
      電動自行車最高時速25公里改不了,全國現(xiàn)存相關(guān)企業(yè)超97.3萬家

      電動自行車最高時速25公里改不了,全國現(xiàn)存相關(guān)企業(yè)超97.3萬家

      驅(qū)動中國
      2025-12-10 16:58:14
      “牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

      “牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

      洲洲影視娛評
      2025-12-08 19:52:00
      國乒6勝1負!王楚欽4-3贏松島輝空,8強對陣大勒布倫,附11日賽程

      國乒6勝1負!王楚欽4-3贏松島輝空,8強對陣大勒布倫,附11日賽程

      小火箭愛體育
      2025-12-10 20:59:25
      中國第一民營鋼鐵巨頭:年產(chǎn)量超4000萬噸,碾壓德國、英法

      中國第一民營鋼鐵巨頭:年產(chǎn)量超4000萬噸,碾壓德國、英法

      毒sir財經(jīng)
      2025-12-10 00:00:50
      藍戰(zhàn)非綁架案最恐怖之處,不是被收集指紋毛發(fā)和精液,而是這一點

      藍戰(zhàn)非綁架案最恐怖之處,不是被收集指紋毛發(fā)和精液,而是這一點

      媒體人溪婉
      2025-12-10 12:25:12
      拔出蘿卜帶出泥,最快護士張水華越扒越有,被醫(yī)院處分是冰山一角

      拔出蘿卜帶出泥,最快護士張水華越扒越有,被醫(yī)院處分是冰山一角

      削桐作琴
      2025-12-10 16:40:06
      上班早到也不行!西班牙女員工連續(xù)提前到崗被公司開除 法院:解雇合法

      上班早到也不行!西班牙女員工連續(xù)提前到崗被公司開除 法院:解雇合法

      紅星新聞
      2025-12-10 12:23:13
      價格大跳水!1克拉大鉆石,只要3500元!1.4萬元買的鉆戒,如今只能賣200元,消費者:早知道就買黃金了

      價格大跳水!1克拉大鉆石,只要3500元!1.4萬元買的鉆戒,如今只能賣200元,消費者:早知道就買黃金了

      每日經(jīng)濟新聞
      2025-12-10 18:17:08
      打滿7局!王楚欽0-2絕境逆轉(zhuǎn)4-3力克狂暴松島輝空,晉級總決賽8強

      打滿7局!王楚欽0-2絕境逆轉(zhuǎn)4-3力克狂暴松島輝空,晉級總決賽8強

      乒談
      2025-12-10 20:45:12
      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      以茶帶書
      2025-12-09 23:33:58
      男子10天內(nèi)做5次毛發(fā)毒檢結(jié)果有陽有陰,為證清白奔波兩年無果;律師:可申請重新鑒定

      男子10天內(nèi)做5次毛發(fā)毒檢結(jié)果有陽有陰,為證清白奔波兩年無果;律師:可申請重新鑒定

      大風(fēng)新聞
      2025-12-10 20:14:31
      上海人的生活奢侈到什么地步?網(wǎng)友:出去旅游碰到最多都是上海人

      上海人的生活奢侈到什么地步?網(wǎng)友:出去旅游碰到最多都是上海人

      帶你感受人間冷暖
      2025-12-10 15:48:00
      俄墜毀的安-22運輸機上所有機組人員遇難

      俄墜毀的安-22運輸機上所有機組人員遇難

      中國能源網(wǎng)
      2025-12-10 11:37:04
      馮提莫自曝癌癥復(fù)發(fā)并轉(zhuǎn)移:現(xiàn)在已經(jīng)做過手術(shù)了

      馮提莫自曝癌癥復(fù)發(fā)并轉(zhuǎn)移:現(xiàn)在已經(jīng)做過手術(shù)了

      紅星新聞
      2025-12-10 18:34:28
      中國拒絕接收英偉達H200芯片,并加強對其使用的限制

      中國拒絕接收英偉達H200芯片,并加強對其使用的限制

      環(huán)球熱點快評
      2025-12-10 11:57:14
      新國標(biāo)電動車無法解鎖限速?九號等多家車企回應(yīng)

      新國標(biāo)電動車無法解鎖限速?九號等多家車企回應(yīng)

      新浪財經(jīng)
      2025-12-10 20:27:18
      是什么干掉了那些實體店?網(wǎng)友:倒閉是應(yīng)該的,逮著人就宰啊

      是什么干掉了那些實體店?網(wǎng)友:倒閉是應(yīng)該的,逮著人就宰啊

      帶你感受人間冷暖
      2025-12-07 00:15:10
      “約談風(fēng)波”不到3天,郭德綱再迎噩耗!中國曲協(xié)的態(tài)度說明一切

      “約談風(fēng)波”不到3天,郭德綱再迎噩耗!中國曲協(xié)的態(tài)度說明一切

      知法而形
      2025-12-10 10:55:43
      2025-12-11 02:15:00
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經(jīng)科技媒體
      127408文章數(shù) 861455關(guān)注度
      往期回顧 全部

      科技要聞

      防"走私",英偉達被曝開發(fā)“芯片定位”技術(shù)

      頭條要聞

      男子被上海民警騙去"見面"結(jié)果毒檢陽性 被逼寫認罪書

      頭條要聞

      男子被上海民警騙去"見面"結(jié)果毒檢陽性 被逼寫認罪書

      體育要聞

      試訓(xùn)20支球隊,落選,成為NBA新秀助攻王

      娛樂要聞

      為何網(wǎng)友不再相信張柏芝的“故事”?

      財經(jīng)要聞

      對話陳志武:特朗普嚴(yán)重誤判中國!

      汽車要聞

      有動力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      健康
      教育
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      房產(chǎn)要聞

      斷供10年,終迎破局者!三亞核心區(qū),突然殺出新標(biāo)桿!

      甲狀腺結(jié)節(jié)到這個程度,該穿刺了!

      教育要聞

      【寫就有分】考場瞎編技巧之名詞解釋

      軍事要聞

      中俄聯(lián)合空中戰(zhàn)略巡航引日本擔(dān)憂 國防部回應(yīng)

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 色播久久人人爽人人爽人人片av | 色婷婷A| 无码www毛色一区二区| 少妇伦子伦精品无吗| 亚洲乱码一区av春药高潮| 国产精品久久久一区二区三区| 中文a片| 色网bb| 亚洲欧美v国产蜜芽tv| 极品vpswindows少妇| www.成人| 91看片免费| 人妻成人网站| 精品久久久久中文字幕日本| 狠狠躁夜夜躁人人爽天天古典| jizz18| 时尚| 最新亚洲春色av无码专区| 在线观看成人永久免费网站| 日韩人妻丰满无码区A片| 亚洲日韩成人无码| 水蜜桃av导航| 妺妺窝人体色WWW看人体| 欧美高清第6页| 色吊丝中文国产| 天天爱天天做天天爽夜夜揉 | 人人看av日韩国产| 国产一起色一起爱| 女人腿张开让男人桶爽 | 欧美性插b在线视频网站| 日日噜噜夜夜狠狠视频| 天天射色综合| 道孚县| 久久久www免费人成精品| 日本色色| 谁有老熟女网站| 无码综合网| 亚洲字幕av一区二区三区四区| 成人嫩草研究院久久久精品| 99re国产| 精品免费国产一区二区三区四区|