<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      香港科技大學(xué)突破:讓大模型運(yùn)行速度翻倍的神奇數(shù)據(jù)格式

      0
      分享至


      這項(xiàng)由香港科技大學(xué)、Moffett AI以及字節(jié)跳動(dòng)種子團(tuán)隊(duì)的研究人員共同完成的突破性研究發(fā)表于2025年12月,論文編號(hào)為arXiv:2512.05409v1。研究團(tuán)隊(duì)包括香港科技大學(xué)的黃瑞軒和王帥,Moffett AI的曾浩、石金源和嚴(yán)恩旭,以及字節(jié)跳動(dòng)種子團(tuán)隊(duì)的黃涵濤和余明輝。這項(xiàng)研究首次提出了一種名為SQ-format的全新數(shù)據(jù)格式,能夠在幾乎不損失準(zhǔn)確性的前提下,讓大語(yǔ)言模型的運(yùn)行速度提升近一倍。

      想象你正在整理一個(gè)巨大的圖書館,里面有數(shù)十億本書籍。傳統(tǒng)的整理方法就像是給每本書都分配同樣大小的書架空間,不管是字典還是薄薄的小冊(cè)子。但聰明的圖書管理員發(fā)現(xiàn),大部分重要信息其實(shí)集中在少數(shù)幾本關(guān)鍵書籍中,而其余的書籍雖然數(shù)量龐大,但相對(duì)不那么重要。基于這個(gè)觀察,研究團(tuán)隊(duì)設(shè)計(jì)出了一種"混合精度"的存儲(chǔ)方案——就像是給重要的書籍分配精裝書架,而給普通書籍分配簡(jiǎn)易書架,這樣既節(jié)省了空間,又保證了重要信息的完整性。

      當(dāng)前大語(yǔ)言模型面臨的最大挑戰(zhàn)就像是一座城市的交通擁堵問(wèn)題。這些模型就像超級(jí)計(jì)算機(jī)城市中的居民,每天需要處理海量的信息流量。傳統(tǒng)的解決方案是建造更寬的道路(提高計(jì)算精度),但這需要消耗大量資源。另一種方案是限制車輛大小(降低計(jì)算精度),但這可能影響運(yùn)輸效率和質(zhì)量。研究團(tuán)隊(duì)巧妙地發(fā)現(xiàn)了第三條路:建造一個(gè)智能交通系統(tǒng),讓重要的貨物走快速通道(高精度處理),而普通貨物走普通道路(低精度處理),這樣既保證了效率,又維持了質(zhì)量。

      一、重新定義數(shù)據(jù)的存儲(chǔ)方式

      傳統(tǒng)的數(shù)據(jù)處理方式就像是用同一種尺寸的盒子來(lái)裝不同大小的物品。無(wú)論是裝珍珠還是裝石頭,都使用同樣大小的包裝盒,這顯然是一種資源浪費(fèi)。SQ-format的核心創(chuàng)新在于提出了"分級(jí)包裝"的概念——根據(jù)內(nèi)容的重要性選擇不同精度的存儲(chǔ)方式。

      這種新格式的設(shè)計(jì)理念可以用一個(gè)餐廳的比喻來(lái)理解。在一家高端餐廳中,廚師會(huì)根據(jù)食材的珍貴程度采用不同的處理方式:頂級(jí)和牛需要精心烹制,而配菜土豆則可以用更簡(jiǎn)單的方法處理。SQ-format就像是這樣的智能廚師,它會(huì)自動(dòng)識(shí)別出數(shù)據(jù)中的"頂級(jí)食材"(重要數(shù)值)和"普通配菜"(一般數(shù)值),然后分別用高精度和低精度的方式進(jìn)行處理。

      具體來(lái)說(shuō),這種格式將數(shù)據(jù)分成兩個(gè)部分:一部分是稀疏分布的高精度數(shù)據(jù),另一部分是密集分布的低精度數(shù)據(jù)。就像一個(gè)花園中,少數(shù)珍貴的花朵需要特殊照料,而大片的草坪則可以用常規(guī)方式維護(hù)。這種分層處理的方式讓計(jì)算資源得到了最優(yōu)化的配置。

      研究團(tuán)隊(duì)發(fā)現(xiàn),在大語(yǔ)言模型中,只有很小一部分?jǐn)?shù)值對(duì)最終結(jié)果起到?jīng)Q定性作用,這些"關(guān)鍵數(shù)值"就像交響樂(lè)團(tuán)中的首席小提琴手,雖然人數(shù)不多,但對(duì)整個(gè)演出的質(zhì)量起到關(guān)鍵作用。而大部分?jǐn)?shù)值則像是合唱團(tuán)成員,雖然數(shù)量龐大,但個(gè)體的精確度要求相對(duì)較低。基于這個(gè)發(fā)現(xiàn),SQ-format能夠智能地識(shí)別出這些關(guān)鍵數(shù)值,并為它們分配更高的精度,同時(shí)對(duì)其他數(shù)值使用較低的精度進(jìn)行處理。

      二、智能識(shí)別重要信息的兩種策略

      為了實(shí)現(xiàn)這種分級(jí)處理,研究團(tuán)隊(duì)開(kāi)發(fā)了兩套互補(bǔ)的策略,就像一個(gè)智能安保系統(tǒng)同時(shí)使用面部識(shí)別和指紋識(shí)別兩種技術(shù)來(lái)確保安全性。

      第一種策略專門針對(duì)模型的權(quán)重?cái)?shù)據(jù),這些數(shù)據(jù)就像是一個(gè)公司的組織架構(gòu)圖,相對(duì)固定且重要性分布明確。研究團(tuán)隊(duì)結(jié)合了兩種已有的優(yōu)化技術(shù):GPTQ和SmoothQuant。這個(gè)過(guò)程就像是對(duì)公司進(jìn)行重組優(yōu)化,首先通過(guò)SmoothQuant技術(shù)對(duì)整個(gè)權(quán)重矩陣進(jìn)行"平滑處理",就像是在重組前先整理公司的部門結(jié)構(gòu)。然后使用GPTQ技術(shù)的海塞矩陣來(lái)計(jì)算每個(gè)權(quán)重的重要性得分,這就像是通過(guò)數(shù)據(jù)分析來(lái)評(píng)估每個(gè)員工對(duì)公司業(yè)績(jī)的貢獻(xiàn)度。

      重要性得分的計(jì)算公式融合了權(quán)重本身的大小和模型對(duì)該權(quán)重變化的敏感度。就像評(píng)估一個(gè)齒輪在機(jī)器中的重要性時(shí),既要考慮齒輪本身的大小,也要考慮這個(gè)齒輪停止工作時(shí)對(duì)整臺(tái)機(jī)器的影響程度。通過(guò)這種綜合評(píng)估,系統(tǒng)能夠準(zhǔn)確識(shí)別出那些對(duì)模型性能起關(guān)鍵作用的權(quán)重,并將它們標(biāo)記為需要高精度處理的對(duì)象。

      第二種策略則針對(duì)激活數(shù)據(jù),這些數(shù)據(jù)就像是流水線上實(shí)時(shí)變化的產(chǎn)品,需要?jiǎng)討B(tài)處理。由于激活數(shù)據(jù)的動(dòng)態(tài)特性,研究團(tuán)隊(duì)設(shè)計(jì)了一種靜態(tài)預(yù)測(cè)策略來(lái)避免實(shí)時(shí)計(jì)算的開(kāi)銷。這就像是氣象預(yù)報(bào)系統(tǒng),雖然天氣每天都在變化,但通過(guò)分析歷史數(shù)據(jù)和模式,可以提前預(yù)測(cè)出哪些時(shí)間段可能出現(xiàn)重要天氣變化。

      這種靜態(tài)策略首先在校準(zhǔn)數(shù)據(jù)集上收集每個(gè)通道的平均激活值,然后考慮激活值與權(quán)重矩陣的乘積貢獻(xiàn)來(lái)重新定義重要性得分。這就像是分析一個(gè)樂(lè)隊(duì)中每個(gè)樂(lè)器的演奏模式,雖然每首曲子的具體表現(xiàn)會(huì)有差異,但通過(guò)分析大量曲目,可以識(shí)別出哪些樂(lè)器在特定類型的音樂(lè)中通常起主導(dǎo)作用。這種預(yù)測(cè)性的方法讓系統(tǒng)能夠在不增加實(shí)時(shí)計(jì)算負(fù)擔(dān)的情況下,提前確定哪些激活通道需要高精度處理。

      三、突破現(xiàn)有硬件限制的設(shè)計(jì)理念

      現(xiàn)有的計(jì)算硬件就像是一個(gè)只能處理固定尺寸貨物的運(yùn)輸系統(tǒng)。比如GPU的張量核心,就像是專門設(shè)計(jì)用來(lái)運(yùn)輸標(biāo)準(zhǔn)集裝箱的港口設(shè)備,當(dāng)遇到非標(biāo)準(zhǔn)尺寸的貨物時(shí),就需要進(jìn)行復(fù)雜的轉(zhuǎn)換和適配,這個(gè)過(guò)程不僅低效,還可能影響整體的運(yùn)輸效率。

      SQ-format的硬件設(shè)計(jì)策略就像是重新設(shè)計(jì)了一個(gè)靈活的物流系統(tǒng)。這個(gè)系統(tǒng)包含兩條并行的處理通道:一條專門處理高精度的稀疏數(shù)據(jù),另一條處理低精度的密集數(shù)據(jù)。就像現(xiàn)代機(jī)場(chǎng)有不同的安檢通道,VIP乘客走快速通道接受精密檢查,普通乘客走標(biāo)準(zhǔn)通道接受常規(guī)檢查,兩個(gè)通道并行運(yùn)行,既保證了安全性,又提高了整體效率。

      對(duì)于權(quán)重?cái)?shù)據(jù)的處理,硬件設(shè)計(jì)采用了巧妙的掩碼機(jī)制。低精度部分保持原有的存儲(chǔ)格式,但使用特殊的掩碼值來(lái)標(biāo)識(shí)需要高精度處理的位置。這就像是在普通的停車場(chǎng)中設(shè)置了一些特殊標(biāo)記,當(dāng)系統(tǒng)掃描到這些標(biāo)記時(shí),就知道需要調(diào)用特殊的處理流程。這種設(shè)計(jì)的優(yōu)勢(shì)在于,低精度部分可以直接由現(xiàn)有的張量核心處理,而高精度部分則通過(guò)專門的收集單元來(lái)處理稀疏數(shù)據(jù)。

      研究團(tuán)隊(duì)通過(guò)硬件仿真驗(yàn)證了這種設(shè)計(jì)的可行性。他們使用臺(tái)積電12納米工藝進(jìn)行了RTL綜合實(shí)驗(yàn),結(jié)果顯示即使增加了處理動(dòng)態(tài)掩碼所需的收集單元,整體硅面積仍然比標(biāo)準(zhǔn)的INT6乘加陣列減少了35.8%。這就像是重新設(shè)計(jì)了一個(gè)工廠布局,雖然增加了一些新的設(shè)備,但通過(guò)優(yōu)化整體流程,反而減少了總體的占地面積。

      四、實(shí)驗(yàn)證明的顯著性能提升

      研究團(tuán)隊(duì)在多個(gè)大語(yǔ)言模型上進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證,就像是在不同類型的車輛上測(cè)試新型燃油系統(tǒng)的效果。實(shí)驗(yàn)涵蓋了從80億參數(shù)的Llama-3-8B到700億參數(shù)的Llama-3-70B,以及300億參數(shù)的Qwen-3-30B等多種模型規(guī)模。

      在準(zhǔn)確性方面,SQ-format展現(xiàn)出了令人印象深刻的性能保持能力。以Llama-3-8B為例,在非生成任務(wù)上,SQ-format達(dá)到了與傳統(tǒng)W4A8方法幾乎相同的準(zhǔn)確性,平均準(zhǔn)確率差異小于1%。這就像是用新型燃油的汽車不僅保持了原有的動(dòng)力性能,在某些情況下甚至還有所提升。在生成任務(wù)上,SQ-format在GSM8k數(shù)學(xué)問(wèn)題求解任務(wù)中的表現(xiàn)甚至超過(guò)了某些傳統(tǒng)方法,顯示出其在復(fù)雜推理任務(wù)中的潛力。

      更重要的是吞吐量的顯著提升。研究團(tuán)隊(duì)測(cè)量了端到端的預(yù)填充延遲,發(fā)現(xiàn)在Llama-3-8B上能夠?qū)崿F(xiàn)最高1.17倍的速度提升,而在更大的Llama-3-70B模型上,速度提升更是達(dá)到了1.71倍。這種性能提升就像是通過(guò)智能交通管理系統(tǒng),在不增加道路寬度的情況下,讓車流量提升了近一倍。

      特別值得注意的是,SQ-format成功地彌合了理論效率和實(shí)際部署之間的鴻溝。傳統(tǒng)的W4A8量化方法在理論上應(yīng)該比W8A8更高效,但由于硬件限制,實(shí)際運(yùn)行時(shí)往往需要回退到W8A8的執(zhí)行路徑。SQ-format通過(guò)將大部分計(jì)算轉(zhuǎn)換為W4A4路徑,同時(shí)保持接近W4A8的準(zhǔn)確性,真正實(shí)現(xiàn)了理論與實(shí)踐的統(tǒng)一。

      在不同稀疏度設(shè)置下的實(shí)驗(yàn)結(jié)果也很有啟發(fā)性。從50%稀疏度(2倍稀疏)到93.75%稀疏度(16倍稀疏),隨著稀疏度的增加,計(jì)算吞吐量穩(wěn)步提升,就像是逐漸減少快速通道的使用比例,將更多計(jì)算任務(wù)轉(zhuǎn)移到高效的低精度通道上。這種可調(diào)節(jié)的設(shè)計(jì)讓用戶能夠根據(jù)具體需求在準(zhǔn)確性和性能之間找到最佳平衡點(diǎn)。

      五、靜態(tài)策略解決實(shí)際部署挑戰(zhàn)

      在實(shí)際應(yīng)用中,動(dòng)態(tài)選擇重要數(shù)據(jù)就像是在高速公路上臨時(shí)決定哪些車輛可以使用快速車道,這種實(shí)時(shí)決策雖然理論上最優(yōu),但會(huì)帶來(lái)額外的管理開(kāi)銷和復(fù)雜性。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了靜態(tài)預(yù)測(cè)策略,這就像是根據(jù)歷史交通數(shù)據(jù)預(yù)先規(guī)劃好快速車道的使用規(guī)則,避免了實(shí)時(shí)決策的復(fù)雜性。

      靜態(tài)策略的核心思想是通過(guò)分析校準(zhǔn)數(shù)據(jù)集來(lái)提前確定激活通道的重要性排序。這個(gè)過(guò)程就像是一個(gè)經(jīng)驗(yàn)豐富的廚師,通過(guò)長(zhǎng)期觀察發(fā)現(xiàn)某些調(diào)料在大多數(shù)菜品中都起關(guān)鍵作用,因此可以提前準(zhǔn)備好特殊的存儲(chǔ)和處理方式。研究團(tuán)隊(duì)發(fā)現(xiàn),僅僅基于激活值大小來(lái)判斷重要性是不夠的,就像判斷一個(gè)員工的價(jià)值不能只看工作時(shí)間的長(zhǎng)短,還要考慮工作成果的影響力。

      因此,他們重新定義了重要性評(píng)分公式,將激活值與對(duì)應(yīng)權(quán)重的乘積貢獻(xiàn)作為評(píng)判標(biāo)準(zhǔn)。這就像是評(píng)估一個(gè)齒輪的重要性時(shí),不僅要看齒輪本身的大小,還要考慮它所連接的整個(gè)傳動(dòng)系統(tǒng)的復(fù)雜程度。通過(guò)這種綜合評(píng)估,靜態(tài)策略能夠更準(zhǔn)確地識(shí)別出真正影響模型性能的關(guān)鍵通道。

      實(shí)驗(yàn)結(jié)果顯示,靜態(tài)策略與動(dòng)態(tài)策略在性能上幾乎不相上下,平均準(zhǔn)確率差異保持在1%以內(nèi)。這個(gè)結(jié)果就像是發(fā)現(xiàn)預(yù)設(shè)的交通規(guī)則和實(shí)時(shí)調(diào)度在效果上基本相當(dāng),但前者的實(shí)施成本要低得多。更重要的是,靜態(tài)策略完全消除了實(shí)時(shí)TopK操作的開(kāi)銷,讓整個(gè)系統(tǒng)能夠在現(xiàn)有GPU上流暢運(yùn)行,而不需要等待專門的硬件支持。

      靜態(tài)掩碼的存儲(chǔ)開(kāi)銷也非常小。以Llama-3-70B模型為例,整個(gè)靜態(tài)掩碼只需要5.94MB的存儲(chǔ)空間,這相對(duì)于模型本身140GB的大小來(lái)說(shuō)幾乎可以忽略不計(jì),就像是在一個(gè)大型倉(cāng)庫(kù)中添加了一個(gè)小小的導(dǎo)航牌,成本微不足道但效果顯著。

      六、硬件算法協(xié)同設(shè)計(jì)的深度探索

      研究團(tuán)隊(duì)深入探討了不同參數(shù)配置對(duì)性能的影響,這就像是調(diào)音師為不同類型的音樂(lè)會(huì)調(diào)試音響系統(tǒng)的各種參數(shù)。他們發(fā)現(xiàn),銀行大小(bank size)和稀疏度之間存在著微妙的平衡關(guān)系,這種關(guān)系就像是烹飪中火候與時(shí)間的配合,需要根據(jù)具體情況進(jìn)行精細(xì)調(diào)節(jié)。

      在權(quán)重?cái)?shù)據(jù)的處理中,隨著稀疏度的增加,最優(yōu)銀行大小也會(huì)相應(yīng)增大。這就像是隨著VIP客戶比例的減少,需要增大普通服務(wù)區(qū)域的容量來(lái)保持整體服務(wù)效率。具體來(lái)說(shuō),當(dāng)稀疏度達(dá)到16倍時(shí),銀行大小需要至少達(dá)到64才能獲得最佳性能。這個(gè)發(fā)現(xiàn)對(duì)硬件設(shè)計(jì)具有重要指導(dǎo)意義,因?yàn)樗苯佑绊懙蕉嗦愤x擇器(MUX)的復(fù)雜度和芯片面積。

      對(duì)于激活數(shù)據(jù)的處理,靜態(tài)策略傾向于使用較小的銀行大小,這與權(quán)重?cái)?shù)據(jù)的趨勢(shì)正好相反。這種差異就像是不同類型的生產(chǎn)線需要不同的組織方式,流水線生產(chǎn)適合大批量標(biāo)準(zhǔn)化產(chǎn)品,而定制化生產(chǎn)則需要更靈活的小型工作單元。這種發(fā)現(xiàn)讓研究團(tuán)隊(duì)意識(shí)到,針對(duì)不同類型數(shù)據(jù)需要采用不同的優(yōu)化策略。

      在高低精度配置的選擇上,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要的平衡點(diǎn)。當(dāng)?shù)途任粚捊档?位時(shí),即使引入高精度元素也難以補(bǔ)償信息損失,這就像是用過(guò)于簡(jiǎn)陋的工具來(lái)處理精密工作,無(wú)論如何補(bǔ)救都難以達(dá)到理想效果。而8位/4位的組合則提供了最佳的性能平衡,就像是找到了工具精度和使用效率的最佳平衡點(diǎn)。

      稀疏度的計(jì)算平衡也是一個(gè)關(guān)鍵考慮因素。研究團(tuán)隊(duì)指出,稀疏度的選擇需要考慮硬件的計(jì)算能力差異。比如,如果8位計(jì)算的速度是4位計(jì)算的四倍,那么稀疏度需要至少達(dá)到75%才能讓高精度路徑的計(jì)算時(shí)間被低精度路徑完全掩蓋。這就像是設(shè)計(jì)一個(gè)雙車道系統(tǒng)時(shí),需要確保快車道的車流密度足夠小,這樣即使單車處理時(shí)間更長(zhǎng),也不會(huì)影響整體通行效率。

      七、面向未來(lái)的硬件設(shè)計(jì)指導(dǎo)

      SQ-format不僅解決了當(dāng)前的性能問(wèn)題,更為未來(lái)AI加速器的設(shè)計(jì)提供了寶貴的指導(dǎo)思路。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)總結(jié)出了一套設(shè)計(jì)準(zhǔn)則,這些準(zhǔn)則就像是建筑師在設(shè)計(jì)摩天大樓時(shí)需要遵循的結(jié)構(gòu)原理,為未來(lái)的硬件發(fā)展指明了方向。

      首先,銀行化設(shè)計(jì)成為了核心原則。就像現(xiàn)代城市規(guī)劃中的分區(qū)管理概念,將大型計(jì)算任務(wù)劃分為多個(gè)可管理的銀行單元,每個(gè)銀行內(nèi)部采用固定的稀疏模式。這種設(shè)計(jì)避免了不規(guī)則稀疏模式帶來(lái)的負(fù)載不平衡問(wèn)題,就像是通過(guò)標(biāo)準(zhǔn)化的城區(qū)規(guī)劃來(lái)避免交通擁堵和資源分配不均。

      其次,多精度并行處理架構(gòu)展現(xiàn)出了巨大潛力。這種架構(gòu)就像是現(xiàn)代工廠中的多條生產(chǎn)線,每條生產(chǎn)線專門處理不同復(fù)雜度的產(chǎn)品,通過(guò)專業(yè)化分工來(lái)提高整體效率。高精度路徑處理關(guān)鍵但稀疏的數(shù)據(jù),低精度路徑處理大量的常規(guī)數(shù)據(jù),兩者并行運(yùn)行,互不干擾。

      研究團(tuán)隊(duì)還提出了動(dòng)態(tài)掩碼處理單元的設(shè)計(jì)方案。這種單元就像是智能分揀系統(tǒng),能夠在流水線上實(shí)時(shí)識(shí)別和分離不同類型的產(chǎn)品。雖然這個(gè)單元會(huì)增加一定的硬件復(fù)雜度,但RTL綜合結(jié)果顯示,整體面積效率仍然比傳統(tǒng)設(shè)計(jì)提升了35.8%。這證明了通過(guò)智能化設(shè)計(jì),完全可以在增加功能的同時(shí)減少資源消耗。

      對(duì)于校準(zhǔn)數(shù)據(jù)集大小的研究也提供了實(shí)用的指導(dǎo)。實(shí)驗(yàn)表明,即使使用相對(duì)較小的校準(zhǔn)數(shù)據(jù)集,靜態(tài)策略的性能也保持穩(wěn)定。這就像是發(fā)現(xiàn)只需要少量樣本就能準(zhǔn)確預(yù)測(cè)整體趨勢(shì),這大大降低了實(shí)際部署時(shí)的數(shù)據(jù)收集成本和時(shí)間開(kāi)銷。

      八、實(shí)際應(yīng)用中的表現(xiàn)驗(yàn)證

      為了驗(yàn)證SQ-format在真實(shí)應(yīng)用場(chǎng)景中的表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了端到端的延遲測(cè)試。這些測(cè)試就像是對(duì)新型交通系統(tǒng)進(jìn)行的實(shí)路測(cè)試,不僅要看理論指標(biāo),更要在真實(shí)環(huán)境中驗(yàn)證實(shí)際效果。測(cè)試使用了WikiText數(shù)據(jù)集,模擬了典型的文本生成任務(wù)場(chǎng)景。

      結(jié)果顯示,在Llama-3-8B模型上,不同稀疏度配置下的速度提升從1.07倍到1.17倍不等,而在更大的Llama-3-70B模型上,速度提升更是達(dá)到了1.32倍到1.71倍。這種規(guī)模效應(yīng)就像是大型貨輪比小型漁船更能體現(xiàn)新型推進(jìn)系統(tǒng)的優(yōu)勢(shì),模型越大,SQ-format的效率提升越明顯。

      有效內(nèi)存帶寬的提升也很顯著。這個(gè)指標(biāo)就像是衡量高速公路實(shí)際通行能力的標(biāo)準(zhǔn),不僅要看道路寬度,還要考慮實(shí)際車流密度和平均車速。SQ-format在各種模型上都實(shí)現(xiàn)了內(nèi)存帶寬的顯著提升,這意味著同樣的硬件資源能夠處理更多的數(shù)據(jù)流量。

      研究團(tuán)隊(duì)還測(cè)試了SQ-format在浮點(diǎn)數(shù)據(jù)類型上的表現(xiàn)。他們?cè)贒eepSeek-R1模型上應(yīng)用了FP8/FP4的量化組合,在稀疏度為87.5%的設(shè)置下,獲得了等效5位的壓縮效果,同時(shí)保持了與原始BF16模型幾乎相同的性能表現(xiàn)。這就像是驗(yàn)證了新的壓縮技術(shù)不僅適用于整數(shù)數(shù)據(jù),在更復(fù)雜的浮點(diǎn)數(shù)據(jù)上同樣有效。

      九、技術(shù)細(xì)節(jié)的深入解析

      SQ-format的數(shù)學(xué)定義可以用一個(gè)精密的分類系統(tǒng)來(lái)理解。整個(gè)格式包含量化矩陣、稀疏矩陣、掩碼向量以及高低精度配置等多個(gè)組件,就像是一個(gè)完整的檔案管理系統(tǒng),每個(gè)文件都有其特定的存儲(chǔ)位置和訪問(wèn)方式。

      掩碼機(jī)制的設(shè)計(jì)尤為巧妙。在權(quán)重量化中,系統(tǒng)使用對(duì)稱量化方式,并將未使用的最大值作為高精度掩碼標(biāo)識(shí)。這就像是在標(biāo)準(zhǔn)的產(chǎn)品編碼系統(tǒng)中,特意保留某個(gè)編號(hào)來(lái)表示"特殊處理"的含義。比如在INT2格式中,正常值域?yàn)閧-1, 0, 1},而值2被專門用來(lái)標(biāo)識(shí)該位置需要使用高精度數(shù)據(jù)。

      重要性評(píng)分的計(jì)算融合了多種因素。對(duì)于權(quán)重?cái)?shù)據(jù),評(píng)分公式結(jié)合了權(quán)重的平方值和海塞矩陣的對(duì)角線倒數(shù),這就像是評(píng)估一個(gè)員工時(shí)既考慮其能力大小,也考慮其崗位的關(guān)鍵程度。對(duì)于激活數(shù)據(jù),評(píng)分則基于激活值與權(quán)重乘積的貢獻(xiàn),更加注重實(shí)際的協(xié)同效應(yīng)。

      銀行內(nèi)的精度分配策略也體現(xiàn)了精細(xì)化管理的思想。系統(tǒng)不是隨機(jī)選擇高精度元素,而是根據(jù)重要性評(píng)分在每個(gè)銀行內(nèi)選擇前(1-s)比例的關(guān)鍵元素。這就像是在每個(gè)部門內(nèi)部都要保留一定比例的核心骨干,確保關(guān)鍵功能不會(huì)受到影響。

      靜態(tài)策略中的權(quán)重重排序功能為硬件優(yōu)化提供了額外的便利。通過(guò)根據(jù)重要性掩碼重新排列權(quán)重矩陣的列,系統(tǒng)能夠改善數(shù)據(jù)局部性,就像是重新整理倉(cāng)庫(kù)貨物的擺放位置,讓常用物品更容易取用。這種優(yōu)化雖然看似細(xì)微,但對(duì)硬件內(nèi)核的執(zhí)行效率有顯著影響。

      說(shuō)到底,SQ-format代表了AI硬件軟件協(xié)同設(shè)計(jì)的一個(gè)重要里程碑。它不是簡(jiǎn)單地追求更高的壓縮率或更快的速度,而是在深度理解模型特性的基礎(chǔ)上,找到了準(zhǔn)確性、效率和硬件友好性之間的最佳平衡點(diǎn)。這種設(shè)計(jì)哲學(xué)就像是優(yōu)秀的建筑師不僅要考慮建筑的美觀和實(shí)用,還要兼顧成本控制和施工可行性。

      研究團(tuán)隊(duì)的工作證明了一個(gè)重要觀點(diǎn):面向未來(lái)的AI技術(shù)發(fā)展,單純的軟件優(yōu)化或硬件升級(jí)都是不夠的,只有通過(guò)深度的軟硬件協(xié)同設(shè)計(jì),才能真正釋放AI系統(tǒng)的潛力。SQ-format為這種協(xié)同設(shè)計(jì)提供了一個(gè)成功的范例,為后續(xù)的研究和產(chǎn)業(yè)發(fā)展指明了方向。這項(xiàng)技術(shù)不僅能夠立即改善現(xiàn)有AI系統(tǒng)的性能,更為構(gòu)建下一代AI計(jì)算基礎(chǔ)設(shè)施提供了重要的技術(shù)儲(chǔ)備。

      隨著大語(yǔ)言模型在各個(gè)領(lǐng)域的廣泛應(yīng)用,對(duì)計(jì)算效率的需求將越來(lái)越迫切。SQ-format這樣的創(chuàng)新技術(shù)讓我們看到,通過(guò)巧妙的設(shè)計(jì)和深入的優(yōu)化,完全可以在不犧牲質(zhì)量的前提下大幅提升AI系統(tǒng)的運(yùn)行效率。這不僅意味著更低的部署成本和更廣泛的應(yīng)用可能,也為AI技術(shù)的民主化奠定了重要基礎(chǔ)。當(dāng)AI系統(tǒng)變得更加高效和易于部署時(shí),更多的組織和個(gè)人將能夠享受到AI技術(shù)帶來(lái)的便利和價(jià)值。

      Q&A

      Q1:SQ-format是什么樣的技術(shù)?

      A:SQ-format是香港科技大學(xué)等機(jī)構(gòu)開(kāi)發(fā)的一種新型數(shù)據(jù)格式,它能夠智能識(shí)別大語(yǔ)言模型中的重要信息和普通信息,然后用不同精度進(jìn)行處理。就像智能分揀系統(tǒng)一樣,重要數(shù)據(jù)用高精度處理,普通數(shù)據(jù)用低精度處理,這樣既保證了準(zhǔn)確性又提升了運(yùn)行速度。

      Q2:SQ-format能帶來(lái)多大的性能提升?

      A:在實(shí)際測(cè)試中,SQ-format能讓大語(yǔ)言模型的運(yùn)行速度提升1.17到1.71倍,具體提升幅度取決于模型大小。更大的模型通常能獲得更明顯的速度提升。同時(shí),這種技術(shù)幾乎不會(huì)損失模型的準(zhǔn)確性,平均準(zhǔn)確率差異小于1%。

      Q3:普通用戶什么時(shí)候能用上SQ-format技術(shù)?

      A:SQ-format目前還是學(xué)術(shù)研究階段,需要專門的硬件支持才能發(fā)揮最佳效果。不過(guò)研究團(tuán)隊(duì)也開(kāi)發(fā)了可以在現(xiàn)有GPU上運(yùn)行的版本,預(yù)計(jì)隨著相關(guān)硬件的發(fā)展和技術(shù)的成熟,未來(lái)幾年內(nèi)可能會(huì)逐步應(yīng)用到實(shí)際的AI產(chǎn)品中。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “新疆棉”事件5年后,那個(gè)丑態(tài)百出的“反華妖女”,如今怎樣了

      “新疆棉”事件5年后,那個(gè)丑態(tài)百出的“反華妖女”,如今怎樣了

      博覽歷史
      2025-09-10 20:25:07
      不同品牌奧司他韋售價(jià)差70倍

      不同品牌奧司他韋售價(jià)差70倍

      大象新聞
      2025-12-12 21:57:01
      香港神秘男子花600萬(wàn)港幣求購(gòu)5套大埔火災(zāi)房,稱不在乎破壞程度及死亡事件!港府:災(zāi)前入住才能獲補(bǔ)助和安置

      香港神秘男子花600萬(wàn)港幣求購(gòu)5套大埔火災(zāi)房,稱不在乎破壞程度及死亡事件!港府:災(zāi)前入住才能獲補(bǔ)助和安置

      澳門月刊
      2025-12-12 09:28:45
      五月天經(jīng)紀(jì)人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒(méi)說(shuō)謊

      五月天經(jīng)紀(jì)人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒(méi)說(shuō)謊

      老范談史
      2025-12-10 19:22:28
      2026養(yǎng)老金調(diào)整信號(hào)落地,不按工齡漲么,答案在這幾個(gè)關(guān)鍵信號(hào)里

      2026養(yǎng)老金調(diào)整信號(hào)落地,不按工齡漲么,答案在這幾個(gè)關(guān)鍵信號(hào)里

      陳博世財(cái)經(jīng)
      2025-12-12 14:21:46
      增設(shè)兩個(gè)車站,佛穗莞城際鐵路新進(jìn)展

      增設(shè)兩個(gè)車站,佛穗莞城際鐵路新進(jìn)展

      南方都市報(bào)
      2025-12-09 11:22:08
      中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

      中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

      等風(fēng)來(lái)育兒聯(lián)盟
      2025-08-01 12:21:35
      全紅嬋擔(dān)心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      全紅嬋擔(dān)心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      以茶帶書
      2025-11-21 12:08:09
      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開(kāi)打

      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開(kāi)打

      郝小小看體育
      2025-12-13 05:21:07
      放棄中國(guó)國(guó)籍投靠日本,結(jié)果日本不收中國(guó)不要,成為夾縫中的黑戶

      放棄中國(guó)國(guó)籍投靠日本,結(jié)果日本不收中國(guó)不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      樊振東與小朱大夢(mèng)的友情,真摯而暖心

      樊振東與小朱大夢(mèng)的友情,真摯而暖心

      眼界看視野
      2025-12-12 20:58:53
      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬(wàn) 貝林跌至1.6億

      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬(wàn) 貝林跌至1.6億

      風(fēng)過(guò)鄉(xiāng)
      2025-12-12 20:54:43
      曼聯(lián)冬窗簽中場(chǎng)計(jì)劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒(méi)戲

      曼聯(lián)冬窗簽中場(chǎng)計(jì)劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒(méi)戲

      羅米的曼聯(lián)博客
      2025-12-13 11:02:12
      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語(yǔ)被意外錄下,后者打斷談話

      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語(yǔ)被意外錄下,后者打斷談話

      環(huán)球網(wǎng)資訊
      2025-12-12 10:54:53
      女孩曬出已故父親合影,沒(méi)想到卻是網(wǎng)友先繃不住了:這不是……

      女孩曬出已故父親合影,沒(méi)想到卻是網(wǎng)友先繃不住了:這不是……

      譚老師地理大課堂
      2025-12-11 22:20:25
      一年兩次分紅股息率5%,股價(jià)從94元跌到35元,市盈率僅7倍

      一年兩次分紅股息率5%,股價(jià)從94元跌到35元,市盈率僅7倍

      投資觀
      2025-12-13 07:10:03
      外賣時(shí)代將被終結(jié)?一個(gè)全新行業(yè)正悄悄取代外賣,你準(zhǔn)備好了嗎?

      外賣時(shí)代將被終結(jié)?一個(gè)全新行業(yè)正悄悄取代外賣,你準(zhǔn)備好了嗎?

      貓叔東山再起
      2025-12-10 10:05:04
      在國(guó)安局維修電臺(tái)18年,退役前夜發(fā)現(xiàn)一臺(tái)廢機(jī)有神秘信號(hào)!

      在國(guó)安局維修電臺(tái)18年,退役前夜發(fā)現(xiàn)一臺(tái)廢機(jī)有神秘信號(hào)!

      千秋文化
      2025-12-08 10:53:53
      說(shuō)說(shuō)大V九邊為何如此感嘆“《芳華》又火了”

      說(shuō)說(shuō)大V九邊為何如此感嘆“《芳華》又火了”

      人格志
      2025-12-06 00:06:19
      每天這樣跪趴10分鐘,內(nèi)分泌正常了,肩頸腰背都不痛了!

      每天這樣跪趴10分鐘,內(nèi)分泌正常了,肩頸腰背都不痛了!

      瑜伽解剖學(xué)
      2025-11-26 16:19:27
      2025-12-13 12:04:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      6531文章數(shù) 542關(guān)注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態(tài)

      頭條要聞

      央媒談美新國(guó)安報(bào)告:時(shí)隔8年 美國(guó)提到中國(guó)的語(yǔ)氣變了

      頭條要聞

      央媒談美新國(guó)安報(bào)告:時(shí)隔8年 美國(guó)提到中國(guó)的語(yǔ)氣變了

      體育要聞

      有了風(fēng)騷白人禿頭,忘掉談了10年的前任

      娛樂(lè)要聞

      保劍鋒方回應(yīng)爭(zhēng)議,否認(rèn)出軌贈(zèng)送香水

      財(cái)經(jīng)要聞

      鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

      汽車要聞

      表面風(fēng)平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

      態(tài)度原創(chuàng)

      親子
      游戲
      健康
      公開(kāi)課
      軍事航空

      親子要聞

      打卡得能湖才懂為何家長(zhǎng)繞道周末都要來(lái)(附上實(shí)用遛娃攻略)

      《生化危機(jī)9》里昂保時(shí)捷座駕車牌號(hào)竟藏匿彩蛋

      甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏“和平計(jì)劃”磋商頓巴斯成焦點(diǎn)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久99亚洲网美利坚合众国| 自拍视频啪| 俺来也俺也啪www色| 少妇爆乳无码专区| 欧洲熟妇色xxxxx欧美老妇伦| 丝袜美腿视频一区二区三区 | 婷婷四房播播| 亚洲狠狠婷婷综合久久久| 超碰51| 黑森林福利导航| 成人免费直播| 亚洲欧美日韩久久一区二区| av在线播放制服| 成人国产亚洲欧美成人综合网 | 肇州县| 男人的天堂av社区在线| 中文字幕久久久久人妻中出| 偷拍99| 增城市| 亚洲a∨无码一区二区三区| 丝袜天堂| 夫妻自拍偷拍| 中文字幕人妻丰满| 最近2019中文字幕大全第二页| 亚洲日本va午夜在线影院| 综合色一色综合久久网| 国产av福利| 色五月丁香六月欧美综合| 国产自偷自偷免费一区| ,国产乱人伦无码视频| 平阳县| 77777五月色婷婷丁香视频| 中国农村真卖bbwbbw| 亚洲自拍制服| 人妻久久中文| 99999久久久久久亚洲| 日韩中文字幕v亚洲中文字幕| 无码人妻精品一区二区三区温州| 久久国产精品萌白酱免费| 爆爽久久久一区二区又大又黄又嫩| 欧美精品一产区二产区|