<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek又在放假搞事!58年前的算法解決一個(gè)大問(wèn)題

      0
      分享至

      訓(xùn)練一個(gè)大模型要多久?

      小模型幾天,大模型幾周,頂級(jí)模型可能要幾個(gè)月。

      現(xiàn)在想象一下:你的團(tuán)隊(duì)花了兩周時(shí)間、燒掉幾百萬(wàn)美元的算力,眼看模型快要訓(xùn)練完成,突然,原本應(yīng)該不斷降低的loss曲線(xiàn)開(kāi)始暴漲,所有數(shù)據(jù)全部作廢,一切從頭再來(lái)。

      2025年的最后一天,DeepSeek悄悄發(fā)了一篇論文《mHC: Manifold-Constrained Hyper-Connections》,解決了這個(gè)問(wèn)題。

      一個(gè)讓工程師崩潰的bug

      這篇論文一發(fā)布,海外AI圈就炸了。

      Hugging Face上,mHC論文直接登上了 " Paper of the day",獲得73個(gè)專(zhuān)業(yè)點(diǎn)贊。

      X上,AI研究者Alexander Doria的解讀帖引發(fā)了大量轉(zhuǎn)發(fā)。他寫(xiě)道:

      "這實(shí)際上是一篇工程論文...論文的核心是'高效訓(xùn)練設(shè)計(jì)',他們用混合精度策略最大化數(shù)值精度,用算子融合減少內(nèi)存帶寬瓶頸...整體非常優(yōu)雅。"



      Hugging Face Paper of the day

      這篇論文到底解決了什么問(wèn)題?為什么能引起這么大的關(guān)注?

      故事要從去年說(shuō)起。字節(jié)跳動(dòng)提出了一種叫Hyper-Connections(HC)的新技術(shù)。

      簡(jiǎn)單說(shuō),傳統(tǒng)的AI模型像一條單行道,信息排隊(duì)通過(guò)。

      HC把它拓寬成了4條并行車(chē)道,讓信息可以同時(shí)在多個(gè)"通道"里流動(dòng)和交換。

      效果非常驚艷:根據(jù)字節(jié)跳動(dòng)的論文,訓(xùn)練速度最高提升1.8倍,在A(yíng)RC-Challenge基準(zhǔn)上提升了6分。


      Hyper-Connections論文結(jié)果圖(訓(xùn)練loss與ARC-Challenge表現(xiàn))

      全世界的AI團(tuán)隊(duì)都想用這個(gè)技術(shù),但很快,大家發(fā)現(xiàn)了一個(gè)致命的問(wèn)題:訓(xùn)練到12000步左右,模型會(huì)突然"發(fā)瘋"。

      代表AI錯(cuò)誤率的loss曲線(xiàn),本來(lái)穩(wěn)步下降,突然毫無(wú)征兆地飆升。前面十幾天的訓(xùn)練,全部白費(fèi)。

      更可怕的是,這個(gè)問(wèn)題沒(méi)有規(guī)律可循。有時(shí)候能撐過(guò)去,有時(shí)候撐不過(guò)去,工程師們只能碰運(yùn)氣。

      3000倍 → 1.6倍

      DeepSeek的工程師們研究后發(fā)現(xiàn)了問(wèn)題所在:4條"車(chē)道"之間的信息交換,沒(méi)有任何約束。

      就像高速公路上的車(chē)可以隨意變道,而且每次變道車(chē)的數(shù)量還會(huì)隨機(jī)變化。

      幾十次變道之后,有的車(chē)道上擠了幾千輛車(chē),有的車(chē)道空無(wú)一車(chē)。系統(tǒng)必然崩潰。

      在A(yíng)I模型里,這個(gè)"變化"有多夸張?信號(hào)放大倍數(shù)最高達(dá)到3000倍。

      DeepSeek的解決方案非常優(yōu)雅:加一個(gè)數(shù)學(xué)約束,讓每次"變道"后,總車(chē)數(shù)保持不變。

      他們用的工具是一個(gè)1967年就有的老算法:Sinkhorn-Knopp。

      這個(gè)算法能保證信息在通道之間流動(dòng)時(shí)"守恒",不會(huì)無(wú)限放大,也不會(huì)逐漸消失。

      結(jié)果:信號(hào)放大倍數(shù)從3000倍降到1.6倍,訓(xùn)練過(guò)程穩(wěn)定,不再隨機(jī)崩盤(pán)。

      額外的計(jì)算開(kāi)銷(xiāo)? 僅6.7%,推理能力還額外提升了2%以上。

      用一個(gè)58年前的老算法,解決了2025年最前沿的工程難題。

      沒(méi)有什么驚天動(dòng)地的理論突破,都是工程師的智慧:找到問(wèn)題的本質(zhì),用最簡(jiǎn)單的方法解決它。

      研究,早已不在象牙塔里

      看完這篇論文,相信你馬上就會(huì)明白,為什么AI研究的一線(xiàn)早已不在象牙塔里。

      你看這篇論文的內(nèi)容:

      大量篇幅在講"Kernel Fusion"(算子融合):怎么把多個(gè)計(jì)算合并成一個(gè),減少內(nèi)存讀寫(xiě)

      詳細(xì)描述了"Recomputing"(重計(jì)算策略):寧可重新算一遍,也不占用寶貴的顯存

      甚至專(zhuān)門(mén)討論了"DualPipe Schedule"(流水線(xiàn)調(diào)度):怎么讓通信和計(jì)算同時(shí)進(jìn)行,不浪費(fèi)一秒鐘

      全是實(shí)打?qū)嵉墓こ虄?yōu)化


      DeepSeek

      DeepSeek這篇論文的核心貢獻(xiàn),就是發(fā)現(xiàn)了"訓(xùn)練會(huì)崩"這個(gè)實(shí)際問(wèn)題,然后用一個(gè)58年前的老算法解決了它。

      AI的"發(fā)動(dòng)機(jī)"已經(jīng)基本就緒了。

      大模型的核心架構(gòu)、訓(xùn)練方法、推理框架,都已經(jīng)相當(dāng)成熟。

      接下來(lái)的競(jìng)爭(zhēng),不只是"誰(shuí)能造出更大的發(fā)動(dòng)機(jī)",更是"誰(shuí)能把發(fā)動(dòng)機(jī)用得更好"。

      而這種"用得更好"的優(yōu)化,會(huì)發(fā)生在A(yíng)I應(yīng)用的很多環(huán)節(jié)

      • 怎么更好的使用AI大模型?

      • 哪些場(chǎng)景中能發(fā)揮AI潛力?

      • 怎么用更少的資源做更多的事?

      這些問(wèn)題,不需要你是數(shù)學(xué)天才,不需要你發(fā)明新理論。你只需要:發(fā)現(xiàn)真實(shí)的問(wèn)題,找到解決它的方法。

      這,就是大多數(shù)人的機(jī)會(huì)。

      會(huì)"用"比會(huì)"造"更重要

      吳恩達(dá)曾多次表達(dá)過(guò)類(lèi)似觀(guān)點(diǎn),大意是:未來(lái)最值錢(qián)的能力,不是"懂AI原理",是"會(huì)指揮AI干活"



      吳恩達(dá)(Andrew Ng)

      這和很多人對(duì)AI的焦慮形成了鮮明對(duì)比:

      有人擔(dān)心:"我不會(huì)寫(xiě)代碼,是不是就被淘汰了?"

      有人擔(dān)心:"我數(shù)學(xué)不好,是不是學(xué)不了AI?"

      有人擔(dān)心:"我不是名校出身,是不是沒(méi)機(jī)會(huì)?"

      但現(xiàn)實(shí)是:真正稀缺的,是"能解決問(wèn)題的人"。

      我們之前也為大家介紹過(guò),Gabriel Petersson高中輟學(xué),用ChatGPT自學(xué),現(xiàn)在在OpenAI做研究科學(xué)家。

      一個(gè)20歲的中國(guó)大學(xué)生,靠AI編程工具做了個(gè)GitHub熱榜第一的項(xiàng)目,拿到了心儀的實(shí)習(xí)offer。

      他們的共同點(diǎn)就是用AI解決了真實(shí)的問(wèn)題

      給下一代的機(jī)會(huì)

      我們這代人,還在努力適應(yīng)AI。但下一代,完全可以從小學(xué)會(huì)"和AI協(xié)作"

      就像DeepSeek的工程師們,沒(méi)有從零發(fā)明了新理論,而是把已有的工具組合起來(lái),解決了實(shí)際問(wèn)題。

      這種"解決問(wèn)題"的能力,越早培養(yǎng)越好。

      【前哨A(yíng)I冬令營(yíng)】專(zhuān)為8-16歲孩子設(shè)計(jì)

      7天時(shí)間,讓孩子親手做出可上線(xiàn)的作品:

      ? 專(zhuān)屬小游戲(卡牌游戲、闖關(guān)冒險(xiǎn)游戲)

      ? 微信小程序(卡路里識(shí)別、飯店點(diǎn)餐小程序)

      教孩子"AI的原理是什么",更教孩子"怎么用AI解決問(wèn)題"。

      當(dāng)DeepSeek的工程師用58年前的老算法解決最前沿的難題時(shí),你的孩子也可以學(xué)會(huì):用現(xiàn)有的工具,解決真實(shí)的問(wèn)題。

      和AI時(shí)代一起成長(zhǎng)

      ? 名額有限,先到先得,掃碼報(bào)名 ↓


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      男子稱(chēng)在靜音車(chē)廂打呼被乘務(wù)員提醒,12306回應(yīng):若打呼聲過(guò)大,工作人員認(rèn)為影響其他乘客會(huì)適當(dāng)提醒,旅客也可掃碼反映

      男子稱(chēng)在靜音車(chē)廂打呼被乘務(wù)員提醒,12306回應(yīng):若打呼聲過(guò)大,工作人員認(rèn)為影響其他乘客會(huì)適當(dāng)提醒,旅客也可掃碼反映

      極目新聞
      2026-02-07 17:58:13
      曝大s豪宅仍在她名下,月供過(guò)百萬(wàn)成燙手山芋,難怪具俊燁不想要

      曝大s豪宅仍在她名下,月供過(guò)百萬(wàn)成燙手山芋,難怪具俊燁不想要

      悅君兮君不知
      2026-02-06 18:21:42
      吳佩慈悼念完大S發(fā)言惹爭(zhēng)議,沒(méi)給汪小菲一點(diǎn)體面,大小s真沒(méi)說(shuō)錯(cuò)

      吳佩慈悼念完大S發(fā)言惹爭(zhēng)議,沒(méi)給汪小菲一點(diǎn)體面,大小s真沒(méi)說(shuō)錯(cuò)

      鄉(xiāng)野小珥
      2026-02-07 04:14:37
      我在芬蘭見(jiàn)雇主家暖氣不熱,順手修了,第5天小鎮(zhèn)的人都趕過(guò)來(lái)了

      我在芬蘭見(jiàn)雇主家暖氣不熱,順手修了,第5天小鎮(zhèn)的人都趕過(guò)來(lái)了

      三農(nóng)老歷
      2026-01-30 11:25:43
      西北馬家軍捉住秦基偉:你本是團(tuán)長(zhǎng),竟敢謊稱(chēng)自己是伙夫?

      西北馬家軍捉住秦基偉:你本是團(tuán)長(zhǎng),竟敢謊稱(chēng)自己是伙夫?

      文史明鑒
      2026-02-07 15:50:08
      張不開(kāi)嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

      張不開(kāi)嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

      十里電影
      2026-01-18 10:07:37
      中美通話(huà)不到24小時(shí),特朗普就變臉,拉54國(guó)反華,并宣布加稅措施

      中美通話(huà)不到24小時(shí),特朗普就變臉,拉54國(guó)反華,并宣布加稅措施

      青煙小先生
      2026-02-07 16:36:49
      放進(jìn)冰箱變毒藥,這7種食物千萬(wàn)不能放在冰箱里!尤其是第六種!

      放進(jìn)冰箱變毒藥,這7種食物千萬(wàn)不能放在冰箱里!尤其是第六種!

      路醫(yī)生健康科普
      2026-02-06 16:16:28
      跳臺(tái)滑雪運(yùn)動(dòng)員通過(guò)注射增大男性生殖器提升飛行距離,WADA正在調(diào)查

      跳臺(tái)滑雪運(yùn)動(dòng)員通過(guò)注射增大男性生殖器提升飛行距離,WADA正在調(diào)查

      懂球帝
      2026-02-06 12:50:09
      托尼賈患膽囊癌細(xì)節(jié)曝光:兩年前已確診,腹痛眼黃成發(fā)病信號(hào)

      托尼賈患膽囊癌細(xì)節(jié)曝光:兩年前已確診,腹痛眼黃成發(fā)病信號(hào)

      小徐講八卦
      2026-02-07 07:50:36
      華為二公主這氣場(chǎng),生生把旁邊兩個(gè)女星襯成了部門(mén)銷(xiāo)售小妹

      華為二公主這氣場(chǎng),生生把旁邊兩個(gè)女星襯成了部門(mén)銷(xiāo)售小妹

      娛樂(lè)故事
      2026-02-07 14:36:19
      李嘉誠(chéng)病危?!現(xiàn)場(chǎng)直擊!

      李嘉誠(chéng)病危?!現(xiàn)場(chǎng)直擊!

      港漂圈
      2026-02-06 15:17:03
      遼寧艦退役去向已定?并非賣(mài)給俄,若按這招處理,才是美國(guó)最怕的

      遼寧艦退役去向已定?并非賣(mài)給俄,若按這招處理,才是美國(guó)最怕的

      他想要很多很多的夢(mèng)
      2026-02-07 18:32:46
      車(chē)主吐槽高速服務(wù)區(qū)充電太貴 100元都充不滿(mǎn)!網(wǎng)友神回復(fù)

      車(chē)主吐槽高速服務(wù)區(qū)充電太貴 100元都充不滿(mǎn)!網(wǎng)友神回復(fù)

      快科技
      2026-02-06 08:57:05
      提醒大家:洗衣機(jī)里,不管有幾件衣服,千萬(wàn)要記得放幾個(gè)塑料袋!

      提醒大家:洗衣機(jī)里,不管有幾件衣服,千萬(wàn)要記得放幾個(gè)塑料袋!

      美食格物
      2026-02-04 22:51:09
      新民海報(bào) | 上海兩會(huì)好聲音:對(duì)高齡老人參團(tuán)出游不能“一刀切”拒收

      新民海報(bào) | 上海兩會(huì)好聲音:對(duì)高齡老人參團(tuán)出游不能“一刀切”拒收

      上觀(guān)新聞
      2026-02-07 14:48:07
      掙再多錢(qián)有啥用,61歲崔培軍如今的現(xiàn)狀,給所有企業(yè)家提了醒

      掙再多錢(qián)有啥用,61歲崔培軍如今的現(xiàn)狀,給所有企業(yè)家提了醒

      云景侃記
      2026-02-03 22:26:23
      鄭欽文用紀(jì)錄片回顧手肘康復(fù)過(guò)程,即將在多哈1000賽復(fù)出

      鄭欽文用紀(jì)錄片回顧手肘康復(fù)過(guò)程,即將在多哈1000賽復(fù)出

      北青網(wǎng)-北京青年報(bào)
      2026-02-07 18:12:04
      58歲那英改走顏值路線(xiàn)?過(guò)度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

      58歲那英改走顏值路線(xiàn)?過(guò)度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

      鋒哥與八卦哥
      2026-01-25 13:26:51
      人社部傳來(lái)好消息!退休人員注意,2000元以下的人居然能領(lǐng)這么多

      人社部傳來(lái)好消息!退休人員注意,2000元以下的人居然能領(lǐng)這么多

      社保小達(dá)人
      2026-02-07 11:25:10
      2026-02-07 19:52:49
      王煜全 incentive-icons
      王煜全
      王煜全帶你一起看創(chuàng)新
      1007文章數(shù) 760關(guān)注度
      往期回顧 全部

      科技要聞

      小米千匹馬力新車(chē)亮相!問(wèn)界M6雙動(dòng)力齊報(bào)

      頭條要聞

      演員金晨交通事故處罰結(jié)果:罰款1500元 不構(gòu)成犯罪

      頭條要聞

      演員金晨交通事故處罰結(jié)果:罰款1500元 不構(gòu)成犯罪

      體育要聞

      中國(guó)體育代表團(tuán)亮相米蘭冬奧會(huì)開(kāi)幕式

      娛樂(lè)要聞

      何超欣說(shuō)和何猷君沒(méi)競(jìng)爭(zhēng),實(shí)力遭質(zhì)疑

      財(cái)經(jīng)要聞

      金價(jià)高波動(dòng)時(shí)代來(lái)了

      汽車(chē)要聞

      工信部公告落地 全新騰勢(shì)Z9GT煥新升級(jí)

      態(tài)度原創(chuàng)

      游戲
      手機(jī)
      時(shí)尚
      房產(chǎn)
      公開(kāi)課

      『仁王3』 今日發(fā)售,同步公開(kāi)上市宣傳影片! 「 My竹千代」 角色設(shè)計(jì)大賽熱烈募集

      手機(jī)要聞

      iQOO 15 Ultra線(xiàn)下上手體驗(yàn):不吐不快,說(shuō)說(shuō)真實(shí)感受

      內(nèi)娛長(zhǎng)劇有救了!

      房產(chǎn)要聞

      新春三亞置業(yè),看過(guò)這個(gè)熱盤(pán)再說(shuō)!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版