<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      字節(jié)Seed用化學(xué)思想搞AI,把DeepSeek-R1的腦回路拆成了分子結(jié)構(gòu)

      0
      分享至

      聞樂(lè) 發(fā)自 凹非寺
      量子位 | 公眾號(hào) QbitAI

      字節(jié)Seed都開(kāi)始用化學(xué)思想搞大模型了——

      深度推理是共價(jià)鍵、自我反思是氫鍵、自我探索是范德華力?!



      傳統(tǒng)的大模型長(zhǎng)思維鏈推理基本把AI的思考過(guò)程等同于線(xiàn)性結(jié)構(gòu)。

      但很多情況下,后續(xù)的一個(gè)關(guān)鍵結(jié)論,可能需要回過(guò)頭去驗(yàn)證早早提出的假設(shè)。

      CoT把這種非線(xiàn)性的依賴(lài)關(guān)系忽略了。

      字節(jié)Seed在論文《The Molecular Structure of Thought》中首次給大模型的長(zhǎng)鏈思維定義了分子式結(jié)構(gòu)。



      在這種分子拓?fù)渲校N鍵是怎么相互配合的?

      好的推理像分子結(jié)構(gòu)

      團(tuán)隊(duì)把DeepSeek-R1、gpt-OSS等強(qiáng)推理模型的長(zhǎng)鏈思維拆成一步一步的,然后給每一步之間的“跳躍”打上標(biāo)簽。

      打完標(biāo)簽發(fā)現(xiàn),所有有效的長(zhǎng)鏈思維里,其實(shí)就三種基礎(chǔ)動(dòng)作來(lái)回組合。

      第一種叫深度推理,像共價(jià)鍵一樣結(jié)實(shí)。

      通俗來(lái)說(shuō)就是類(lèi)似“因?yàn)锳所以B,因?yàn)锽所以C”的硬邏輯推進(jìn)。

      團(tuán)隊(duì)在語(yǔ)義空間里做了一個(gè)很形象的量化分析,把模型的每一步思考都當(dāng)成一個(gè)點(diǎn),看這些點(diǎn)最后會(huì)散成多大一個(gè)圈。

      圈子越小,說(shuō)明模型越?jīng)]跑題,思考越聚焦。

      結(jié)果發(fā)現(xiàn),加上深度推理之后,這個(gè)散點(diǎn)圈直接縮水22%。

      深度推理確實(shí)起到了收束雜念、鎖定核心邏輯的關(guān)鍵作用。



      第二種叫自我反思,像氫鍵一樣有彈性但穩(wěn)定。

      類(lèi)似于“等等,我剛才那步是不是想錯(cuò)了”“讓我重新檢查一下前面的假設(shè)”,能把后面的思考拐回來(lái)跟前面的節(jié)點(diǎn)呼應(yīng)上,形成一種折疊感。

      團(tuán)隊(duì)測(cè)了模型自我反思時(shí)的思維軌跡,把每一步思考都看成語(yǔ)義空間里的一個(gè)點(diǎn),然后計(jì)算反思時(shí)會(huì)跳回多遠(yuǎn)、落在哪里。

      發(fā)現(xiàn)81.72%的反思步驟,都會(huì)精準(zhǔn)落回之前已經(jīng)形成的靠譜思路區(qū)域里。

      還對(duì)比了反思前后的思維范圍,反思前,語(yǔ)義空間體積是35.2,反思后,直接壓縮到31.2。

      再看聚類(lèi)結(jié)果就更清楚了,反思之后,同一類(lèi)正確思路的點(diǎn)會(huì)緊緊抱團(tuán),而那些零散、跑偏的分支會(huì)被自動(dòng)推開(kāi)。

      也就是說(shuō),自我反思?xì)滏I能把靠譜邏輯揉得更緊實(shí)、把跑偏想法篩出去、穩(wěn)住整個(gè)推理大局,讓長(zhǎng)鏈思考不再松散混亂。



      第三種叫自我探索,像范德華力一樣弱,但覆蓋面廣。

      這個(gè)就類(lèi)似于“要不咱們?cè)囋囘@個(gè)角度”“有沒(méi)有另一種可能性”,在語(yǔ)義空間里找新的解題路徑。

      量化分析顯示,加上探索行為之后,模型在語(yǔ)義空間里的思維覆蓋范圍能從23.95擴(kuò)大到29.22。

      雖然思路一打開(kāi)穩(wěn)定性就會(huì)下降,容易跑偏想歪,但能讓模型跳出死胡同,不卡在局部最優(yōu)解里,真正找到全新的解題路線(xiàn)。

      研究發(fā)現(xiàn),所有強(qiáng)推理模型的三種思維行為比例和轉(zhuǎn)換規(guī)律都高度一致,相關(guān)性超過(guò)0.9,說(shuō)明有效長(zhǎng)鏈推理存在通用的穩(wěn)定拓?fù)浣Y(jié)構(gòu)。



      你可能覺(jué)得“共價(jià)鍵”“氫鍵”只是個(gè)比喻,但論文發(fā)現(xiàn),這個(gè)比喻背后藏著嚴(yán)格的數(shù)學(xué)對(duì)應(yīng)。

      在Transformer里,注意力權(quán)重的計(jì)算方式長(zhǎng)這樣:



      眼熟嗎?這和統(tǒng)計(jì)力學(xué)里的玻爾茲曼分布一模一樣:



      如果把負(fù)注意力分?jǐn)?shù)看作能量,那么注意力權(quán)重就是模型在語(yǔ)義空間里按“能量”高低選擇路徑的概率就是能量越低,被選中的概率越高

      論文進(jìn)一步分析了三種行為對(duì)應(yīng)的“注意力能量”。

      • 深度推理通常發(fā)生在相鄰步驟之間,能量最低;
      • 自我反思會(huì)跳回較遠(yuǎn)的步驟,能量中等;
      • 自我探索跳得更遠(yuǎn),能量最高.

      這就解釋了為什么強(qiáng)推理模型的三種鍵比例如此穩(wěn)定。

      因?yàn)槟P偷淖⒁饬C(jī)制本身就在追求最低能量的推理路徑,而深度推理、反思、探索正好對(duì)應(yīng)了不同距離下的能量層級(jí)。

      語(yǔ)義同分異構(gòu)體和智能熵減

      接著團(tuán)隊(duì)還拋出了語(yǔ)義同分異構(gòu)體的概念。

      這詞兒是借的化學(xué),同樣的分子式,原子連接方式不同,就能搞出性質(zhì)完全不同的物質(zhì)。

      放到推理里就是,同樣的題目,同樣的概念點(diǎn),用不同的”化學(xué)鍵“組合去解,出來(lái)的推理鏈條可以完全不一樣,但都能解對(duì)。



      但不是所有異構(gòu)體都適合拿來(lái)教模型。

      這里就要引入一個(gè)關(guān)鍵概念熵減

      在熱力學(xué)里,孤立系統(tǒng)總是自發(fā)走向混亂(熵增),而一個(gè)有效的長(zhǎng)鏈推理過(guò)程,本質(zhì)上就是在語(yǔ)義空間里不斷降低不確定性——

      從一堆可能的方向中,逐步收斂到唯一正確的答案。這個(gè)過(guò)程就是“熵減”。

      而“注意力能量”機(jī)制,正是模型實(shí)現(xiàn)熵減的工具。

      模型的注意力天然偏好能量更低的路徑。

      當(dāng)深度推理(低能量)被反復(fù)選中,反思(中等能量)把前后邏輯折疊起來(lái),探索(高能量)偶爾探路但不喧賓奪主,整個(gè)系統(tǒng)的“推理熵”就會(huì)快速下降,邏輯火速收斂。

      這如論文里說(shuō)的,只有那些能推動(dòng)熵快速降低的“化學(xué)鍵”組合,才是模型真正能學(xué)會(huì)、能持續(xù)進(jìn)化的穩(wěn)定態(tài)。

      這在實(shí)驗(yàn)中有個(gè)很典型的現(xiàn)象,從R1和OSS兩個(gè)不同強(qiáng)推理模型中蒸餾出的推理軌跡,語(yǔ)義層面的內(nèi)容相似度高達(dá)95%,但混在一起訓(xùn)練,模型反而崩潰了。

      這說(shuō)明,長(zhǎng)鏈推理的關(guān)鍵是思路結(jié)構(gòu)必須穩(wěn)定、統(tǒng)一,模型才能學(xué)得會(huì)。

      MoLE-Syn:從零合成穩(wěn)定推理結(jié)構(gòu)

      發(fā)現(xiàn)問(wèn)題就要解決問(wèn)題。

      基于這一整套發(fā)現(xiàn),團(tuán)隊(duì)搞了個(gè)叫MoLE-Syn的方法,來(lái)從零合成穩(wěn)定的推理結(jié)構(gòu)。

      具體操作就兩步。

      第一步,從強(qiáng)推理模型(比如R1、QwQ、gpt-OSS)的推理鏈里,抽出一張行為轉(zhuǎn)移概率圖。

      這張圖里每個(gè)節(jié)點(diǎn)是一種推理行為(化學(xué)鍵),每條邊是從一個(gè)行為跳到另一個(gè)行為的概率。



      第二步,拿著這張圖,讓普通的指令模型照著圖上畫(huà)的概率去生成推理鏈。

      用這個(gè)方法從零合成的訓(xùn)練數(shù)據(jù),喂給Llama或者Qwen,效果逼近直接蒸餾R1的水平。



      而且這么做有一個(gè)大好處就是成本低。只要拿到那張行為轉(zhuǎn)移圖,普通模型就能自己生產(chǎn)合格的長(zhǎng)鏈推理數(shù)據(jù)。

      團(tuán)隊(duì)把用MoLE-Syn初始化過(guò)的模型拿去做強(qiáng)化學(xué)習(xí),發(fā)現(xiàn)跑起來(lái)還特別穩(wěn)。

      相比直接用蒸餾數(shù)據(jù)初始化的模型,MoLE-Syn版的在RL過(guò)程中收益持續(xù)增長(zhǎng),震蕩也小得多。



      這說(shuō)明一開(kāi)始植入的思維結(jié)構(gòu)夠穩(wěn),后面的強(qiáng)化學(xué)習(xí)就不會(huì)出現(xiàn)邏輯偏移。

      這項(xiàng)研究的負(fù)責(zé)人為字節(jié)Seed算法專(zhuān)家黃文灝,曾在微軟亞洲研究院擔(dān)任研究員。

      第一作者是哈爾濱工業(yè)大學(xué)博士、字節(jié)Seed實(shí)習(xí)研究員陳麒光

      合作單位還包括北京大學(xué)、2077AI Foundation、南京大學(xué)、M-A-P、中南大學(xué)。

      不得不說(shuō),這波操作有點(diǎn)當(dāng)年薛定諤拿物理學(xué)公式推生物學(xué)那味兒了。

      給大模型推理這個(gè)卷得飛起的領(lǐng)域,開(kāi)了個(gè)挺清爽的新腦洞。

      論文地址:https://arxiv.org/abs/2601.06002

      — 完 —

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “就是死,也要和家人死一起!”伊朗教練為家人辭職歸國(guó),中國(guó)老板送上機(jī)票與祝福

      “就是死,也要和家人死一起!”伊朗教練為家人辭職歸國(guó),中國(guó)老板送上機(jī)票與祝福

      觀威海
      2026-03-09 09:47:05
      亞足聯(lián)嚴(yán)懲!中國(guó)女足贏朝鮮后,2個(gè)重大誤判被曝光,足協(xié)應(yīng)上訴

      亞足聯(lián)嚴(yán)懲!中國(guó)女足贏朝鮮后,2個(gè)重大誤判被曝光,足協(xié)應(yīng)上訴

      侃球熊弟
      2026-03-09 19:47:04
      騰訊QClaw官網(wǎng)上線(xiàn):可一鍵部署“龍蝦”,兼容QQ、微信

      騰訊QClaw官網(wǎng)上線(xiàn):可一鍵部署“龍蝦”,兼容QQ、微信

      PChome電腦之家
      2026-03-09 14:37:39
      多家外媒:5名伊朗女足球員逃離球隊(duì),現(xiàn)由澳大利亞警方庇護(hù)

      多家外媒:5名伊朗女足球員逃離球隊(duì),現(xiàn)由澳大利亞警方庇護(hù)

      懂球帝
      2026-03-09 22:21:07
      沒(méi)人生娃了?上海一產(chǎn)科醫(yī)生稱(chēng):從一晚上8個(gè)剖腹產(chǎn)到現(xiàn)在1個(gè)沒(méi)有

      沒(méi)人生娃了?上海一產(chǎn)科醫(yī)生稱(chēng):從一晚上8個(gè)剖腹產(chǎn)到現(xiàn)在1個(gè)沒(méi)有

      離離言幾許
      2026-03-09 19:09:31
      中國(guó)男子在中東教漢語(yǔ),娶三位本地姑娘,生下混血,卻直言養(yǎng)不起

      中國(guó)男子在中東教漢語(yǔ),娶三位本地姑娘,生下混血,卻直言養(yǎng)不起

      暗香暗香
      2026-03-09 21:07:32
      2-1!澳大利亞隊(duì)悲劇了,挑選中國(guó)女足,卻遇亞洲第2,進(jìn)4強(qiáng)難了

      2-1!澳大利亞隊(duì)悲劇了,挑選中國(guó)女足,卻遇亞洲第2,進(jìn)4強(qiáng)難了

      何老師呀
      2026-03-09 19:48:19
      一張圖看懂:穆杰塔巴有哪些親屬在美以襲擊中喪生

      一張圖看懂:穆杰塔巴有哪些親屬在美以襲擊中喪生

      網(wǎng)易新聞出品
      2026-03-09 22:07:03
      24小時(shí)戰(zhàn)局突變!伊朗導(dǎo)彈斷崖式下降,美彈藥庫(kù)告急耗空家底

      24小時(shí)戰(zhàn)局突變!伊朗導(dǎo)彈斷崖式下降,美彈藥庫(kù)告急耗空家底

      命運(yùn)自認(rèn)幽默
      2026-03-09 16:01:07
      特朗普賭更大的!四個(gè)最新動(dòng)向決定中東戰(zhàn)事走勢(shì)

      特朗普賭更大的!四個(gè)最新動(dòng)向決定中東戰(zhàn)事走勢(shì)

      補(bǔ)壹刀
      2026-03-09 19:00:06
      Windows 11系統(tǒng)OpenClaw(龍蝦)安裝教程|保姆級(jí)一步到位

      Windows 11系統(tǒng)OpenClaw(龍蝦)安裝教程|保姆級(jí)一步到位

      星哥說(shuō)事
      2026-03-08 23:47:27
      網(wǎng)傳山東煉油廠(chǎng)的供應(yīng)鏈:伊朗原油洗白后運(yùn)來(lái)煉制,再賣(mài)到非洲掙大錢(qián)

      網(wǎng)傳山東煉油廠(chǎng)的供應(yīng)鏈:伊朗原油洗白后運(yùn)來(lái)煉制,再賣(mài)到非洲掙大錢(qián)

      三言四拍
      2026-03-09 08:13:42
      網(wǎng)友吐槽別糊弄老百姓了,又是天才少年發(fā)國(guó)際論文,誰(shuí)家的公子?

      網(wǎng)友吐槽別糊弄老百姓了,又是天才少年發(fā)國(guó)際論文,誰(shuí)家的公子?

      眼光很亮
      2026-03-08 01:43:40
      王思懿在采訪(fǎng)里親口承認(rèn),當(dāng)年拍水滸時(shí)和演武松的丁海峰真動(dòng)了心

      王思懿在采訪(fǎng)里親口承認(rèn),當(dāng)年拍水滸時(shí)和演武松的丁海峰真動(dòng)了心

      小椰的奶奶
      2026-03-10 00:42:19
      李延賀煽動(dòng)分裂國(guó)家破壞國(guó)家統(tǒng)一 被定罪判刑

      李延賀煽動(dòng)分裂國(guó)家破壞國(guó)家統(tǒng)一 被定罪判刑

      閃電新聞
      2026-03-09 17:46:01
      顯微鏡下的人體結(jié)構(gòu),看完以后,你還覺(jué)得人類(lèi)是進(jìn)化而來(lái)的嗎?

      顯微鏡下的人體結(jié)構(gòu),看完以后,你還覺(jué)得人類(lèi)是進(jìn)化而來(lái)的嗎?

      深度報(bào)
      2026-03-08 22:36:08
      3月9日俄烏最新:荷蘭首相的告別款

      3月9日俄烏最新:荷蘭首相的告別款

      西樓飲月
      2026-03-09 19:52:09
      劉美賢談退役復(fù)出后奪冠:如果我沒(méi)有跌落谷底,我就不可能爬上來(lái)

      劉美賢談退役復(fù)出后奪冠:如果我沒(méi)有跌落谷底,我就不可能爬上來(lái)

      互聯(lián)網(wǎng)大觀
      2026-03-09 12:49:35
      騰訊QClaw內(nèi)測(cè)!個(gè)人微信接入龍蝦了,普通人能抄的5個(gè)變現(xiàn)路子

      騰訊QClaw內(nèi)測(cè)!個(gè)人微信接入龍蝦了,普通人能抄的5個(gè)變現(xiàn)路子

      商悟社
      2026-03-09 14:50:03
      比短劇還精彩!四人感情太擁擠:全員不道德,監(jiān)控畫(huà)面流出

      比短劇還精彩!四人感情太擁擠:全員不道德,監(jiān)控畫(huà)面流出

      溫柔看世界
      2026-03-09 17:26:53
      2026-03-10 06:59:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12253文章數(shù) 176412關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養(yǎng)蝦"再也不會(huì)犯健忘癥了

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      體育要聞

      36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

      娛樂(lè)要聞

      薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

      財(cái)經(jīng)要聞

      油價(jià)破100美元年內(nèi)漲80% 全球市場(chǎng)劇震

      汽車(chē)要聞

      對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

      態(tài)度原創(chuàng)

      房產(chǎn)
      旅游
      家居
      公開(kāi)課
      軍事航空

      房產(chǎn)要聞

      國(guó)家要砸400億!海南這個(gè)超級(jí)項(xiàng)目又有新消息!

      旅游要聞

      楓葉小鎮(zhèn)奧萊落子寶山濱江!賦能?chē)?guó)際郵輪度假區(qū)提質(zhì)升級(jí)

      家居要聞

      獨(dú)棟獨(dú)院 精致親子墅

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊媒發(fā)布小學(xué)被炸瞬間 戰(zhàn)斧導(dǎo)彈從天而降

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版