<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      dLLM:復(fù)用自回歸模型權(quán)重快速訓(xùn)練擴散語言模型

      0
      分享至

      大語言模型的文本生成方式一直都是以自回歸為主:一個token接一個token,從左往右,生成完就定了。

      但現(xiàn)在有個不太一樣的思路開始在研究圈里流行起來,那就是擴散語言模型(Diffusion LMs)。擴散模型在圖像生成領(lǐng)域已經(jīng)證明了自己的可行性,但是問題是把這套東西用到文本上一直很麻煩——訓(xùn)練難、評估難、更別提怎么集成到現(xiàn)有的LLM工作流里了。



      dLLM是一個開源的Python庫,它把擴散語言模型的訓(xùn)練、微調(diào)、推理、評估這一整套流程都統(tǒng)一了起來,而且號稱任何的自回歸LLM都能通過dLLM轉(zhuǎn)成擴散模型,還不需要什么特殊的算力。

      擴散模型用在語言上有什么不同

      做過圖像擴散模型的應(yīng)該能理解這個思路。

      傳統(tǒng)自回歸是順序生成,擴散模型的玩法不一樣:先從噪聲或者masked tokens開始,然后一步步把整個序列細(xì)化出來。它不是一個token一個token往后走,而是對整個輸出做全局優(yōu)化。



      擴散模型在幾個場景下表現(xiàn)特別好:需要復(fù)雜推理的任務(wù)、文本編輯重寫、結(jié)構(gòu)化生成,還有需要多輪迭代優(yōu)化的場景。

      dLLM提供了什么

      dLLM不是某個具體模型它是個框架,包括了下面的功能:

      統(tǒng)一的訓(xùn)練流程

      底層用的是Hugging Face的Trainer,所以常見的那些東西都支持:LoRA微調(diào)、DeepSpeed、FSDP、多節(jié)點Slurm集群、4-bit量化。

      訓(xùn)練擴散模型和訓(xùn)練transformer沒什么區(qū)別用的都是同一套工具鏈。

      統(tǒng)一的評估體系

      評估部分基于lm-evaluation-harness搭建,好處是不同benchmark用同一套接口,不需要針對每個模型寫推理代碼,結(jié)果也能復(fù)現(xiàn)。

      把AR模型轉(zhuǎn)成擴散模型

      這是dLLM最核心的功能,LLaMA系列模型、instruction-tuned的LLM,甚至BERT這種encoder,都能拿來微調(diào)成擴散模型。而且支持的方法包括:Masked Diffusion(MDLM)、Block Diffusion(BD3LM)和Edit Flows。

      支持的模型和訓(xùn)練方式

      dLLM自帶了幾個參考實現(xiàn):LLaDA/LLaDA-MoE、Dream、BERT-Chat、Edit Flow模型。訓(xùn)練示例覆蓋預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)、評估這幾個階段。

      # Create environment
      conda create -n dllm python=3.10 -y
      conda activate dllm
      # Install PyTorch (CUDA 12.4 example)
      conda install cuda=12.4 -c nvidia
      pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
      --index-url https://download.pytorch.org/whl/cu124
      # Install dLLM
      pip install -e .

      如果要跑評估:

      git submodule update --init --recursive
      pip install -e "lm-evaluation-harness[ifeval,math]"

      訓(xùn)練代碼實際長什么樣

      最簡單的訓(xùn)練腳本:

      import transformers
      import dllm
      model = dllm.utils.get_model(model_args)
      tokenizer = dllm.utils.get_tokenizer(model_args)
      trainer = dllm.core.trainers.MDLMTrainer(
      model=model,
      tokenizer=tokenizer,
      train_dataset=train_data,
      eval_dataset=eval_data,
      args=training_args,
      data_collator=transformers.DataCollatorForSeq2Seq(
      tokenizer,
      padding=True,
      return_tensors="pt",
      ),
      )
      trainer.train()

      就這些,不用寫自定義loss,不用手動搞擴散循環(huán),也不是那種只能在論文里跑的代碼。

      還可以使用LoRA + 4-bit量化微調(diào)

      accelerate launch \
      --config_file scripts/accelerate_configs/zero2.yaml \
      examples/llada/sft.py \
      --num_train_epochs 4 \
      --load_in_4bit True \
      --lora True

      推理怎么做

      擴散推理是分步驟迭代的和自回歸的greedy decoding完全是不同的概念,dLLM用統(tǒng)一的sampler把這層抽象掉了:

      import dllm
      model = dllm.utils.get_model(model_args).eval()
      tokenizer = dllm.utils.get_tokenizer(model_args)
      sampler = dllm.core.samplers.MDLMSampler(
      model=model,
      tokenizer=tokenizer
      )
      inputs = tokenizer.apply_chat_template(
      [{"role": "user", "content": "Explain diffusion models simply."}],
      add_generation_prompt=True,
      tokenize=True,
      )
      outputs = sampler.sample(inputs)

      sampler會處理mask schedule、refinement steps、decoding、output cleanup這些細(xì)節(jié)。

      Edit Flows:拿擴散做文本編輯

      Edit Flows算是dLLM里比較有意思的一個方向。模型不是從零生成文本,而是學(xué)會對現(xiàn)有文本做操作:插入token、刪除token、替換token。這種方式特別適合代碼重構(gòu)、文檔編輯、可控的文本改寫這類任務(wù),而dLLM提供了從頭訓(xùn)練Edit Flow模型的完整教程。

      評估

      評估擴散模型確實有點麻煩,dLLM用標(biāo)準(zhǔn)化的腳本解決這個問題。

      在MMLU-Pro上跑個評估的示例如下:

      accelerate launch --num_processes 4 \
      dllm/pipelines/llada/eval.py \
      --tasks "mmlu_pro" \
      --model "llada" \
      --apply_chat_template \
      --num_fewshot 0

      總結(jié)

      擴散語言模型之前一直停留在研究階段,dLLM把它變成了能實際用起來的工程工具。現(xiàn)有的LLM可以直接復(fù)用,微調(diào)需要的算力也不夸張,模型之間的對比有了統(tǒng)一標(biāo)準(zhǔn),想做實驗也不用把整套東西重新搞一遍。

      自回歸LLM能占主導(dǎo)地位,很大原因是它足夠?qū)嵱谩U散模型要是想在語言領(lǐng)域站穩(wěn)腳,就要做到訓(xùn)練簡單、評估方便、容易集成,dLLM在這個方向上走了不小一步。

      對于在做next-gen語言模型的人來說,這個框架確實值得研究一下。

      https://avoid.overfit.cn/post/5dc5d844044d404d868bf9512bca2f9b

      作者:Sonu Yadav

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      伊朗最大“內(nèi)鬼”被抓?革命衛(wèi)隊:勾結(jié)以色列,指揮官卡尼被拘!

      伊朗最大“內(nèi)鬼”被抓?革命衛(wèi)隊:勾結(jié)以色列,指揮官卡尼被拘!

      青青子衿
      2026-03-05 11:57:03
      打瘋了!東契奇首節(jié)狂轟22+5三分 生涯30次單節(jié)20+升歷史第四

      打瘋了!東契奇首節(jié)狂轟22+5三分 生涯30次單節(jié)20+升歷史第四

      醉臥浮生
      2026-03-07 12:13:33
      伊拉克庫爾德第一夫人宣言:我們不是任人驅(qū)使的炮灰!

      伊拉克庫爾德第一夫人宣言:我們不是任人驅(qū)使的炮灰!

      勝研集
      2026-03-06 13:44:23
      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      明智家庭教育
      2026-03-06 17:19:16
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      怪口歷史的K先生
      2026-03-06 15:22:51
      為何關(guān)閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      為何關(guān)閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      風(fēng)向觀察
      2026-03-06 21:31:15
      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      談史論天地
      2026-03-07 06:54:29
      1979年,張國燾凍死在養(yǎng)老院,許世友:除了主席,沒人是他的對手

      1979年,張國燾凍死在養(yǎng)老院,許世友:除了主席,沒人是他的對手

      文史季季紅
      2026-03-05 13:35:03
      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰(zhàn)空對空擊殺

      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰(zhàn)空對空擊殺

      斌聞天下
      2026-03-06 07:30:03
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環(huán)球網(wǎng)資訊
      2026-03-07 06:39:29
      為什么美國的華人華裔地位那么低 網(wǎng)友從各方面分析 真就那樣

      為什么美國的華人華裔地位那么低 網(wǎng)友從各方面分析 真就那樣

      侃神評故事
      2026-03-06 07:10:03
      我包養(yǎng)過一個女大學(xué)生,七年花了一千多萬

      我包養(yǎng)過一個女大學(xué)生,七年花了一千多萬

      煙火人間故事匯
      2026-03-06 23:05:03
      性壓抑已經(jīng)變態(tài)至此了?

      性壓抑已經(jīng)變態(tài)至此了?

      黯泉
      2026-03-07 11:28:43
      蘿莉島,是進入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

      蘿莉島,是進入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

      百曉生談歷史
      2026-03-05 22:00:08
      一份“煮熟的三文魚”火了,原來低認(rèn)知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認(rèn)知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      空天力量
      2026-03-06 13:09:18
      上次被發(fā)現(xiàn)還是1911年!上海寶山驚現(xiàn)1只,專家:可能是坐船來的

      上次被發(fā)現(xiàn)還是1911年!上海寶山驚現(xiàn)1只,專家:可能是坐船來的

      萬象硬核本尊
      2026-03-06 23:54:22
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業(yè)”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業(yè)”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      塔圖姆復(fù)出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      塔圖姆復(fù)出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      湖人崛起
      2026-03-07 10:25:09
      2026-03-07 13:43:00
      deephub incentive-icons
      deephub
      CV NLP和數(shù)據(jù)挖掘知識
      1940文章數(shù) 1456關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經(jīng)要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      親子
      房產(chǎn)
      手機
      本地
      藝術(shù)

      親子要聞

      六個月寶寶查出散光,原因竟是父母長期身旁玩手機,媽媽懵了:我一直以為他閉著眼就沒事

      房產(chǎn)要聞

      傳統(tǒng)學(xué)區(qū)房熄火?2月海口二手房爆火的板塊竟然是…

      手機要聞

      歐加驍龍8系小平板4月來襲,F(xiàn)ind X9系列配件已備好!

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      藝術(shù)要聞

      Mark Grantham | 城市街景

      無障礙瀏覽 進入關(guān)懷版