![]()
上海交大智能計(jì)算研究院提出 StepORLM,通過(guò)生成式過(guò)程監(jiān)督提升運(yùn)籌建模的整體可靠性。
作者丨鄭佳美
編輯丨岑峰
![]()
在大語(yǔ)言模型逐步從通用推理工具走向?qū)I(yè)領(lǐng)域應(yīng)用的過(guò)程中,運(yùn)籌優(yōu)化(OR)成為一個(gè)極具吸引力、同時(shí)也極具挑戰(zhàn)性的方向。
一方面,運(yùn)籌優(yōu)化問(wèn)題天然具備清晰的數(shù)學(xué)結(jié)構(gòu)和可驗(yàn)證的求解結(jié)果,看似非常適合由模型自動(dòng)完成建模與求解;另一方面,真實(shí)運(yùn)籌建模高度依賴變量定義、約束設(shè)計(jì)與目標(biāo)函數(shù)之間的整體一致性,其推理過(guò)程往往呈現(xiàn)出強(qiáng)步驟依賴和強(qiáng)耦合特征,遠(yuǎn)非算出一個(gè)正確答案所能覆蓋。
正是在這一張力之下,當(dāng)前運(yùn)籌建模大模型研究逐漸暴露出一個(gè)核心困境:模型在求解器層面得到正確結(jié)果,并不意味著其完成了正確的建模。在現(xiàn)有主流訓(xùn)練范式中,無(wú)論是僅依據(jù)最終求解結(jié)果進(jìn)行獎(jiǎng)勵(lì),還是對(duì)中間步驟進(jìn)行局部、逐步的過(guò)程監(jiān)督,都難以準(zhǔn)確刻畫運(yùn)籌建模這種長(zhǎng)鏈條推理任務(wù)的真實(shí)質(zhì)量。
這種監(jiān)督信號(hào)與任務(wù)本質(zhì)之間的錯(cuò)位,使得建模錯(cuò)誤可能被掩蓋,甚至被反復(fù)強(qiáng)化,逐漸成為大模型走向工業(yè)級(jí)運(yùn)籌優(yōu)化應(yīng)用的關(guān)鍵瓶頸。在這樣的研究背景下,來(lái)自上海交通大學(xué)智能計(jì)算研究院葛冬冬、林江浩研究團(tuán)隊(duì)提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。
這項(xiàng)研究并未僅從模型規(guī)模或數(shù)據(jù)量入手,而是從訓(xùn)練范式本身出發(fā),系統(tǒng)性反思了結(jié)果獎(jiǎng)勵(lì)與傳統(tǒng)過(guò)程監(jiān)督在運(yùn)籌建模任務(wù)中的根本局限,并提出了一種由策略模型與生成式過(guò)程獎(jiǎng)勵(lì)模型(GenPRM)協(xié)同進(jìn)化的自進(jìn)化訓(xùn)練框架。通過(guò)將最終求解結(jié)果與對(duì)完整推理過(guò)程的回顧式、全局評(píng)估相結(jié)合,StepORLM 試圖引導(dǎo)模型真正學(xué)習(xí)如何構(gòu)建一致、可靠的運(yùn)籌優(yōu)化模型,而不僅僅是生成一個(gè)可行解。
![]()
論文地址:https://arxiv.org/abs/2509.22558
01
小模型,贏在方法
在實(shí)驗(yàn)評(píng)估方面,這項(xiàng)研究在6 個(gè)具有代表性的運(yùn)籌優(yōu)化基準(zhǔn)數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行了系統(tǒng)測(cè)試,這些數(shù)據(jù)集涵蓋了從相對(duì)簡(jiǎn)單的線性規(guī)劃問(wèn)題到高復(fù)雜度、貼近真實(shí)應(yīng)用場(chǎng)景的工業(yè)級(jí)混合整數(shù)規(guī)劃問(wèn)題,具體包括 NL4Opt、MAMO(EasyLP 與 ComplexLP)、NLP4LP、ComplexOR、IndustryOR 以及 ReSocratic。
所有實(shí)驗(yàn)統(tǒng)一采用 Pass@1 accuracy 作為評(píng)價(jià)指標(biāo),即模型僅生成一次完整的解題軌跡,并通過(guò)外部 OR 求解器進(jìn)行驗(yàn)證,只有當(dāng)生成的代碼能夠成功執(zhí)行、建模過(guò)程正確且最終結(jié)果被求解器判定為可行且最優(yōu)時(shí),才被視為一次成功。這一評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型提出了較高要求,不僅考察最終數(shù)值結(jié)果的正確性,也嚴(yán)格約束了建模邏輯和實(shí)現(xiàn)層面的可靠性。
再看實(shí)驗(yàn)結(jié)果,在與不同類別方法的對(duì)比實(shí)驗(yàn)中,StepORLM 展現(xiàn)出顯著優(yōu)勢(shì)。首先,與零樣本通用大語(yǔ)言模型相比,僅有 8B 參數(shù)規(guī)模的 StepORLM 在平均準(zhǔn)確率上明顯超過(guò)了 DeepSeek-V3(671B)和 Qwen2.5-72B 等超大模型,并全面優(yōu)于 GPT-4o 的零樣本表現(xiàn),尤其在 ComplexOR 和 IndustryOR 等高難度場(chǎng)景中優(yōu)勢(shì)更加突出。
這一結(jié)果表明,在運(yùn)籌優(yōu)化建模任務(wù)中,模型參數(shù)規(guī)模本身已不再是決定性因素,訓(xùn)練范式與監(jiān)督信號(hào)設(shè)計(jì)才是性能提升的關(guān)鍵。
其次,與現(xiàn)有專門針對(duì) OR 任務(wù)進(jìn)行微調(diào)的模型相比,StepORLM 在所有基準(zhǔn)數(shù)據(jù)集上均取得了更優(yōu)結(jié)果,且在 NLP4LP、ComplexOR 和 ReSocratic 等高度依賴多步驟推理正確性的任務(wù)中提升尤為明顯,這進(jìn)一步說(shuō)明其性能增益并非來(lái)源于更多或更大規(guī)模的數(shù)據(jù),而主要得益于訓(xùn)練過(guò)程中引入了更高質(zhì)量、更符合任務(wù)本質(zhì)的監(jiān)督信號(hào)。
進(jìn)一步地,與多種 agentic method 推理方法(如 CoT、Chain-of-Experts、OptiMUS 和 CAFA)相比,StepORLM 僅通過(guò)單次生成就能取得更穩(wěn)定的表現(xiàn)和更少的建模錯(cuò)誤。其根本原因在于,agent 方法主要在推理階段嘗試對(duì)已生成的結(jié)果進(jìn)行修正,而 StepORLM 則通過(guò)在訓(xùn)練階段引入過(guò)程級(jí)監(jiān)督,從根源上減少了錯(cuò)誤推理路徑被模型學(xué)習(xí)和強(qiáng)化的可能性。
![]()
此外,研究還評(píng)估了將共同進(jìn)化得到的生成式過(guò)程獎(jiǎng)勵(lì)模型引入推理階段、作為驗(yàn)證器的效果。實(shí)驗(yàn)結(jié)果顯示,當(dāng) StepORLM 與 GenPRM 結(jié)合使用時(shí),其平均 Pass@1 準(zhǔn)確率可進(jìn)一步提升至 85.6%,并在最具挑戰(zhàn)性的 ComplexOR 和 IndustryOR 數(shù)據(jù)集上分別取得了約 9.9% 和 9.5% 的顯著增益。
更為重要的是,GenPRM 并不只對(duì) StepORLM 有效,當(dāng)其與其他運(yùn)籌優(yōu)化模型(如 ORLM)結(jié)合使用時(shí),同樣能夠帶來(lái)接近 10% 的性能提升,這表明 GenPRM 學(xué)到的是模型無(wú)關(guān)的運(yùn)籌推理判據(jù),而非僅針對(duì)某一特定模型的啟發(fā)式規(guī)則。
![]()
最后,通過(guò)一系列消融實(shí)驗(yàn),研究驗(yàn)證了各個(gè)關(guān)鍵組件在整體框架中的必要性:移除 warm-up 階段的監(jiān)督微調(diào)會(huì)導(dǎo)致性能大幅下降,取消自進(jìn)化訓(xùn)練會(huì)使模型性能迅速停滯,凍結(jié) GenPRM 不再進(jìn)化或用普通 DPO 替代加權(quán) DPO 均會(huì)削弱學(xué)習(xí)效果。
![]()
同時(shí),訓(xùn)練過(guò)程分析結(jié)果也表明,模型性能的提升是隨著自進(jìn)化迭代逐步累積的,而并非通過(guò)一次監(jiān)督微調(diào)即可達(dá)到最終水平。
![]()
02
從偶然正確,到系統(tǒng)可靠
這項(xiàng)研究針對(duì)大語(yǔ)言模型在運(yùn)籌優(yōu)化建模任務(wù)中存在的可靠性問(wèn)題展開,研究團(tuán)隊(duì)指出,現(xiàn)有方法主要存在兩類根本性缺陷。
第一類是結(jié)果導(dǎo)向獎(jiǎng)勵(lì)的信用分配問(wèn)題(Credit Assignment Problem),即僅依據(jù)外部求解器是否成功對(duì)模型進(jìn)行獎(jiǎng)勵(lì)。在這種情況下,只要模型最終得到一個(gè)可行且正確的解,即便中間推理過(guò)程存在明顯錯(cuò)誤,也會(huì)被強(qiáng)化。
這在運(yùn)籌場(chǎng)景中尤為危險(xiǎn),例如漏掉某個(gè)較松的約束、變量定義不嚴(yán)謹(jǐn)?shù)儒e(cuò)誤,可能在特定實(shí)例里不影響最優(yōu)值,卻會(huì)讓模型誤以為“這類建模也行”,從而把不穩(wěn)定甚至錯(cuò)誤的建模邏輯固化下來(lái)。
第二類缺陷來(lái)自傳統(tǒng)判別式過(guò)程監(jiān)督的短視性(Myopic Supervision),這類方法通常對(duì)推理過(guò)程中的每一步進(jìn)行獨(dú)立評(píng)估,難以理解步驟之間的依賴關(guān)系,也無(wú)法判斷某些早期決策在整體建模語(yǔ)境下是否合理。
然而,運(yùn)籌優(yōu)化建模本質(zhì)上是一種步驟之間高度依賴、強(qiáng)耦合的長(zhǎng)鏈條推理任務(wù),局部、割裂的監(jiān)督信號(hào)難以準(zhǔn)確反映整體推理質(zhì)量。
針對(duì)上述問(wèn)題,研究人員提出了 StepORLM 的整體訓(xùn)練框架,這個(gè)框架采用“兩階段訓(xùn)練 + 自進(jìn)化閉環(huán)”的設(shè)計(jì)思路。在第一階段的 warm-up 過(guò)程中,研究團(tuán)隊(duì)旨在構(gòu)建一個(gè)高質(zhì)量的初始策略模型,使其具備基本的運(yùn)籌優(yōu)化建模能力,能夠輸出結(jié)構(gòu)化、多步驟的推理過(guò)程,并避免在建模和代碼生成階段出現(xiàn)大量隨意性錯(cuò)誤。
為此,研究人員利用教師模型(GPT-4o)自動(dòng)生成運(yùn)籌優(yōu)化問(wèn)題,并通過(guò)改寫、單位轉(zhuǎn)換和參數(shù)縮放等方式增強(qiáng)問(wèn)題多樣性。隨后,教師模型為每個(gè)問(wèn)題生成完整的推理軌跡,覆蓋問(wèn)題分析、變量定義、目標(biāo)函數(shù)構(gòu)建、約束設(shè)計(jì)、數(shù)學(xué)模型表述以及求解代碼實(shí)現(xiàn)等關(guān)鍵步驟。
所有生成軌跡均需經(jīng)過(guò)嚴(yán)格驗(yàn)證,包括代碼執(zhí)行以及外部 OR 求解器對(duì)可行性、最優(yōu)性和執(zhí)行正確性的檢查。若驗(yàn)證失敗,系統(tǒng)會(huì)自動(dòng)將反饋返回給教師模型進(jìn)行修正,直至通過(guò)驗(yàn)證或達(dá)到重試上限。最終,這個(gè)階段構(gòu)建了由問(wèn)題及其對(duì)應(yīng)的完整且正確推理軌跡組成的數(shù)據(jù)集,用于對(duì)策略模型進(jìn)行監(jiān)督微調(diào)。
![]()
在此基礎(chǔ)上,這項(xiàng)研究進(jìn)入第二階段,即策略模型與生成式過(guò)程獎(jiǎng)勵(lì)模型(GenPRM)協(xié)同進(jìn)化的自進(jìn)化訓(xùn)練階段,這也是研究團(tuán)隊(duì)提出的核心創(chuàng)新。
在這個(gè)階段,系統(tǒng)同時(shí)維護(hù)兩個(gè)模型:策略模型負(fù)責(zé)生成完整的 OR 解題軌跡,而 GenPRM 則從全局視角對(duì)整條推理過(guò)程進(jìn)行回顧式評(píng)估,判斷各個(gè)步驟在整體建模邏輯中的合理性。與傳統(tǒng)過(guò)程獎(jiǎng)勵(lì)模型不同,GenPRM 并非對(duì)單個(gè)步驟進(jìn)行簡(jiǎn)單打分,而是具備推理與綜合判斷能力,能夠捕捉步驟之間的依賴關(guān)系。
在每一輪訓(xùn)練迭代中,策略模型針對(duì)同一問(wèn)題生成多條候選解題軌跡,并引入雙源反饋機(jī)制進(jìn)行評(píng)估。一方面,研究人員通過(guò)外部求解器為每條軌跡提供最終結(jié)果的正確性反饋;另一方面,GenPRM 對(duì)整條推理過(guò)程進(jìn)行評(píng)價(jià),衡量不同軌跡在過(guò)程層面的質(zhì)量。
在此基礎(chǔ)上,不同軌跡被兩兩比較以構(gòu)造偏好對(duì),其中求解器驗(yàn)證成功的軌跡優(yōu)于失敗的軌跡,而在結(jié)果相同的情況下,則由過(guò)程質(zhì)量更高的軌跡勝出。研究團(tuán)隊(duì)進(jìn)一步引入加權(quán)的 Direct Preference Optimization 方法,對(duì)不同偏好對(duì)賦予不同權(quán)重,從而區(qū)分嚴(yán)重建模錯(cuò)誤與細(xì)微推理改進(jìn),并據(jù)此更新策略模型。
![]()
與此同時(shí),GenPRM 也利用經(jīng)求解器驗(yàn)證的高質(zhì)量推理軌跡進(jìn)行持續(xù)監(jiān)督微調(diào),使其評(píng)估標(biāo)準(zhǔn)逐步變得更加準(zhǔn)確和嚴(yán)格。
隨著訓(xùn)練迭代的推進(jìn),策略模型生成的軌跡質(zhì)量不斷提升,反過(guò)來(lái)為 GenPRM 提供更高質(zhì)量的訓(xùn)練樣本,而不斷進(jìn)化的 GenPRM 又能夠?yàn)椴呗阅P吞峁└_的過(guò)程反饋,從而在二者之間形成穩(wěn)定的正反饋閉環(huán),推動(dòng)整個(gè)系統(tǒng)在自進(jìn)化過(guò)程中持續(xù)提升運(yùn)籌優(yōu)化建模能力。
![]()
03
一種可遷移的訓(xùn)練范式
在實(shí)驗(yàn)結(jié)果的基礎(chǔ)上,這項(xiàng)研究在方法論和應(yīng)用層面均具有重要意義。首先,從方法論角度來(lái)看,研究團(tuán)隊(duì)明確指出并通過(guò)實(shí)證驗(yàn)證了一個(gè)關(guān)鍵認(rèn)識(shí):在運(yùn)籌優(yōu)化這類具有強(qiáng)步驟依賴特征的任務(wù)中,獎(jiǎng)勵(lì)模型本身若缺乏推理能力,將難以為策略模型提供有效監(jiān)督。
傳統(tǒng)方法往往假設(shè)最終結(jié)果正確即可反映推理質(zhì)量,或認(rèn)為通過(guò)對(duì)中間步驟進(jìn)行逐步、局部打分便能彌補(bǔ)結(jié)果獎(jiǎng)勵(lì)的不足,而這項(xiàng)研究表明,這兩種監(jiān)督方式在運(yùn)籌建模場(chǎng)景下均存在系統(tǒng)性偏差。
由于運(yùn)籌建模中各步驟之間高度耦合,局部正確并不等價(jià)于全局一致,只有具備整體理解能力的過(guò)程監(jiān)督,才能有效緩解歸因錯(cuò)誤和短視問(wèn)題。
其次,在運(yùn)籌優(yōu)化與大語(yǔ)言模型結(jié)合的研究領(lǐng)域中,這項(xiàng)研究顯著提升了模型在建模正確性、約束完整性以及實(shí)際應(yīng)用可靠性等方面的表現(xiàn)。研究團(tuán)隊(duì)通過(guò)引入過(guò)程級(jí)監(jiān)督與自進(jìn)化訓(xùn)練機(jī)制,使模型不僅能夠生成形式正確的規(guī)劃表達(dá)式,還能夠構(gòu)建邏輯一致、可被求解器穩(wěn)定執(zhí)行的完整運(yùn)籌優(yōu)化模型,從而推動(dòng)大語(yǔ)言模型從“會(huì)寫線性規(guī)劃”向“會(huì)進(jìn)行運(yùn)籌建模”轉(zhuǎn)變。
進(jìn)一步而言,這項(xiàng)研究提出的訓(xùn)練范式對(duì)其他復(fù)雜推理任務(wù)同樣具有啟發(fā)意義。其強(qiáng)調(diào)的整體化、回顧式過(guò)程監(jiān)督思想,可推廣至數(shù)學(xué)證明、代碼生成、科學(xué)建模以及其他長(zhǎng)鏈條決策任務(wù),為解決強(qiáng)依賴推理場(chǎng)景中監(jiān)督信號(hào)失真的問(wèn)題提供了一種具有普適性的思路。
04
構(gòu)建 StepORLM 的人
這篇論文的第一作者為周宸宇,他目前是上海交通大學(xué)智能計(jì)算研究院博士生,導(dǎo)師為葉蔭宇教授和葛冬冬教授,研究方向聚焦于大語(yǔ)言模型與運(yùn)籌優(yōu)化、復(fù)雜推理任務(wù)及其訓(xùn)練方法。
他的研究興趣還涵蓋強(qiáng)化學(xué)習(xí)與區(qū)塊鏈等方向,曾獲得 ACM-ICPC 亞洲區(qū)域賽金牌,并在 ICLR、WWW、CSCW 等國(guó)際會(huì)議上發(fā)表多篇學(xué)術(shù)論文。
除學(xué)術(shù)研究外,周宸宇具有較為豐富的產(chǎn)業(yè)與工程實(shí)踐背景,曾在杉數(shù)科技、騰訊、美團(tuán)等公司從事與人工智能和優(yōu)化相關(guān)的研究或技術(shù)工作,并在量化投資與金融科技領(lǐng)域積累了實(shí)踐經(jīng)驗(yàn)。
![]()
參考鏈接:https://0xzhouchenyu.github.io
論文的通訊錄作者為林江浩,2025 年博士畢業(yè)于上海交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),現(xiàn)任上海交通大學(xué)安泰經(jīng)濟(jì)與管理學(xué)院助理教授,研究方向包括大語(yǔ)言模型和 AI 智能體,以及此類技術(shù)在推薦系統(tǒng)、運(yùn)籌優(yōu)化、智能商務(wù)等交叉領(lǐng)域的應(yīng)用。
學(xué)術(shù)方面,他已累計(jì)發(fā)表國(guó)際學(xué)術(shù)論文 40 余篇,研究成果發(fā)表于 ICLR、NeurIPS、KDD、WWW、TOIS 等國(guó)際頂級(jí)會(huì)議與期刊,獲得兩項(xiàng)最佳論文獎(jiǎng),其中 1 篇論文入選 ESI 全球 Top 1% 高被引論文,在相關(guān)研究領(lǐng)域具有較高的學(xué)術(shù)影響力。
![]()
參考鏈接:https://linjianghao.com
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.