訂閱
糾錯(cuò)
加入自媒體

NeurIPS`25 | 清華提出模型驅(qū)動(dòng)的生成式探索機(jī)制MoGE,助力強(qiáng)化學(xué)習(xí)算法突破性能上限

作者:Likun Wang等

解讀:AI生成未來

本文介紹清華大學(xué)李升波教授課題組(iDLab)在NeurIPS 2025發(fā)表的《Off-policy Reinforcement Learning with Model-based Exploration Augmentation》。

論文題目: Off-policy Reinforcement Learning with Model-based Exploration Augmentation

收錄會(huì)議: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

作者單位: 清華大學(xué)車輛與運(yùn)載學(xué)院、人工智能學(xué)院

亮點(diǎn)直擊

條件擴(kuò)散生成器驅(qū)動(dòng)的高探索潛力狀態(tài)采樣:采用條件擴(kuò)散生成器采樣具有高探索潛力的關(guān)鍵狀態(tài),并從理論上證明回放緩沖區(qū)中的狀態(tài)分布漸近收斂于最優(yōu)策略的平穩(wěn)占用測(cè)度,通過持續(xù)微調(diào)生成器確保其學(xué)習(xí)分布與最優(yōu)策略占用測(cè)度共享共同支撐集,從而生成符合狀態(tài)空間約束的可行狀態(tài)。

一步想象世界模型的動(dòng)態(tài)一致性保障:設(shè)計(jì)了一階段想象世界模型來模擬環(huán)境動(dòng)態(tài),通過監(jiān)督學(xué)習(xí)實(shí)現(xiàn)高效預(yù)訓(xùn)練,既支持訓(xùn)練經(jīng)驗(yàn)構(gòu)建,又為基于條件擴(kuò)散的關(guān)鍵狀態(tài)生成器提供分類器設(shè)計(jì)基礎(chǔ),確保生成樣本在動(dòng)力學(xué)層面的一致性。

異策略強(qiáng)化學(xué)習(xí)訓(xùn)練框架:提出與現(xiàn)有算法無縫集成的MoGE訓(xùn)練框架,通過重要性采樣混合生成的關(guān)鍵遷移與回放緩沖區(qū)樣本,在保持算法原始結(jié)構(gòu)不變的前提下增強(qiáng)探索能力。在OpenAI Gym和DeepMind Control Suite等標(biāo)準(zhǔn)連續(xù)控制基準(zhǔn)上的實(shí)驗(yàn)表明,MoGE作為探索增強(qiáng)框架能夠持續(xù)提升基線異策略強(qiáng)化學(xué)習(xí)算法的最終性能與樣本效率。

背景:探索與利用——智能體的“選擇困難癥”

在在線強(qiáng)化學(xué)習(xí)中,每個(gè)智能體都在做一個(gè)看似簡單、卻極其困難的選擇:

“是繼續(xù)走熟悉、安全的老路,還是去嘗試未知、可能更好的新路?” 

這就是著名的“探索與利用”難題。如果總是重復(fù)已經(jīng)學(xué)會(huì)的行為,智能體雖然穩(wěn)定,卻可能永遠(yuǎn)發(fā)現(xiàn)不了更優(yōu)的方案;但如果一直盲目嘗試新動(dòng)作,又會(huì)浪費(fèi)大量時(shí)間,甚至頻繁犯錯(cuò)。如何在“穩(wěn)妥”和“冒險(xiǎn)”之間找到平衡,是強(qiáng)化學(xué)習(xí)中最關(guān)鍵的問題之一。

探索與利用難題探索與利用難題

目前,研究者主要通過兩種方式來幫助智能體“探索世界”:

主動(dòng)探索:靠“試錯(cuò)”來學(xué)習(xí):主動(dòng)探索傾向于讓智能體多去嘗試不同選擇。比如,在做決策時(shí)加入一點(diǎn)隨機(jī)性(SAC, DSAC等),讓智能體勇敢嘗試新動(dòng)作。就像給機(jī)器人一點(diǎn)“好奇心”,鼓勵(lì)它多走幾條沒走過的路。這種方法簡單直接,但也有明顯限制:首先,智能體只能在“走過的地方附近”探索,其次,收到初始化的影響,智能體很難跳出原有軌跡,進(jìn)入真正陌生的區(qū)域,這使得在復(fù)雜環(huán)境中,很多關(guān)鍵狀態(tài)根本探索不到。

被動(dòng)探索:靠“復(fù)盤”和“補(bǔ)充資料”學(xué)習(xí):被動(dòng)探索通過整理和擴(kuò)充學(xué)習(xí)材料來進(jìn)步。研究者會(huì)讓智能體反復(fù)回看重要經(jīng)歷,甚至用生成模型“模擬”新的經(jīng)驗(yàn),放進(jìn)學(xué)習(xí)庫里,“人工地”讓智能體學(xué)習(xí)關(guān)鍵的樣本。這種方法提高了學(xué)習(xí)效率,但問題在于:生成的內(nèi)容大多來自模仿已有經(jīng)驗(yàn)回放池,很難真正拜托已有數(shù)據(jù)中行為策略的限制,就像刷題時(shí)只做同類型題目,很難真正的突破水平瓶頸。

如何讓智能體不只依賴真實(shí)經(jīng)歷,而是學(xué)會(huì)“提前想象”哪些數(shù)據(jù)是真正重要的?就像人類會(huì)在行動(dòng)前思考:“如果我走這條路,會(huì)不會(huì)更好?”

動(dòng)機(jī):從“被動(dòng)回放”樣本到“主動(dòng)生成”樣本

現(xiàn)有的被動(dòng)探索方法往往局限于模仿現(xiàn)有的數(shù)據(jù)分布,無法跳出行為策略(Behavior Policy)的覆蓋范圍 。另一方面,直接使用世界模型生成長軌跡容易因誤差累積導(dǎo)致動(dòng)力學(xué)失效,產(chǎn)生不符合物理規(guī)律的“幻覺”樣本。 針對(duì)上述痛點(diǎn),清華大學(xué)李升波老師課題組首次提出了世界模型生成式探索(Modelic Generative Exploration, MoGE)框架。其核心在于:與其隨意生成整段數(shù)據(jù),或重復(fù)模仿過去的經(jīng)驗(yàn),不如選擇直接尋找那些智能體還沒去過、卻很重要的潛在關(guān)鍵狀態(tài),并用世界模型保證它們真實(shí)可信,從而為學(xué)習(xí)提供更有效的訓(xùn)練樣本,從而擺脫行為策略的束縛。

核心亮點(diǎn):MoGE 框架詳解

MoGE框架MoGE框架

與其他框架不同,MoGE能夠在不修改策略提升的前提下為算法持續(xù)提供關(guān)鍵訓(xùn)練樣本,能夠結(jié)合幾乎所有的異策略(Off-policy)RL 算法(如 SAC, TD3, DSAC)中,主要包含兩大核心組件 :

1. 關(guān)鍵狀態(tài)生成(Critical State Generation)

作為整體模型的重要組成部分,MoGE 不再像以往方法那樣直接生成完整的狀態(tài)轉(zhuǎn)移數(shù)據(jù),而是引入了一種擴(kuò)散模型的條件生成器,專門用于生成強(qiáng)化學(xué)習(xí)訓(xùn)練中的“初始狀態(tài)”。 與普通生成模型不同,該生成器并非盲目地模仿已有的數(shù)據(jù),而是在人工設(shè)計(jì)的探索效用函數(shù)(Utility Function)引導(dǎo)下進(jìn)行生成。該效用函數(shù)融入了人類先驗(yàn)知識(shí),用于刻畫哪些狀態(tài)更可能對(duì)策略學(xué)習(xí)產(chǎn)生關(guān)鍵作用。通過這種條件引導(dǎo)機(jī)制,擴(kuò)散生成器能夠主動(dòng)聚焦于高價(jià)值區(qū)域,從而生成真正具有探索意義的關(guān)鍵狀態(tài),為智能體提供更高質(zhì)量的訓(xùn)練樣本。 在MoGE中,為了普遍性出發(fā),利用策略熵(Policy Entropy)和 TD 誤差作為引導(dǎo)信號(hào),指導(dǎo)生成器在高維空間中搜索那些包含高信息量或高不確定性的“關(guān)鍵狀態(tài)” 。

2. 一步想象世界模型 (One-step Imagination World Model)

為了確保生成的樣本符合環(huán)境真實(shí)的物理規(guī)律,MoGE 設(shè)計(jì)了一個(gè)確定性的一步想象世界模型,與狀態(tài)生成器共用一個(gè)隱空間,保證學(xué)習(xí)一致性和耦合性,該世界模型可以通過預(yù)訓(xùn)練進(jìn)行學(xué)習(xí),保證局部轉(zhuǎn)移的準(zhǔn)確性。

一步想象世界模型一步想象世界模型

這種“高價(jià)值初始狀態(tài)生成 + 一步轉(zhuǎn)移樣本構(gòu)造”的機(jī)制,使得 MoGE 既具備了脫離經(jīng)驗(yàn)回訪池?cái)?shù)據(jù)分布的探索廣度,又保持了物理動(dòng)力學(xué)的嚴(yán)謹(jǐn)性。在MoGE框架下,不用修改策略函數(shù)和價(jià)值函數(shù),就能實(shí)現(xiàn)探索的增強(qiáng)。

MoGE框架下的強(qiáng)化學(xué)習(xí)算法更新

實(shí)驗(yàn)結(jié)果:MoGE助力經(jīng)典強(qiáng)化學(xué)習(xí)算法,刷新連續(xù)控制任務(wù)新基準(zhǔn)

實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果

為了驗(yàn)證MoGE框架對(duì)強(qiáng)化學(xué)習(xí)算法的探索增強(qiáng)能力,我們用DSAC和TD3作為基礎(chǔ)方法在 OpenAI Gym 和 DeepMind Control Suite (DMC) 的 10 個(gè)高難度連續(xù)控制任務(wù)中進(jìn)行了廣泛測(cè)試,相比于原有的算法,使用MoGE增強(qiáng)探索后的DSAC展現(xiàn)了卓越的樣本效率和最終性能,超越了現(xiàn)有的所有探索增強(qiáng)的方法。

DMC Suite 表現(xiàn): MoGE 在高維任務(wù)中表現(xiàn)驚人。在 Humanoid-walk 任務(wù)中,MoGE 取得了 891.7 的高分,相比基線算法 DSAC (146.5) 提升了 508.6% 。在整個(gè) DMC 基準(zhǔn)測(cè)試中,MoGE 平均得分比 DSAC 高出 43.8% 。

OpenAI Gym 表現(xiàn): MoGE 同樣刷新了多項(xiàng)記錄。在復(fù)雜的 Humanoid-v3 任務(wù)中,MoGE 達(dá)到了 12151.1 分,比 DSAC 提升了 16.8%,顯著優(yōu)于傳統(tǒng)的 TD3 和 PER 等方法 。

對(duì)比優(yōu)勢(shì): 實(shí)驗(yàn)結(jié)果表明,MoGE 作為探索增強(qiáng)框架,能夠穩(wěn)定地提升隨機(jī)策略(DSAC)和確定性策略(TD3)算法的性能,且效果優(yōu)于現(xiàn)有的被動(dòng)探索方法(如 PGR, PER)。

總結(jié)與展望

MoGE 提出了一種增強(qiáng)強(qiáng)化學(xué)習(xí)探索的新框架。通過將擴(kuò)散模型的強(qiáng)大生成能力與世界模型的動(dòng)力學(xué)約束相結(jié)合,MoGE 有效解決了高維空間中“去哪探索”和“如何保證真實(shí)性”的難題 。 未來,MoGE 還可以進(jìn)一步擴(kuò)展到更多類型的算法中,或結(jié)合更具表達(dá)能力的生成模型,為具身智能(Embodied AI)和復(fù)雜機(jī)器人控制任務(wù)提供更強(qiáng)大的探索引擎 。

       原文標(biāo)題 : NeurIPS`25 | 清華提出模型驅(qū)動(dòng)的生成式探索機(jī)制MoGE,助力強(qiáng)化學(xué)習(xí)算法突破性能上限

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)