123,123,123

<dfn id="rcmfu"><style id="rcmfu"></style></dfn>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

NeurIPS`25 | 清華提出模型驅(qū)動(dòng)的生成式探索機(jī)制MoGE，助力強(qiáng)化學(xué)習(xí)算法突破性能上限

2026-02-25 16:32

作者：Likun Wang等

解讀：AI生成未來

本文介紹清華大學(xué)李升波教授課題組（iDLab）在NeurIPS 2025發(fā)表的《Off-policy Reinforcement Learning with Model-based Exploration Augmentation》。

論文題目： Off-policy Reinforcement Learning with Model-based Exploration Augmentation

收錄會(huì)議： 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

作者單位：清華大學(xué)車輛與運(yùn)載學(xué)院、人工智能學(xué)院

亮點(diǎn)直擊

條件擴(kuò)散生成器驅(qū)動(dòng)的高探索潛力狀態(tài)采樣：采用條件擴(kuò)散生成器采樣具有高探索潛力的關(guān)鍵狀態(tài)，并從理論上證明回放緩沖區(qū)中的狀態(tài)分布漸近收斂于最優(yōu)策略的平穩(wěn)占用測(cè)度，通過持續(xù)微調(diào)生成器確保其學(xué)習(xí)分布與最優(yōu)策略占用測(cè)度共享共同支撐集，從而生成符合狀態(tài)空間約束的可行狀態(tài)。

一步想象世界模型的動(dòng)態(tài)一致性保障：設(shè)計(jì)了一階段想象世界模型來模擬環(huán)境動(dòng)態(tài)，通過監(jiān)督學(xué)習(xí)實(shí)現(xiàn)高效預(yù)訓(xùn)練，既支持訓(xùn)練經(jīng)驗(yàn)構(gòu)建，又為基于條件擴(kuò)散的關(guān)鍵狀態(tài)生成器提供分類器設(shè)計(jì)基礎(chǔ)，確保生成樣本在動(dòng)力學(xué)層面的一致性。

異策略強(qiáng)化學(xué)習(xí)訓(xùn)練框架：提出與現(xiàn)有算法無縫集成的MoGE訓(xùn)練框架，通過重要性采樣混合生成的關(guān)鍵遷移與回放緩沖區(qū)樣本，在保持算法原始結(jié)構(gòu)不變的前提下增強(qiáng)探索能力。在OpenAI Gym和DeepMind Control Suite等標(biāo)準(zhǔn)連續(xù)控制基準(zhǔn)上的實(shí)驗(yàn)表明，MoGE作為探索增強(qiáng)框架能夠持續(xù)提升基線異策略強(qiáng)化學(xué)習(xí)算法的最終性能與樣本效率。

背景：探索與利用——智能體的“選擇困難癥”

在在線強(qiáng)化學(xué)習(xí)中，每個(gè)智能體都在做一個(gè)看似簡單、卻極其困難的選擇：

“是繼續(xù)走熟悉、安全的老路，還是去嘗試未知、可能更好的新路？”

這就是著名的“探索與利用”難題。如果總是重復(fù)已經(jīng)學(xué)會(huì)的行為，智能體雖然穩(wěn)定，卻可能永遠(yuǎn)發(fā)現(xiàn)不了更優(yōu)的方案；但如果一直盲目嘗試新動(dòng)作，又會(huì)浪費(fèi)大量時(shí)間，甚至頻繁犯錯(cuò)。如何在“穩(wěn)妥”和“冒險(xiǎn)”之間找到平衡，是強(qiáng)化學(xué)習(xí)中最關(guān)鍵的問題之一。

探索與利用難題

目前，研究者主要通過兩種方式來幫助智能體“探索世界”：

主動(dòng)探索：靠“試錯(cuò)”來學(xué)習(xí)：主動(dòng)探索傾向于讓智能體多去嘗試不同選擇。比如，在做決策時(shí)加入一點(diǎn)隨機(jī)性（SAC, DSAC等），讓智能體勇敢嘗試新動(dòng)作。就像給機(jī)器人一點(diǎn)“好奇心”，鼓勵(lì)它多走幾條沒走過的路。這種方法簡單直接，但也有明顯限制：首先，智能體只能在“走過的地方附近”探索，其次，收到初始化的影響，智能體很難跳出原有軌跡，進(jìn)入真正陌生的區(qū)域，這使得在復(fù)雜環(huán)境中，很多關(guān)鍵狀態(tài)根本探索不到。

被動(dòng)探索：靠“復(fù)盤”和“補(bǔ)充資料”學(xué)習(xí)：被動(dòng)探索通過整理和擴(kuò)充學(xué)習(xí)材料來進(jìn)步。研究者會(huì)讓智能體反復(fù)回看重要經(jīng)歷，甚至用生成模型“模擬”新的經(jīng)驗(yàn)，放進(jìn)學(xué)習(xí)庫里，“人工地”讓智能體學(xué)習(xí)關(guān)鍵的樣本。這種方法提高了學(xué)習(xí)效率，但問題在于：生成的內(nèi)容大多來自模仿已有經(jīng)驗(yàn)回放池，很難真正拜托已有數(shù)據(jù)中行為策略的限制，就像刷題時(shí)只做同類型題目，很難真正的突破水平瓶頸。

如何讓智能體不只依賴真實(shí)經(jīng)歷，而是學(xué)會(huì)“提前想象”哪些數(shù)據(jù)是真正重要的？就像人類會(huì)在行動(dòng)前思考：“如果我走這條路，會(huì)不會(huì)更好？”

動(dòng)機(jī)：從“被動(dòng)回放”樣本到“主動(dòng)生成”樣本

現(xiàn)有的被動(dòng)探索方法往往局限于模仿現(xiàn)有的數(shù)據(jù)分布，無法跳出行為策略（Behavior Policy）的覆蓋范圍。另一方面，直接使用世界模型生成長軌跡容易因誤差累積導(dǎo)致動(dòng)力學(xué)失效，產(chǎn)生不符合物理規(guī)律的“幻覺”樣本。針對(duì)上述痛點(diǎn)，清華大學(xué)李升波老師課題組首次提出了世界模型生成式探索（Modelic Generative Exploration, MoGE）框架。其核心在于：與其隨意生成整段數(shù)據(jù)，或重復(fù)模仿過去的經(jīng)驗(yàn)，不如選擇直接尋找那些智能體還沒去過、卻很重要的潛在關(guān)鍵狀態(tài)，并用世界模型保證它們真實(shí)可信，從而為學(xué)習(xí)提供更有效的訓(xùn)練樣本，從而擺脫行為策略的束縛。

核心亮點(diǎn)：MoGE 框架詳解

MoGE框架

與其他框架不同，MoGE能夠在不修改策略提升的前提下為算法持續(xù)提供關(guān)鍵訓(xùn)練樣本，能夠結(jié)合幾乎所有的異策略（Off-policy）RL 算法（如 SAC, TD3, DSAC）中，主要包含兩大核心組件：

1．關(guān)鍵狀態(tài)生成(Critical State Generation)

作為整體模型的重要組成部分，MoGE 不再像以往方法那樣直接生成完整的狀態(tài)轉(zhuǎn)移數(shù)據(jù)，而是引入了一種擴(kuò)散模型的條件生成器，專門用于生成強(qiáng)化學(xué)習(xí)訓(xùn)練中的“初始狀態(tài)”。與普通生成模型不同，該生成器并非盲目地模仿已有的數(shù)據(jù)，而是在人工設(shè)計(jì)的探索效用函數(shù)（Utility Function）引導(dǎo)下進(jìn)行生成。該效用函數(shù)融入了人類先驗(yàn)知識(shí)，用于刻畫哪些狀態(tài)更可能對(duì)策略學(xué)習(xí)產(chǎn)生關(guān)鍵作用。通過這種條件引導(dǎo)機(jī)制，擴(kuò)散生成器能夠主動(dòng)聚焦于高價(jià)值區(qū)域，從而生成真正具有探索意義的關(guān)鍵狀態(tài)，為智能體提供更高質(zhì)量的訓(xùn)練樣本。在MoGE中，為了普遍性出發(fā)，利用策略熵（Policy Entropy）和 TD 誤差作為引導(dǎo)信號(hào)，指導(dǎo)生成器在高維空間中搜索那些包含高信息量或高不確定性的“關(guān)鍵狀態(tài)” 。

2．一步想象世界模型 (One-step Imagination World Model)

為了確保生成的樣本符合環(huán)境真實(shí)的物理規(guī)律，MoGE 設(shè)計(jì)了一個(gè)確定性的一步想象世界模型，與狀態(tài)生成器共用一個(gè)隱空間，保證學(xué)習(xí)一致性和耦合性，該世界模型可以通過預(yù)訓(xùn)練進(jìn)行學(xué)習(xí)，保證局部轉(zhuǎn)移的準(zhǔn)確性。

一步想象世界模型

這種“高價(jià)值初始狀態(tài)生成 + 一步轉(zhuǎn)移樣本構(gòu)造”的機(jī)制，使得 MoGE 既具備了脫離經(jīng)驗(yàn)回訪池?cái)?shù)據(jù)分布的探索廣度，又保持了物理動(dòng)力學(xué)的嚴(yán)謹(jǐn)性。在MoGE框架下，不用修改策略函數(shù)和價(jià)值函數(shù)，就能實(shí)現(xiàn)探索的增強(qiáng)。

MoGE框架下的強(qiáng)化學(xué)習(xí)算法更新

實(shí)驗(yàn)結(jié)果：MoGE助力經(jīng)典強(qiáng)化學(xué)習(xí)算法，刷新連續(xù)控制任務(wù)新基準(zhǔn)

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證MoGE框架對(duì)強(qiáng)化學(xué)習(xí)算法的探索增強(qiáng)能力，我們用DSAC和TD3作為基礎(chǔ)方法在 OpenAI Gym 和 DeepMind Control Suite (DMC) 的 10 個(gè)高難度連續(xù)控制任務(wù)中進(jìn)行了廣泛測(cè)試，相比于原有的算法，使用MoGE增強(qiáng)探索后的DSAC展現(xiàn)了卓越的樣本效率和最終性能，超越了現(xiàn)有的所有探索增強(qiáng)的方法。

DMC Suite 表現(xiàn)： MoGE 在高維任務(wù)中表現(xiàn)驚人。在 Humanoid-walk 任務(wù)中，MoGE 取得了 891.7 的高分，相比基線算法 DSAC (146.5) 提升了 508.6% 。在整個(gè) DMC 基準(zhǔn)測(cè)試中，MoGE 平均得分比 DSAC 高出 43.8% 。

OpenAI Gym 表現(xiàn)： MoGE 同樣刷新了多項(xiàng)記錄。在復(fù)雜的 Humanoid-v3 任務(wù)中，MoGE 達(dá)到了 12151.1 分，比 DSAC 提升了 16.8%，顯著優(yōu)于傳統(tǒng)的 TD3 和 PER 等方法。

對(duì)比優(yōu)勢(shì)：實(shí)驗(yàn)結(jié)果表明，MoGE 作為探索增強(qiáng)框架，能夠穩(wěn)定地提升隨機(jī)策略（DSAC）和確定性策略（TD3）算法的性能，且效果優(yōu)于現(xiàn)有的被動(dòng)探索方法（如 PGR, PER）。

總結(jié)與展望

MoGE 提出了一種增強(qiáng)強(qiáng)化學(xué)習(xí)探索的新框架。通過將擴(kuò)散模型的強(qiáng)大生成能力與世界模型的動(dòng)力學(xué)約束相結(jié)合，MoGE 有效解決了高維空間中“去哪探索”和“如何保證真實(shí)性”的難題。未來，MoGE 還可以進(jìn)一步擴(kuò)展到更多類型的算法中，或結(jié)合更具表達(dá)能力的生成模型，為具身智能（Embodied AI）和復(fù)雜機(jī)器人控制任務(wù)提供更強(qiáng)大的探索引擎。

原文標(biāo)題 : NeurIPS`25 | 清華提出模型驅(qū)動(dòng)的生成式探索機(jī)制MoGE，助力強(qiáng)化學(xué)習(xí)算法突破性能上限

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<div id="mtpxv"><strike id="mtpxv"><ol id="mtpxv"></ol></strike></div>