123,123

<blockquote id="kkack"></blockquote>

<s id="kkack"></s>

<center id="kkack"></center>

當前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

ExGRPO 框架：經(jīng)驗驅動學習，引領推理新范式

2025-11-14 18:05

來源： OFweek人工智能網(wǎng)

當人工智能模型仍以“刷題+打分”為主流訓練模式時，一支來自上海人工智能實驗室、澳門大學、南京大學與香港中文大學的研究團隊提出：訓練不僅是做題，更要復盤、溫習、內(nèi)化。

他們近期發(fā)布了題為《ExGRPO: Learning to Reason from Experience》的論文，首次系統(tǒng)性地呈現(xiàn)出“經(jīng)驗管理”如何在大模型推理訓練中發(fā)揮關鍵作用。

與傳統(tǒng)的在線策略RLVR（基于可驗證獎勵的強化學習）方法相比，ExGRPO在攻克復雜推理難題的能力方面有顯著提升。

下面，就讓我們一窺 ExGRPO 框架背后的邏輯、優(yōu)勢與啟示。

為什么是“經(jīng)驗驅動”

過去數(shù)年里，為了提升大型語言模型在數(shù)學推理、邏輯推理、復雜任務求解等方向的能力，研究領域普遍采用基于可驗證獎勵的強化學習（RLVR）方法。

但是，在 RLVR 模型訓練中，模型生成一個推理軌跡（roll-out），參與訓練、獲得獎勵后即被舍棄。

一方面，生成的軌跡往往代價昂貴。另一方面，這些“有用的軌跡”卻被一次性使用，隨后被丟棄——好比學生每做一道題后不復盤、不歸檔。

簡而言之，傳統(tǒng)訓練流程存在三大痛點：

經(jīng)驗浪費 —— 成功的推理軌跡往往被遺忘
效率低下 —— 刷題而不復習，推動能力提升緩慢
訓練不穩(wěn)定 —— 模型可能走入“做題卻不理解”的狀態(tài)

也就是說：當“誰的數(shù)據(jù)更多”“誰訓練更久”逐漸成為瓶頸時，如何系統(tǒng)化地讓模型復盤、復用“關鍵經(jīng)驗”便可能成為突破點。

該研究正是在這個背景下提出：并非所有經(jīng)驗都值得溫習，關鍵在于「什么樣的經(jīng)驗」以及怎樣的復習方式。

經(jīng)驗管理＋混合策略優(yōu)化

論文提出的 ExGRPO（Experiential Group Relative Policy Optimization）是一個用于推理訓練的大模型經(jīng)驗管理與策略優(yōu)化框架。

其核心在于兩個維度：

經(jīng)驗管理：即識別、存儲、篩選優(yōu)質經(jīng)驗
混合經(jīng)驗優(yōu)化：將精選經(jīng)驗與新題探索結合起來訓練

在 ExGRPO 中，其經(jīng)驗管理由三步構成：

經(jīng)驗收集：每次模型成功完成一道題目后，其軌跡被加入經(jīng)驗回放池，有點類似錯題本
經(jīng)驗劃分與存儲：根據(jù)模型的近期表現(xiàn)，每條經(jīng)驗被動態(tài)貼上“簡單”“中等”“困難”標簽。與此同時，若模型在某道題上已連續(xù)多次成功，則將該題移出，避免模型在已掌握題目上刷題停滯
經(jīng)驗篩選：根據(jù)“題目篩選”+“軌跡篩選“兩項先驗指標精選經(jīng)驗

接下來，ExGRPO 采用了“混合策略”的訓練目標。在每輪訓練中，一部分 minibatch 用于探索全新的問題。另一部分用于從經(jīng)驗池中抽取精選軌跡，反復學習。

此外，還引入“策略塑形”（Policy Shaping）機制，避免模型因為過度復習而變得保守、失去探索能力。

實驗結果和行業(yè)啟示

在 1.5B-8B 參數(shù)規(guī)模、不同模型架構（如 Qwen、Llama）上，ExGRPO 相比傳統(tǒng) On-policy RL 方法平均提升約 +3.5（分布內(nèi)任務）至 +7.6（分布外任務）個百分點。

不僅如此，整體訓練的穩(wěn)定性與效率也有所提升。

同時，ExGRPO 也面臨三大挑戰(zhàn)。

第一，在更大規(guī)模、更多任務類型的場景下，經(jīng)驗識別是否依然精確？

第二，建立、維護經(jīng)驗池、劃分分區(qū)、篩選軌跡，都需要額外計算資源與工程支持，管理成本堪憂。

第三，論文主要在數(shù)學與通用推理基準上測試。未來在語言生成、對話、跨模態(tài)任務中，這一經(jīng)驗復用機制能否同樣奏效仍待觀察。

但對模型訓練體系而言，ExGRPO 提供了一個可借鑒的“錯題本式”思路：不僅做題，更復盤；不僅刷題，更優(yōu)化經(jīng)驗。

對開發(fā)者而言，可以考慮在實際模型訓練中引入類似經(jīng)驗篩選機制——將模型成功軌跡歸檔、標注、復用，而不是簡單丟棄。

對產(chǎn)業(yè)應用而言，當模型需要長期服務、持續(xù)學習、快速迭代時，經(jīng)驗機制尤為關鍵。它意味著模型不僅“會做”，還知道怎么做得更好。

對未來研究而言，經(jīng)驗分區(qū)、軌跡篩選、復用機制是一個值得深入的方向。未來還有可能與自動化經(jīng)驗選擇、元學習、持續(xù)在線學習等方向融合。

參考資料：https://arxiv.org/pdf/2510.02245

本地收藏打印推薦給朋友

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經(jīng)書面授權。未經(jīng)授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<kbd id="mquuo"><optgroup id="mquuo"></optgroup></kbd>

<bdo id="mquuo"><source id="mquuo"></source></bdo>

<code id="mquuo"><input id="mquuo"></input></code>