123,123

<s id="w6ptv"></s>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

Claude發(fā)布全球首款混合推理模型，這會(huì)是AI的新標(biāo)準(zhǔn)？

2025-02-26 11:34

一個(gè)模型，兩種思考方式。

北京時(shí)間 2 月 25 日，Anthropic 最新發(fā)布的 Claude 3.7 Sonnet 和 Claude Code，讓 AI 技術(shù)圈再次炸開(kāi)了鍋。

對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，基于 Claude 3.7 Sonnet 模型打造 Claude Code 是一份意外驚喜。作為一個(gè)面向代碼編輯、測(cè)試和命令行交互的 AI 工具，Claude Code 的亮相迅速引發(fā)了開(kāi)發(fā)者的熱議，很多開(kāi)發(fā)者在進(jìn)行了開(kāi)發(fā)嘗試后，都在 X（原 Twitter）上直呼「哇塞」。

有人用一句話(huà)就創(chuàng)建出了「立等可玩」的仿《我的世界》游戲：

圖/ X

有人用一句話(huà)寫(xiě)好了一個(gè)動(dòng)效自然的天氣卡片：

圖/ X

還有人用一句話(huà)直接生成了一個(gè)帶光影變化的 3D 城市：

圖/ X

但如果把視角拉遠(yuǎn)，從 AI 發(fā)展的產(chǎn)品策略來(lái)看，更值得關(guān)注的可能還是：Claude 3.7 Sonnet 是全球第一個(gè)混合推理模型。

簡(jiǎn)單來(lái)說(shuō)，Claude 3.7 Sonnet 擁有標(biāo)準(zhǔn)模型和擴(kuò)展模型（高級(jí)推理）兩種模式，前者是 Claude 3.5 Sonnet、（OpenAI）GPT-4o、DeepSeek V3 這類(lèi)「?jìng)鹘y(tǒng)模型」，后者則是 DeepSeek R1、OpenAI o1 這類(lèi)「推理模型」。

但不同于 OpenAI、DeepSeek 將兩種模型獨(dú)立運(yùn)行，Claude 3.7 Sonnet 選擇了「融合」：既可以像傳統(tǒng)模型那樣迅速給出回答，又能在復(fù)雜問(wèn)題上調(diào)用更深層次的推理能力進(jìn)行思考，并給出更好的回答。

圖/ Claude

在此之前，AI 需要在「快」和「準(zhǔn)」之間做選擇。要么是 GPT-4o 這樣的傳統(tǒng)模型，獲得快速但不一定嚴(yán)謹(jǐn)?shù)幕卮�；要么轉(zhuǎn)向 DeepSeek R1 或 OpenAI o1 這樣的推理模型，等待更久，但換來(lái)更高的計(jì)算精度和更合理的回答。

現(xiàn)在，Claude 3.7 Sonnet 試圖打破這個(gè)割裂，讓 AI 在效率和智能之間找到平衡，而 Anthropic 邁出的這一步，也在試圖定義 AI 未來(lái)的產(chǎn)品形態(tài)。

Claude 3.7 Sonnet 升級(jí)，不只是編程能力提升

和所有 AI 版本升級(jí)一樣，Claude 3.7 Sonnet 的強(qiáng)大，首先可以從各類(lèi) Benchmark 跑分中直觀地體現(xiàn)出來(lái)。

在 MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）、GSM8K（數(shù)學(xué)推理）和 HumanEval（代碼生成）等測(cè)試中，Claude 3.7 Sonnet 的表現(xiàn)全面超越 3.5 版本，甚至在部分任務(wù)上已經(jīng)能與 Claude 3 Opus（教師模型）相媲美。

Anthropic 甚至還讓 Claude 3.7 Sonnet 跑了《寶可夢(mèng)》游戲測(cè)試，也展現(xiàn)出了超越前代模型的決策與規(guī)劃能力。

claude-3-7-sonnet-progress-playing-pokemon-v0-PGZt7-GxEl_Se1X04Cea14WIuO_NNnXYTpS4YTZrhBk.jpeg

圖/ Claude

不過(guò)更明顯的升級(jí)，還是體現(xiàn)在代碼理解這類(lèi)高度依賴(lài)推理能力的任務(wù)上，Claude 3.7 Sonnet 取得了跨代式的躍遷，本來(lái)就公認(rèn)領(lǐng)先的軟件開(kāi)發(fā)能力，又有了大幅提升。

圖/ Claude

但跑分只是冰冷的數(shù)字，真正讓人印象深刻的，是它在實(shí)際應(yīng)用中的表現(xiàn)。對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，最直觀的感受來(lái)自編程能力的提升，Claude 3.7 Sonnet 能給出比前代更高效的代碼邏輯，甚至可以檢測(cè)潛在的安全漏洞，提出合理的修復(fù)方案。

當(dāng)然，Claude 3.7 Sonnet 在數(shù)學(xué)推理上的級(jí)也不可不提。之前 Claude 3.5 Sonnet 在 GSM8K 這類(lèi)測(cè)試中表現(xiàn)并不算頂尖，偶爾還會(huì)翻車(chē)，給出錯(cuò)誤答案。

但 3.7 版本的升級(jí)，顯然補(bǔ)齊了這塊短板——有人測(cè)試發(fā)現(xiàn)，它在涉及多步推理的題目上正確率明顯提高，甚至可以在解答數(shù)學(xué)題時(shí)，自己檢查并修正推導(dǎo)過(guò)程，就像一個(gè)經(jīng)驗(yàn)豐富的考生，答完題后還會(huì)主動(dòng)回頭檢查答案。

而這一切提升，最終導(dǎo)向了 Claude 3.7 Sonnet 最核心的變革——混合推理模式。

正如前文所提，Claude 3.7 Sonnet 在原本標(biāo)準(zhǔn)模型的基礎(chǔ)上融入了新的擴(kuò)展模型，實(shí)現(xiàn)了「一個(gè)模型，兩種思考方式」，既能快速反應(yīng)，又能深入思考。

圖/ Claude

作為 Claude 3.5 Sonnet 的升級(jí)版，Claude 3.7 Sonnet 除了編程和工具調(diào)用能力，在標(biāo)準(zhǔn)模式下的整體性能升級(jí)其實(shí)不大。而在擴(kuò)展模式下，Claude 在回答前會(huì)進(jìn)行自我反思（思考鏈），從而提高了在數(shù)學(xué)、物理、指令遵循、編碼和其他許多任務(wù)上的表現(xiàn)。

更重要的是，你可以選擇何時(shí)讓模型正�；卮穑螘r(shí)讓它思考更長(zhǎng)的時(shí)間后再回答。同時(shí)針對(duì) API 調(diào)用，Claude 3.7 Sonnet 還支持自定義「思考鏈」的長(zhǎng)短限制，允許開(kāi)發(fā)者根據(jù)實(shí)際場(chǎng)景在回答質(zhì)量（以及成本）與速度之間進(jìn)行權(quán)衡。

推理模型的痛點(diǎn)，Claude 一招就破解了？

OpenAI o1、DeepSeek R1 這類(lèi)推理模型流行后，相信大家都發(fā)現(xiàn)了，雖然推理模型確實(shí)在數(shù)學(xué)、代碼、邏輯推理等任務(wù)上遠(yuǎn)勝傳統(tǒng)模型，但它們普遍存在一個(gè)致命短板：思考過(guò)程長(zhǎng)、響應(yīng)延遲明顯。

輸入一個(gè)問(wèn)題，往往要等待十幾秒甚至更長(zhǎng)時(shí)間，才能得到答案。

如果說(shuō)面對(duì)復(fù)雜問(wèn)題，推理模型往往能夠給出準(zhǔn)確度更高的答案，值得等待；但如果只是日常聊天或信息檢索，這種等待顯然過(guò)于昂貴，更遑論推理模型的「幻覺(jué)」并沒(méi)有減少，甚至可能更高。

這也導(dǎo)致，用戶(hù)如果想在「速度」和「深度」之間做選擇，就必須在兩個(gè)不同模型之間切換。比如，日常交流時(shí)用 GPT-4o 或者 DeepSeek V3，但如果遇到復(fù)雜的數(shù)學(xué)推理或者代碼邏輯問(wèn)題，改用 OpenAI o1 或 DeepSeek R1 這類(lèi)推理模型。

圖/ X

但這種選擇真的「繞不開(kāi)」嗎？在當(dāng)前的技術(shù)架構(gòu)下，AI 的推理能力和響應(yīng)速度，幾乎是一個(gè)此消彼長(zhǎng)的關(guān)系。推理模型的核心優(yōu)勢(shì)是更強(qiáng)的邏輯能力，但代價(jià)是計(jì)算量更大，生成速度更慢，甚至需要額外的服務(wù)器資源支持。

而這，正是 Claude 3.7 Sonnet 沒(méi)有簡(jiǎn)單復(fù)制 o1 或 R1，而是選擇了「混合推理」模式的關(guān)鍵原因。

采用混合推理模式，AI 可以在標(biāo)準(zhǔn)模式和擴(kuò)展模式之間自由切換。打個(gè)比方，這就像是一個(gè)經(jīng)驗(yàn)豐富的咨詢(xún)師，面對(duì)簡(jiǎn)單問(wèn)題可以立刻給出答案，而面對(duì)復(fù)雜問(wèn)題時(shí)，會(huì)停下來(lái)認(rèn)真思考，而不是讓客戶(hù)自己去決定該用哪種方式。

這也直接帶來(lái)了兩個(gè)好處：普通用戶(hù)不用煩擾選擇，開(kāi)發(fā)者也可以靈活調(diào)整 AI 的思考方式。

一方面，在普通對(duì)話(huà)、搜索信息、文案寫(xiě)作等日常任務(wù)中，Claude 3.7 Sonnet 依舊保持流暢的響應(yīng)速度，和 GPT-4o 這樣的模型表現(xiàn)類(lèi)似。但當(dāng)提出數(shù)學(xué)計(jì)算、編程、邏輯推理等高復(fù)雜度任務(wù)時(shí)，根據(jù)需要進(jìn)行適度的「深度思考」，實(shí)現(xiàn)效果、體驗(yàn)與成本的平衡。

另一方面，在對(duì)實(shí)時(shí)性要求較高的場(chǎng)景或者應(yīng)用（比如 AI 語(yǔ)音助手、客服系統(tǒng)）中，開(kāi)發(fā)者可以盡可能縮短 AI 的思考鏈，甚至僅使用標(biāo)準(zhǔn)模型，保證最快地響應(yīng)。可以在對(duì)精度要求較高的任務(wù)（比如代碼審計(jì)、法律分析、金融預(yù)測(cè)）中，適當(dāng)調(diào)整模型推理的深度，讓 AI 更仔細(xì)地思考每個(gè)步驟。

混合推理會(huì)成為AI主流趨勢(shì)？

圖/ Claude

當(dāng)然，混合推理模式并非完美無(wú)缺，比如 AI 如何判斷某個(gè)任務(wù)是否需要進(jìn)入「深度推理」？這個(gè)判斷一旦出錯(cuò)，要么導(dǎo)致延遲過(guò)長(zhǎng)（不必要地進(jìn)入深度模式），要么導(dǎo)致答案不夠精準(zhǔn)（應(yīng)該深度推理但沒(méi)有執(zhí)行）。

但從產(chǎn)品策略來(lái)看，它極有可能成為 AI 未來(lái)的主流趨勢(shì)。因?yàn)樗プ×艘粋€(gè)核心問(wèn)題：用戶(hù)并不想糾結(jié)于模型的選擇，只關(guān)心 AI 對(duì)話(huà)的結(jié)果和體驗(yàn)。

換句話(huà)說(shuō)，如果 Anthropic 能進(jìn)一步優(yōu)化動(dòng)態(tài)判斷的精準(zhǔn)度，并通過(guò) API 讓開(kāi)發(fā)者可以更靈活地調(diào)整推理策略，「混合推理模式」可能會(huì)成為大模型發(fā)展的下一個(gè)標(biāo)準(zhǔn)配置。

屆時(shí)，OpenAI 和 DeepSeek 等大模型廠商也可能會(huì)一起跟進(jìn)，將自己的推理模型與傳統(tǒng)模型進(jìn)行整合，共同促成一次 AI 產(chǎn)品范式的轉(zhuǎn)變。

來(lái)源：雷科技

原文標(biāo)題 : Claude發(fā)布全球首款混合推理模型，這會(huì)是AI的新標(biāo)準(zhǔn)？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷(xiāo)售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷(xiāo)售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專(zhuān)家廣東省/江門(mén)市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网