訂閱
糾錯(cuò)
加入自媒體

大模型日?qǐng)?bào)| 字節(jié)跳動(dòng)對(duì)多模態(tài)又有了新創(chuàng)意,HBM刻蝕需求爆發(fā)

01

重大發(fā)布(新模型/產(chǎn)品/開源)

①阿里千問開源持續(xù)進(jìn)行中:Embedding與Reranker系列登場

阿里通義千問團(tuán)隊(duì)于1月8日再度開源兩款名為模型Qwen3-VL-Embedding和Qwen3-VL-Reranker的模型。

上述模型是業(yè)內(nèi)首批基于Qwen3-VL架構(gòu)打造的開源多模態(tài)嵌入與重排序模型,主要用于將多模態(tài)和混合模態(tài)內(nèi)容(包括但不限于文本、圖像、音頻和視頻)統(tǒng)一映射至同一個(gè)高維語義空間,以此實(shí)現(xiàn)“看圖找文”、“看文搜視頻”等跨模態(tài)檢索能。

1

兩款模型分別有2B和8B兩種參數(shù)規(guī)格的版本,支持32K上下文窗口和任務(wù)指令定制。目前,上述模型已經(jīng)在Hugging Face、ModelScope和GitHub全面開源。

690b464dc98f85ab3339fb1b2e40b72d

短評(píng):

目前AI的多模態(tài)能力仍然存在一定局限性,對(duì)于復(fù)雜內(nèi)容的識(shí)別,哪怕是Gemini 3 Pro的效果都談不上有多理想。阿里千問團(tuán)隊(duì)延續(xù)了開源的技術(shù)路線,為跨模態(tài)識(shí)別領(lǐng)域提供了兩款重要的基座模型。

它們未必能立刻解決所有的識(shí)別難題,但仍然為行業(yè)提供了新的思路。在閉源模型的“黑箱”問題越來越嚴(yán)重的情況下,開源策略反而可能成為多模態(tài)領(lǐng)域?qū)崿F(xiàn)突破的關(guān)鍵方法。

②OpenAI深入醫(yī)療行業(yè):OpenAI for Healthcare已落地多家頂級(jí)醫(yī)院

OpenAI昨日推出了新產(chǎn)品OpenAI for Healthcare,這是一套專門為醫(yī)療行業(yè)打造、支持HIPAA(健康保險(xiǎn)攜帶和責(zé)任法案)合規(guī)的AI產(chǎn)品組合。兩款產(chǎn)品的相繼發(fā)布,證明OpenAI已經(jīng)開始系統(tǒng)性地進(jìn)入醫(yī)療領(lǐng)域的核心場景。

這一產(chǎn)品組合主要包含兩部分:

一是ChatGPT for Healthcare:基于GPT-5.2模型設(shè)計(jì),目標(biāo)是優(yōu)化臨床、科研和運(yùn)營工作流。它能夠引用數(shù)百萬篇同行評(píng)審文獻(xiàn)、臨床指南和公共衛(wèi)生建議,并附帶完整出處,同時(shí)也支持對(duì)接醫(yī)院內(nèi)部的政策數(shù)據(jù)庫,確保其回答與機(jī)構(gòu)標(biāo)準(zhǔn)保持一致;

二是OpenAI API for Healthcare:面向開發(fā)者設(shè)計(jì),支持構(gòu)建病歷摘要、隨訪調(diào)度、環(huán)境聽診等定制化工具,已有Abridge、Ambience等公司基于這一產(chǎn)品開始打造臨床輔助應(yīng)用。

目前,波士頓兒童醫(yī)院、Cedars-Sinai、斯坦福醫(yī)學(xué)兒童健康、UCSF和HCA醫(yī)療集團(tuán)等頂尖機(jī)構(gòu)已開始部署。早期試點(diǎn)結(jié)果顯示,AI輔助有助于降低診療錯(cuò)誤率。

短評(píng):

相比之前的ChatGPT Health,OpenAI的這款新產(chǎn)品進(jìn)一步涉足了醫(yī)療行業(yè)更深層的領(lǐng)域,需求擴(kuò)展也會(huì)帶來更高的風(fēng)險(xiǎn)。

但是,OpenAI仍然讓醫(yī)生作為決策者,明確強(qiáng)調(diào)“Clinicians stay in charge”,不代替醫(yī)生做出診斷,也不輕易回答醫(yī)學(xué)問題,其功能聚焦于輔助整合、文檔生成、結(jié)合患者情況提供機(jī)構(gòu)指南和最新文獻(xiàn)等,最大程度避免了信任與合規(guī)相關(guān)問題。

如果這一產(chǎn)品組合能夠?qū)崿F(xiàn)規(guī);瘧(yīng)用,各大醫(yī)院接入OpenAI生態(tài)后就會(huì)形成平臺(tái)依賴,GPT-5也將成為智能醫(yī)療的底層基礎(chǔ)設(shè)施。

③智譜GLM-5即將發(fā)布,目標(biāo)AGI底層突破

在智譜完成上市的同時(shí),清華大學(xué)計(jì)算機(jī)系教授也正式宣布:智譜的新一代大模型GLM-5即將問世。

在2025年,智譜模型的高速迭代領(lǐng)跑國內(nèi)AI行業(yè),從年初試探性地發(fā)布GLM-4.1,到7月GLM-4.5的正式發(fā)布,再到9月的GLM-4.6和12月的GLM-4.7,這家國內(nèi)AI初創(chuàng)企業(yè)的模型能力已經(jīng)能夠和國際頂尖模型同臺(tái)競技。

兩周前發(fā)布的GLM-4.7在代碼、Agent和多語言任務(wù)中拿下多項(xiàng)開源與國產(chǎn)模型SOTA,目前在Aritificial Analysis新版本的智能程度排行榜上位居全球第7,國內(nèi)第1。

唐杰表示,智譜的新模型GLM-5將繼續(xù)以實(shí)現(xiàn)AGI為目標(biāo),在以下三方面實(shí)現(xiàn)技術(shù)突破:

一是超越Transformer的全新架構(gòu):隨著AI能力的增強(qiáng)和應(yīng)用場景的擴(kuò)大,Transformer架構(gòu)存在的長上下文計(jì)算開銷過大、記憶機(jī)制僵化等弊端正在被逐步擴(kuò)大,智譜需要研發(fā)新的模型架構(gòu),并推進(jìn)“芯片-算法協(xié)同設(shè)計(jì)”以提升能效;

二是更加通用的強(qiáng)化學(xué)習(xí)范式:模型訓(xùn)練不再局限于代碼等可驗(yàn)證環(huán)境,而是支持?jǐn)?shù)十個(gè)小時(shí)的復(fù)雜任務(wù)執(zhí)行;

三是持續(xù)學(xué)習(xí)和自主進(jìn)化:目前的模型在完成訓(xùn)練后,其智能程度就已經(jīng)被確定,智譜將布局在線學(xué)習(xí)能力,使AI在推理階段仍能提升智能。

短評(píng):

GLM-5提出的三大技術(shù)突破方向均屬于AI學(xué)術(shù)領(lǐng)域內(nèi)公認(rèn)的硬核難題,短期內(nèi)難以在產(chǎn)品上實(shí)現(xiàn)落實(shí),模型在真實(shí)任務(wù)中的可靠性和成本效益更加值得關(guān)注。

④Grok Code即將迎來重大升級(jí)

馬斯克昨日發(fā)布消息稱xAI將在下一個(gè)月對(duì)旗下編程推理模型Grok Code系列產(chǎn)品進(jìn)行一次重量級(jí)更新,新版本的模型將顯著提升在復(fù)雜場景中的編程能力。

對(duì)于較大的程序項(xiàng)目,過去的模型需要開發(fā)者進(jìn)行分步引導(dǎo)和多輪調(diào)試以完成編碼任務(wù),未來有望通過單次提示直接完成。

短評(píng):

Vibe Coding(氛圍編程)的應(yīng)用場景越來越豐富,面對(duì)Claude Code在編程領(lǐng)域一家獨(dú)大,Google、OpenAI和xAI都紛紛出手開始進(jìn)入市場競爭。

目前,在Artificial Analysis的編程排行榜上,Grok 4與其他三家相比稍顯落后,本次更新預(yù)計(jì)能達(dá)到同一水平。未來,上述幾款產(chǎn)品的能力差距將進(jìn)一步被壓縮,token價(jià)格將成為短期競爭的關(guān)鍵指標(biāo)。

⑤阿里云發(fā)布多模態(tài)交互開發(fā)套件

在阿里云的通義智能硬件展上,其最新開發(fā)的多模態(tài)交互開發(fā)套件首次亮相。

這一套件的主要亮點(diǎn)如下:

一是低成本快速接入:適配30款以上的主流終端芯片,未來將與玄鐵協(xié)同實(shí)現(xiàn)軟硬件一體優(yōu)化;

二是超低交互時(shí)延:端到端語音響應(yīng)只需1秒,視頻交互只需1.5秒,支持全雙工對(duì)話與實(shí)時(shí)視覺理解;

三是開箱即用的生態(tài):預(yù)置多種常用Agent,接入阿里云百煉生態(tài),可通過A2A協(xié)議兼容第三方Agent,靈活擴(kuò)展業(yè)務(wù)場景。

短評(píng):

新套件的發(fā)布是阿里注重AI應(yīng)用層和Agent落地的又一重大舉措。阿里將通義系列大模型的能力深度封裝到硬件開發(fā)套件中,這些具備感知、規(guī)劃和執(zhí)行能力的智能體就可以真正融入用戶的生活并解決問題。在下一代人機(jī)交互入口的競爭中,掌握終端交互的體驗(yàn)才能定義AI的形態(tài)。

02

技術(shù)進(jìn)展(論文/SOTA/算法)

①字節(jié)跳動(dòng)DreamStyle:三模態(tài)引導(dǎo)的視頻風(fēng)格化框架

字節(jié)跳動(dòng)對(duì)于多模態(tài)又有了新的創(chuàng)意。近日,字節(jié)在Github上上傳了一個(gè)名為DreamStyle的統(tǒng)一、高效的視頻風(fēng)格化框架,支持文本描述、風(fēng)格參考圖、首幀引導(dǎo)三種輸入方式生成特定風(fēng)格的視頻,并通過自研的數(shù)據(jù)管道和token級(jí)的LoRA微調(diào)技術(shù),顯著提升了長視頻風(fēng)格的一致性和畫面質(zhì)量,在真實(shí)的評(píng)測中超越了現(xiàn)有的方法。

framework

傳統(tǒng)的視頻風(fēng)格化工具大多只能處理單一樣式的輸入(如文生視頻和圖生視頻),導(dǎo)致視頻時(shí)間一旦延長,就會(huì)導(dǎo)致效果不穩(wěn)定、時(shí)序閃爍嚴(yán)重等問題。

DreamStyle采用了自建的高質(zhì)量訓(xùn)練數(shù)據(jù)集,結(jié)合SDXL(Stability AI團(tuán)隊(duì)開發(fā)的開源文生圖框架)、Seedream 4.0和ControlNet(可控圖像生成技術(shù))以確保風(fēng)格遷移的準(zhǔn)確性和運(yùn)動(dòng)的連貫性。同時(shí),該框架基于阿里開源的Wan14B-I2V模型架構(gòu),引入Token-specific LoRA技術(shù),有效區(qū)分不同條件的信號(hào)以減少語義混亂。

短評(píng):

該框架聚焦于風(fēng)格遷移這一明確任務(wù)而設(shè)計(jì),對(duì)于短視頻平臺(tái)和廣告公司來說具備一定商業(yè)價(jià)值。不過,部署門檻可能較高,是否支持輕量化或邊緣設(shè)備有待觀察。

03

 算力與基礎(chǔ)設(shè)施(芯片/云/數(shù)據(jù)中心)

①東京電子提升48%資本開支押注HBM驅(qū)動(dòng)的蝕刻設(shè)備需求

根據(jù)日經(jīng)新聞消息,全球半導(dǎo)體設(shè)備巨頭東京電子(Tokyo Electron)即將加大AI算力基建的相關(guān)投入,公司預(yù)計(jì)在2026財(cái)年將資本支出提升48%至2400億日元,創(chuàng)下歷史新高,同時(shí),研發(fā)投入增長16%達(dá)到2900億日元。

這一激進(jìn)投資的核心邏輯,是押注HBM(高帶寬內(nèi)存)擴(kuò)產(chǎn)帶來的先進(jìn)蝕刻設(shè)備需求爆發(fā)。

由于英偉達(dá)等高端AI廠商的芯片產(chǎn)品廣泛采取多層堆疊HBM,各大DRAM制造商都在加速擴(kuò)產(chǎn)。HBM三巨頭中的三星和海力士都已經(jīng)宣布投入數(shù)十億美元新建HBM產(chǎn)線,預(yù)計(jì)于2027年至2028年投產(chǎn)。為了提升AI芯片的性能,每增加一層HBM堆疊,就需要更多的精密蝕刻設(shè)備用以構(gòu)建芯片之間的精密互連結(jié)構(gòu),而這正是東京電子的核心業(yè)務(wù)之一。

2025財(cái)年,東京電子的DRAM互連蝕刻系統(tǒng)銷售額已經(jīng)突破千億,預(yù)計(jì)到2030年,累計(jì)銷售額將達(dá)到5000億日元。為迎合這一需求爆發(fā)的周期,東京電子于日本多地?cái)U(kuò)建研發(fā)、生產(chǎn)與物流中心。

短評(píng):

目前看來,AI的浪潮不會(huì)衰退,HBM的供給不足問題已經(jīng)對(duì)算力增長造成阻礙,因此這一投資伴隨的風(fēng)險(xiǎn)幾乎可以忽略。AI硬件的競爭,已經(jīng)從GPU擴(kuò)展到HBM,并進(jìn)一步向上游制造設(shè)備延伸。

       原文標(biāo)題 : 大模型日?qǐng)?bào)| 字節(jié)跳動(dòng)對(duì)多模態(tài)又有了新創(chuàng)意,HBM刻蝕需求爆發(fā)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)