123,123

<dfn id="23gld"><code id="23gld"></code></dfn>

<menu id="23gld"><button id="23gld"></button></menu>

當前位置： OFweek 人工智能網(wǎng) > 正文

把大模型刻進芯片，可行嗎？

2026-02-26 18:12

半導體產(chǎn)業(yè)縱橫

最近一家叫Taalas的芯片公司橫空出世，引發(fā)行業(yè)關注。

2023年成立的多倫多初創(chuàng)公司Taalas，由芯片行業(yè)資深人士Ljubisa Bajic等人創(chuàng)立，其憑借一款HC1芯片攪動了AI硬件市場的格局。這家公司跳出了傳統(tǒng)AI硬件的設計思路，將AI大模型的權(quán)重直接蝕刻到芯片的金屬互連層中，實現(xiàn)了極致的存算合一，讓芯片的推理速度達到17000 tokens/秒，遠超英偉達H200的約230 tokens/秒、B200的約2000 tokens/秒。這一創(chuàng)新做法，也讓行業(yè)開始重新思考：把大模型直接刻進芯片，究竟是打破AI硬件瓶頸的新方向，還是受限于技術迭代的小眾嘗試？

01

放棄通用性，換極致的性能與能效

Taalas的HC1芯片，本質(zhì)上是徹底拋棄“一顆芯片跑所有模型”的通用路線，轉(zhuǎn)向“為特定模型定制硅結(jié)構(gòu)”。這款芯片采用臺積電6nm工藝和Mask ROM技術，將模型權(quán)重直接硬編碼在硅片上，從物理層面消除了計算與存儲之間的數(shù)據(jù)搬運，大幅破解了困擾行業(yè)的內(nèi)存墻問題。同時，它摒棄了液冷方案和HBM顯存，改用空氣冷卻，在降低功耗的同時也減少了硬件成本，配套的軟件棧也因模型權(quán)重和結(jié)構(gòu)的硬件固化變得極度簡化，無需復雜的優(yōu)化層，進一步提升了性能和能效比。

這份極致的定制化，讓HC1芯片在性能和成本上展現(xiàn)出顯著優(yōu)勢：其token處理速度達到英偉達最強GPU的近10倍，硬件成本僅為傳統(tǒng)GPU方案的1/20，功耗也降至1/10。但與之相伴的，是通用性的完全犧牲——HC1芯片僅能運行特定的Llama 3.1 8B模型，任何模型的更新迭代，都意味著芯片需要重新流片。當然，這種極端專用化也能擴展到更大的模型。Taalas 給出了他們對 DeepSeek R1 671B 的模擬數(shù)據(jù)。671B 參數(shù)的模型需要大約 30 顆芯片協(xié)同工作，每顆芯片承載約 20B 參數(shù)（采用 MXFP4 格式，并將 SRAM 分離到獨立芯片以提高密度）。30 顆芯片意味著 30 次增量流片，但 Bajic 指出由于每次只改兩層掩模，增量流片成本并不高。

這一特點也決定了Taalas的市場定位，它并非要成為“下一個英偉達”，而是瞄準AI推理的細分環(huán)節(jié)，成為該領域的專用供應商，其思路與Groq推出的LPU相似，且在專用化的道路上走得更遠。

目前Taalas的商業(yè)模式仍在探索中，主要有自建基礎設施提供API服務、直接銷售芯片、與模型開發(fā)者合作定制專用芯片三種可能。而這一極端專用化的方案能否被市場接受，主要取決于特定應用場景對延遲的敏感程度，以及模型本身的長期穩(wěn)定性。盡管存在明顯的局限性，但對于高頻金融交易、自動駕駛、軍事裝備等對延遲高度敏感且模型相對穩(wěn)定的場景，HC1芯片的技術方案仍具備不可替代的價值。

02

推理芯片的賽道，多元技術路線的探索

在AI硬件領域，GPU在訓練環(huán)節(jié)的優(yōu)勢依舊無可撼動，但在推理環(huán)節(jié)，GPU卻暴露了“貴且慢”的短板，這也讓推理芯片成為眾多初創(chuàng)企業(yè)的創(chuàng)新賽場。除了Taalas的硬編碼方案，行業(yè)內(nèi)還誕生了多種技術路線，各家都在通過放棄某一傳統(tǒng)設計要素，換取推理環(huán)節(jié)的性能突破，形成了各具特色的技術探索。

Taalas選擇放棄軟件，走硬連線的路線，將模型的權(quán)重和數(shù)據(jù)流直接變成物理連線，在其設計邏輯中，軟件是純粹的開銷，指令集更是一種浪費，甚至連編譯器都無需配備，模型確定后便直接流片。這種設計讓芯片的功耗和成本壓至極低，但容錯率也降為0，模型的任何變動都會讓芯片失去使用價值。

Etched選擇把架構(gòu)刻進芯片。他們的第一塊AI芯片是一種專用的集成電路（ASIC），聲稱在AI大語言模型（LLM）推理方面擊敗了英偉達的H100。由于它是ASIC，所以Etched需要把transformer架構(gòu)刻蝕在芯片上。通過把Transformer的計算邏輯，注意力機制、矩陣乘法、激活函數(shù)，直接硬編碼進芯片的電路設計中，效率實現(xiàn)了指數(shù)級提升。但這同時也意味著完全喪失靈活性：無法運行循環(huán)神經(jīng)網(wǎng)絡（RNN），無法跑推薦系統(tǒng)模型，無法做任何非Transformer的AI任務。

Groq則推出了專屬的LPU（語言處理單元），采用純SRAM架構(gòu)，摒棄了硬件調(diào)度器、緩存一致性協(xié)議和分支預測等傳統(tǒng)設計。其核心邏輯是讓硬件保持100%的確定性，數(shù)據(jù)的傳輸和運算全靠編譯器在軟件層面提前進行周期級的精確規(guī)劃。這一方案讓芯片在批處理（Batch=1）時的推理速度極快，而Groq的核心競爭力，也并非芯片本身，而是能調(diào)度海量并行指令的編譯器軟件。

Cerebras的核心產(chǎn)品WSE（晶圓級引擎），跳出了傳統(tǒng)的芯片切割思路，直接將整塊晶圓作為一顆大芯片，晶圓上集成了海量的SRAM和計算核心。該設計的底層邏輯，是從物理層面解決芯片間數(shù)據(jù)傳輸?shù)膬?nèi)存墻問題，畢竟芯片間的數(shù)據(jù)交互是速度最慢、能耗最高的環(huán)節(jié)。這一方案讓芯片獲得了無敵的帶寬，但也讓制造、散熱、容錯的物理工程難度達到了極致。

Tenstorrent（由芯片大神Jim Keller創(chuàng)立）則選擇擁抱開源與解耦，其路線是RISC-V指令集搭配矩陣計算單元（Tensix），打造高度可編程的數(shù)據(jù)流架構(gòu)。這家企業(yè)也是四家之中最不“ASIC”的存在，Jim Keller認為，AI算法仍處于快速迭代的階段，硬件設計絕不能寫死，因此采用靈活的RISC-V指令集處理控制流，再通過異構(gòu)網(wǎng)絡將成千上萬個小芯片連接起來。這一方案讓芯片更接近“通用計算機”，其賭點在于未來的AI并非單一的Transformer架構(gòu)，而是會發(fā)展為包含大量條件判斷、邏輯推理的復雜軟件工程。

03

回望歷史：固化硬件的教訓，不同層級的綁定風險

把程序刻進硬件的思路，并非Taalas首創(chuàng)，在科技發(fā)展史上早有先例，而這些先例的興衰，也為大模型刻進芯片的方案提供了重要的參考。

上世紀90年代末的3dfx Voodoo顯卡，曾是3D圖形領域的標桿，其成功與失敗都源于同一個設計邏輯——將3D渲染的步驟完全硬件化。它把3D游戲的光柵渲染步驟（頂點矩陣、光照、貼圖等計算）做成“固定管線”直接刻死在電路中，�？顚Ｓ玫脑O計讓其在3D游戲運行上的速度碾壓同期產(chǎn)品，成為3D顯卡的代名詞。但到了1999年之后，開發(fā)者開始探索更豐富的3D效果，如水景反光、皮膚質(zhì)感等，而Voodoo顯卡因硬件固化無法支持這些新功能，最終被推出“可編程著色器”的英偉達GeForce GPU取代，走向破產(chǎn)并被英偉達收購。

2016-2018年，AI領域的主要算法是用于圖像識別的CNN（卷積神經(jīng)網(wǎng)絡），一大批芯片創(chuàng)業(yè)公司針對CNN的計算模式，在硬件上設計了專門的“卷積加速引擎”，這類芯片在處理人臉識別、自動駕駛的圖像識別任務時，速度快、能耗低，與如今Taalas的思路高度相似。但2017年《Attention is All You Need》的發(fā)布，以及2018年BERT的橫空出世，讓大模型的底層數(shù)學邏輯從“局部卷積”徹底轉(zhuǎn)向“全局自注意力機制”，那些將CNN邏輯刻死在芯片里的企業(yè)，因硬件缺乏通用矩陣計算能力，運行Transformer架構(gòu)的效率極低，甚至無法運行，這也讓第一波AI芯片潮中，大部分專注特定視覺算法的初創(chuàng)公司黯然退場。

對比這兩個案例與Taalas的方案可以發(fā)現(xiàn)，三者的硬件固化程度存在本質(zhì)差異：Voodoo顯卡固化的是渲染管線，即便技術迭代，只要仍運行3D游戲它依然能使用，只是畫面效果落后；CNN芯片固化的是算法，人臉識別等傳統(tǒng)場景中它依舊能發(fā)揮作用，只是適用場景大幅收窄；而Taalas固化的是特定的模型，一旦模型更新，芯片便會直接報廢。這種極致的綁定，也讓Taalas的方案背上了最大的風險——它賭的是AI算法已經(jīng)進入“平臺期”，架構(gòu)上難以再有突破性進步，但現(xiàn)實是，當前AI模型的迭代周期甚至以周計算，只要行業(yè)競爭不停止，模型的標準就無從談起，前沿AI領域的技術變化，始終是懸在這款芯片頭上的達摩克利斯之劍。

04

并非普適方案，卻在特定場景中具備價值

從前沿AI研發(fā)的角度來看，將大模型刻進芯片的技術路線顯然并不可行，但這并不意味著該方案毫無市場，在大量模型需求相對固定的場景中，它恰好能解決大模型推理延遲過長的痛點，展現(xiàn)出獨特的應用價值。

工業(yè)領域中，大模型下車間成為趨勢，很多場景并不需要性能頂尖的大模型，只需用蒸餾后的輕量模型（如qwen2.5）就能解決傳統(tǒng)軟件定制化開發(fā)的問題，這類場景對模型的穩(wěn)定性要求遠高于迭代速度，將輕量模型刻進芯片，能完美解決推理延遲的問題；政務系統(tǒng)的大模型應用中，部署后通常會斷開外網(wǎng)，模型本身無法在線更新，此時將模型固化為硬件，后續(xù)的模型更新只需替換硬件，反而比軟件更新更便捷；消費電子領域，翻譯、TTS等小模型如果做成專用芯片并集成進手機等設備中，能為設備提供保底的離線智能能力，即便后續(xù)出現(xiàn)更優(yōu)的模型，也能滿足用戶的基礎需求，同時相比手機直接運行小模型，專用芯片還能大幅提升設備的續(xù)航能力。

而在對延遲和離線運行能力有極致要求的特殊場景中，把大模型刻進芯片的方案更是展現(xiàn)出不可替代的優(yōu)勢，成為這些領域的最佳選擇之一。在智能駕駛領域，車輛遇到臨時修路、交警現(xiàn)場指揮等突發(fā)狀況時，需要的是低于1毫秒的“本能邏輯推理反射”，傳統(tǒng)自動駕駛芯片僅擅長快速圖像識別，無法處理這類復雜的邏輯推理，而云端大模型的反饋又存在延遲，固化了大模型的專用芯片，能實現(xiàn)本地的極速推理，應對各類突發(fā)狀況；在高頻量化金融領域，美聯(lián)儲講話、非農(nóng)數(shù)據(jù)、企業(yè)財報等信息的發(fā)布往往伴隨市場的快速波動，專用芯片能以極高的速度，快速解析信息，判斷市場走向并轉(zhuǎn)化為交易信號，相當于為量化交易開掛；在軍工領域，無需聯(lián)網(wǎng)、固化在物理硬件中的大模型芯片，即便身處斷網(wǎng)的“信息孤島”，也能憑借出廠時的龐大參數(shù)，獨立進行極速的戰(zhàn)術分析和保密決策。

同時，人們也無需擔心固化在芯片中的大模型會因無法迭代，導致知識永遠停留在出廠階段。實際上，芯片固化的只是模型本身的架構(gòu)和權(quán)重，模型無法再進化，但它的邏輯推理、知識檢索能力依舊保持頂級；而且刻入芯片的大模型并非失去聯(lián)網(wǎng)能力，仍可通過聯(lián)網(wǎng)獲取最新信息，進行分析和問題解決，只是不再通過模型迭代實現(xiàn)能力升級。

05

爭議與未來可能性：一場關于迭代周期的博弈

把大模型刻進芯片的方案，其未來的發(fā)展前景，將圍繞著迭代周期和成本的博弈展開，這也是行業(yè)對該方案的主要爭議點。

Taalas的競爭力之一，是宣稱能將“大模型轉(zhuǎn)化為定制芯片”的周期，從傳統(tǒng)的一年縮短至兩個月，同時因拋棄了昂貴的HBM芯片，采用6nm工藝的專用芯片，硬件成本僅為英偉達H100等GPU方案的1/20。從成本角度來看，這一方案的優(yōu)勢十分明顯，按照17000tps的處理速度計算，單顆HC1芯片的處理能力堪比英偉達的8卡服務器，只要單芯片總成本不超過1萬美元，就具備極強的市場競爭力。

真正的問題在于迭代周期，即便兩個月的流片周期已經(jīng)大幅縮短，但當前AI模型的迭代基本以月為單位，兩個月的時間足夠競爭對手推出新一代模型，芯片剛量產(chǎn)就面臨落后的局面，這也是該方案最致命的短板。此外，將軟件時代迭代最快、最不穩(wěn)定的模型，綁定為硬件時代迭代最慢、最穩(wěn)定的對象，這種做法本質(zhì)上是犧牲了技術的抽象性，換取短期內(nèi)亮眼的性能數(shù)據(jù)，這也是行業(yè)對該方案的主要質(zhì)疑。

不過，Taalas為芯片設計了LoRa掛載能力，一定程度上能彌補模型無法迭代的短板；同時，該方案的本質(zhì)是一個經(jīng)濟學問題，隨著大模型技術的發(fā)展，其架構(gòu)和能力終將逼近極限，模型的更新周期也會逐步變長，當模型迭代速度慢于芯片的流片速度時，這一方案的經(jīng)濟價值便會凸顯。Taalas的賭點，正是大模型技術會進入發(fā)展停滯期，當技術成熟、模型無需頻繁更新底座時，其提前布局的專用芯片方案，便能成為業(yè)界領先的存在。

06

結(jié)語

把大模型刻進芯片，并非能顛覆AI硬件市場的普適性技術路線，在前沿AI研發(fā)領域，因模型的快速迭代，這一方案的局限性被無限放大，難以成為主流。但不可否認的是，Taalas的嘗試為AI芯片的發(fā)展提供了全新的視角，其犧牲通用性換取極致性能和能效的思路，切中了AI推理細分環(huán)節(jié)的市場需求，為存算合一、定制化硬件的設計方向提供了重要參考。

這一技術路線的未來，終究取決于AI模型的迭代速度與行業(yè)場景需求的平衡。當大模型技術進入穩(wěn)定期，那些對延遲、離線運行有極致要求的固定場景，終將成為大模型專用芯片的市場；而即便技術迭代始終保持高速，這一方案的創(chuàng)新思路，也會推動行業(yè)不斷探索更高效的AI硬件設計，讓AI硬件的發(fā)展朝著多元化、場景化的方向不斷前進。

原文標題 : 把大模型刻進芯片，可行嗎？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<sup id="rpe0u"><div id="rpe0u"><noscript id="rpe0u"></noscript></div></sup>

<style id="rpe0u"></style>