訂閱
糾錯
加入自媒體

Ilya Sutskever —— AI最偉大的“推動者”,也是其最深刻的“對峙者”

2025年11月26日,Safe Superintelligence (SSI) 創(chuàng)始人、前 OpenAI 首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever) 在接受知名科技播客主持人德瓦克什·帕特爾(Dwarkesh Patel )訪談節(jié)目中,又做出了震驚業(yè)界的預(yù)判:“那個(gè)單純依賴數(shù)據(jù)和算力堆疊的‘Scaling Law(2020-2025年)時(shí)代’已經(jīng)結(jié)束,我們正重新回歸到一個(gè)需要探索全新算法與數(shù)據(jù)配方的‘研究時(shí)代’。”

Ilya Sutskever(左)和Dwarkesh Patel (右)

并且,在2024年的NeurIPS 會議演講中,他就提出了類似的結(jié)論:預(yù)訓(xùn)練依賴于海量數(shù)據(jù),而互聯(lián)網(wǎng)數(shù)據(jù)存在上限,預(yù)訓(xùn)練時(shí)代終將結(jié)束。

預(yù)訓(xùn)練時(shí)代即將結(jié)束(2024年NeurIPS 會議演講PPT)

這一預(yù)判之所以極具分量,并引發(fā)業(yè)界廣泛深思和討論,是因?yàn)镮lya Sutskever 恰恰是在十幾年前就一直堅(jiān)信“Scaling Law”定律,并在后來親自在GPT-3模型上成功證明給世界看的那個(gè)男人。

甚至可以說,Ilya Sutskever已經(jīng)將“Scaling Law”變成了業(yè)界的一種思維范式,并被許多人奉為圭臬。然而,正是這位“Scaling Law”最有力的證明者,如今開始洞察到它的局限性并提出了新的思考。

然而,這一深刻的洞察和預(yù)判,并非Ilya Sutskever立場的動搖,實(shí)則是其思維特質(zhì)的必然體現(xiàn):他始終依循一套深刻的“自上而下”的信念體系來推演技術(shù)未來。

Ilya Sutskever信念體系的核心是追求對“智能本質(zhì)”的正確理解,而非盲從任何具體技術(shù)。他早期對Scaling Law的堅(jiān)信,源于他認(rèn)為“擴(kuò)大規(guī)模”是觸及智能本質(zhì)的正確方向。

當(dāng)Scaling Law發(fā)展到極致,他觀察到模型出現(xiàn)了無法用“擴(kuò)大規(guī)模”來解決的根本性矛盾:卓越的基準(zhǔn)測試表現(xiàn)與脆弱的真實(shí)世界泛化能力之間的巨大脫節(jié)。這背離了他對“真正智能”的理解。

此時(shí),Ilya Sutskever“自上而下”的思維特質(zhì)開始發(fā)揮作用。他不會為了維護(hù)舊有路徑而忽視根本矛盾,而是根據(jù)更高層級的信念(“何為真正的智能”)來重新評估當(dāng)前路徑。這促使他轉(zhuǎn)向?qū)で笮碌摹⒏咏悄鼙举|(zhì)的研究范式。故而,最近他又得出新結(jié)論:單純依賴擴(kuò)大規(guī)模的Scaling Law路徑正在觸及天花板,而與之結(jié)合的主流強(qiáng)化學(xué)習(xí)方法不僅算力消耗巨大,更在實(shí)現(xiàn)真正的智能泛化上存在本質(zhì)缺陷。

Ilya Sutskever被廣泛視為一位擁有罕見“研究者品位”的純粹科學(xué)家,兼具卓越的工程直覺與深刻的哲學(xué)思維方式。正如其導(dǎo)師杰弗里·辛頓(Geoffrey Hinton)所評價(jià),他擁有“驚人的原始直覺”,且從不輕信,總是致力于將新信息融入自身堅(jiān)實(shí)的世界觀框架中。

這種深刻的頂級贊譽(yù),不禁讓人對Ilya Sutskever 產(chǎn)生了濃厚興趣。接下來,我們將追溯他的成長與求索之路,以期更深入地理解這位始終能夠站在AI技術(shù)浪潮之巔,凝視著更遠(yuǎn)未來的思想者。

一、 學(xué)術(shù)深耕(2003-2013):叩開AI大門,拜師 "深度學(xué)習(xí)教父" 辛頓

Ilya Sutskever1986年12月出生于俄羅斯下諾夫哥羅德(原前蘇聯(lián)的高爾基市),5歲隨家人移民以色列,16歲遷居到加拿大,并在多倫多大學(xué)開啟求學(xué)之路。

他先后獲多倫多大學(xué)數(shù)學(xué)學(xué)士(2005 年)、計(jì)算機(jī)科學(xué)碩士(2007年)及博士學(xué)位(2013)。在多倫多大學(xué)的求學(xué)之路,為Ilya Sutskever未來在AI領(lǐng)域的深耕奠定了堅(jiān)實(shí)基石。

而這段學(xué)術(shù)生涯中,最具轉(zhuǎn)折意義的,是他與"深度學(xué)習(xí)之父" 杰弗里辛頓的相遇。據(jù)說,早在 2003 年,還是本科低年級學(xué)生的Ilya Sutskever,因?qū)ι窠?jīng)網(wǎng)絡(luò)的癡迷,鼓起勇氣主動敲響了辛頓辦公室的大門。這份純粹的求知欲與初生牛犢的勇氣,打動了這位學(xué)術(shù)泰斗,兩人自此開啟了深度合作的師徒情誼。

學(xué)生時(shí)期的Ilya Sutskever,其最具標(biāo)志性的成果莫過于點(diǎn)燃了深度學(xué)習(xí)革命的AlexNet。

2012年,仍在杰弗里·辛頓教授指導(dǎo)下攻讀博士學(xué)位的Ilya Sutskever與同門師兄弟Alex Krizhevsky(亞歷克斯·克里熱夫斯基)合作,在辛頓教授的整體指導(dǎo)下,共同開發(fā)了劃時(shí)代的深度卷積神經(jīng)網(wǎng)絡(luò)——AlexNet。

Alex Krizhevsky是網(wǎng)絡(luò)架構(gòu)的主要設(shè)計(jì)者與實(shí)現(xiàn)者。而Ilya Sutskever的核心貢獻(xiàn)在于工程實(shí)現(xiàn),他編寫了高度優(yōu)化的GPU代碼,并親自采購和搭建了由多塊GTX 580 GPU組成的計(jì)算系統(tǒng),為訓(xùn)練龐大的AlexNet提供了至關(guān)重要的算力基礎(chǔ)。

最終,AlexNet在2012年ImageNet圖像識別競賽中以壓倒性優(yōu)勢奪冠,其成績遠(yuǎn)超傳統(tǒng)方法。這一勝利被公認(rèn)為深度學(xué)習(xí)革命的起點(diǎn),徹底扭轉(zhuǎn)了學(xué)界對神經(jīng)網(wǎng)絡(luò)的懷疑態(tài)度,并開啟了人工智能的新時(shí)代。

二、谷歌時(shí)期(2013-2015):重塑NLP與機(jī)器學(xué)習(xí)基礎(chǔ)

2012年底,在AlexNet取得突破性成功之后,杰弗里·辛頓教授與他的兩位研究生Ilya Sutskever和Alex Krizhevsky共同創(chuàng)立了DNNResearch公司。成立之初,這家公司既無實(shí)際產(chǎn)品,也沒有生產(chǎn)計(jì)劃,其核心資產(chǎn)正是這三位深度學(xué)習(xí)先驅(qū)的頂尖才智與專有技術(shù)。

為最大化公司價(jià)值,杰弗里·辛頓為其創(chuàng)辦的公司開展了一場小型競價(jià)交易。該活動迅速吸引了當(dāng)時(shí)對AI前沿最為敏銳的四方力量:谷歌、微軟、百度,以及當(dāng)時(shí)尚未被谷歌收購的明星初創(chuàng)公司DeepMind。

最終,谷歌在2013年3月以約4400萬美元的價(jià)格勝出,完成了對DNNResearch的收購。此舉被廣泛視為一場經(jīng)典的“人才收購”。

通過此次收購,谷歌獲得了該團(tuán)隊(duì)在深度學(xué)習(xí)領(lǐng)域的專有技術(shù)。同時(shí),辛頓教授以顧問身份為谷歌提供指導(dǎo),而Ilya Sutskever和 Alex Krizhevsky則作為全職員工加入。其中,Ilya Sutskever被任命為谷歌大腦(Google Brain)團(tuán)隊(duì)的研究科學(xué)家。

在Google Brain期間,Ilya Sutskever分別主導(dǎo)和深度參與了兩項(xiàng)影響深遠(yuǎn)的重大項(xiàng)目:一項(xiàng)革新了自然語言處理的核心框架,另一項(xiàng)則為整個(gè)AI社區(qū)奠定了工程基礎(chǔ)。

1)Seq2Seq:突破序列建模的范式革命

在Seq2Seq出現(xiàn)之前,神經(jīng)網(wǎng)絡(luò)處理像翻譯這樣的任務(wù)非常棘手,因?yàn)槟P鸵筝斎牒洼敵霰仨毷枪潭ㄩL度。2014年,Ilya Sutskever與Oriol Vinyals(奧里奧爾·維尼亞爾斯)和Quoc Viet Le合作開發(fā)了序列對序列(Seq2Seq)學(xué)習(xí)算法。

該算法的核心創(chuàng)新在于其編碼器-解碼器架構(gòu):編碼器神經(jīng)網(wǎng)絡(luò)將任意長度的輸入序列壓縮成一個(gè)固定維度的上下文向量(語義摘要);解碼器則以該向量為初始狀態(tài),結(jié)合每一步已生成的內(nèi)容,自回歸地逐詞生成目標(biāo)序列,從而首次實(shí)現(xiàn)了端到端的變長序列轉(zhuǎn)換。

Seq2Seq擺脫了傳統(tǒng)方法對 “固定長度輸入/輸出” 的限制,并通過 “隱藏狀態(tài)” 傳遞輸入序列的語義信息,為后續(xù)神經(jīng)模型處理復(fù)雜序列任務(wù)提供了核心框架。

2)TensorFlow:奠定深度學(xué)習(xí)的工程范式

TensorFlow是Google Brain團(tuán)隊(duì)于2015年推出的開源機(jī)器學(xué)習(xí)框架。TensorFlow的推出,將強(qiáng)大的機(jī)器學(xué)習(xí)能力變成了易用的工具。它讓全球的研究者和工程師能更輕松地構(gòu)建、訓(xùn)練和部署包括Seq2Seq在內(nèi)的復(fù)雜模型,極大地加速了AI技術(shù)的民主化和工業(yè)化進(jìn)程。

Ilya Sutskever作為Google Brain的研究科學(xué)家,是該項(xiàng)目早期的深度參與者與重要貢獻(xiàn)者。比如,谷歌在2016年發(fā)表的關(guān)于TensorFlow的核心系統(tǒng)論文《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems》中,Ilya Sutskever就是核心作者之一。

三、OpenAI 時(shí)期(2015-2024):Open AI 背后的“真正大腦”

1. 聯(lián)合創(chuàng)立Open AI ,并擔(dān)任首席科學(xué)家

2015年底,Ilya Sutskever做出了一個(gè)令業(yè)界矚目的決定:放棄谷歌的高薪職位,與Elon Musk(埃隆·馬斯克)、Sam Altman(薩姆·奧爾特曼)、Greg Brockman(格雷格·布羅克曼)等人共同創(chuàng)立了OpenAI,并擔(dān)任首席科學(xué)家。

Ilya Sutskever離開谷歌、選擇共同創(chuàng)立OpenAI,是一個(gè)由清晰信念驅(qū)動的決定。他旨在建立 一個(gè)“技術(shù)不被壟斷” 的平臺,根本目標(biāo)是確保強(qiáng)大的人工智能能夠以安全、負(fù)責(zé)任的方式發(fā)展,最終造福全人類。

故而,OpenAI自創(chuàng)立之初便確立了 “非營利組織” 的根本性質(zhì),這正是Sutskever理念的制度化體現(xiàn):將對人類整體的責(zé)任置于商業(yè)利益之上。

然而,也正是這種對AI安全與公益的不可妥協(xié)的堅(jiān)持,與Sam Altman所代表的、更側(cè)重技術(shù)迭代與市場應(yīng)用的發(fā)展路徑之間,產(chǎn)生了必然的張力,成為他與Sam Altman日后公開分歧的深層根源。

2. 主導(dǎo)了GPT-1/2/3以及DALLE系列模型的研發(fā)

作為OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家,Ilya Sutskever是驅(qū)動GPT系列從概念變?yōu)楝F(xiàn)實(shí)的最高技術(shù)領(lǐng)導(dǎo)者與核心架構(gòu)決策者。在他的領(lǐng)導(dǎo)下,OpenAI完成了一系列標(biāo)志性的模型迭代:

GPT-1(2018年):是GPT系列乃至生成式預(yù)訓(xùn)練語言模型的奠基之作。它首創(chuàng)了 “無監(jiān)督預(yù)訓(xùn)練 + 有監(jiān)督任務(wù)微調(diào)” 的兩階段范式:首先在海量無標(biāo)注文本上通過預(yù)測下一個(gè)詞進(jìn)行預(yù)訓(xùn)練,掌握通用語言規(guī)律;然后針對不同的下游任務(wù)(如文本分類、問答等)使用少量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)。這一范式使單一模型在多項(xiàng)自然語言理解任務(wù)上取得了突破性進(jìn)展,為后續(xù)發(fā)展奠定了核心方法論基礎(chǔ)。

GPT-2(2019年):作為GPT-1的突破性迭代,其參數(shù)規(guī)模提升至15億(1.5B),并使用了更大的WebText數(shù)據(jù)集進(jìn)行訓(xùn)練。它首次通過大規(guī)模實(shí)驗(yàn)證明:僅通過“預(yù)測下一個(gè)詞”訓(xùn)練的語言模型,無需微調(diào)就能在零樣本下執(zhí)行翻譯、問答等多種任務(wù),從而確立了“語言模型即通用任務(wù)求解器”的新范式,為后續(xù)的規(guī)模擴(kuò)展研究奠定了基礎(chǔ)。

GPT-3(2020年):是大語言模型發(fā)展史上的一個(gè)里程碑。它在規(guī)模和性能上實(shí)現(xiàn)了質(zhì)的飛躍:擁有1750億個(gè)參數(shù),使用高達(dá)45TB的數(shù)據(jù)進(jìn)行訓(xùn)練。GPT-3的成功確立了Scaling Law的核心路徑,直接催生了“提示工程”的興起,并引發(fā)了業(yè)界對AI能力邊界及其社會影響的深刻思考。

DALL-E 1(2021):是一個(gè)由AI驅(qū)動的圖像生成模型。它并非GPT的衍生品,而是同樣基于Transformer核心思想,在架構(gòu)上進(jìn)行了關(guān)鍵創(chuàng)新,將文本和圖像統(tǒng)一表示為離散標(biāo)記,并使用一個(gè)自回歸Transformer模型對它們進(jìn)行聯(lián)合建模與生成,首次證明了神經(jīng)網(wǎng)絡(luò)能夠從純文本描述直接生成復(fù)雜且富有創(chuàng)意的圖像。

ChatGPT (2022):OpenAI推出的對話式人工智能系統(tǒng)。其核心技術(shù)是針對 GPT-3.5 模型進(jìn)行專門優(yōu)化,以實(shí)現(xiàn)與人類意圖和價(jià)值觀的“對齊”。它取得突破的關(guān)鍵在于引入了 “基于人類反饋的強(qiáng)化學(xué)習(xí)” 訓(xùn)練范式。該范式并非簡單的“微調(diào)”,而是一個(gè)包含三步驟的系統(tǒng)工程:1) 利用人類編寫的對話進(jìn)行有監(jiān)督微調(diào);2) 訓(xùn)練一個(gè)模擬人類偏好的獎勵模型;3) 通過近端策略優(yōu)化算法,以獎勵模型為引導(dǎo),大規(guī)模優(yōu)化語言模型。

GPT-4 (2023):OpenAI 發(fā)布的第四代大規(guī)模多模態(tài)預(yù)訓(xùn)練模型,標(biāo)志著大模型在推理能力與跨模態(tài)交互上的范式級躍遷。它是 GPT 系列中首個(gè)支持文本與圖像雙輸入、并輸出精準(zhǔn)文本的模型,具備深度跨模態(tài)推理能力 —— 既能解析圖表數(shù)據(jù)、識別圖像中的邏輯矛盾,也能理解漫畫的諷刺內(nèi)核與視覺幽默。同時(shí),其在專業(yè)學(xué)術(shù)基準(zhǔn)(如模擬律師考試躋身前 10%)、長文本處理(支持 2.5 萬字輸入)和多語言理解上取得了較大突破。

3. 領(lǐng)導(dǎo)“超級智能對齊”項(xiàng)目

2023年7月,OpenAI宣布成立“超級智能對齊”團(tuán)隊(duì),由Ilya Sutskever與Jan Leike共同領(lǐng)導(dǎo)。該項(xiàng)目設(shè)定了一個(gè)極其雄心勃勃的目標(biāo):在四年內(nèi)(2027年前),攻克如何確保比人類更聰明的超級人工智能系統(tǒng)與人類意圖保持一致的核心技術(shù)挑戰(zhàn)。

該項(xiàng)目團(tuán)隊(duì)認(rèn)為,目前依賴人類反饋的AI對齊技術(shù)(如RLHF)無法擴(kuò)展到監(jiān)督超級智能。為此,團(tuán)隊(duì)提出了一個(gè)關(guān)鍵的技術(shù)路徑:首先訓(xùn)練一個(gè)“人類水平的自動對齊研究器”,然后利用這個(gè)AI研究器,輔以大量計(jì)算資源,去解決更高級別的超級智能對齊問題。OpenAI為此承諾投入其總計(jì)算資源的20%。

在Ilya Sutskever的理念中,控制AI的潛在風(fēng)險(xiǎn)優(yōu)先于其發(fā)展速度。他擔(dān)心AI能力增長遠(yuǎn)超控制力,可能帶來不可預(yù)測的災(zāi)難性風(fēng)險(xiǎn)。這一安全至上的理念,與公司內(nèi)部追求快速產(chǎn)品迭代和商業(yè)化的壓力形成了根本性張力。

該項(xiàng)目的設(shè)立本身,即是對“在資本驅(qū)動下,長期安全研究可能被邊緣化”這一產(chǎn)業(yè)現(xiàn)實(shí)的前瞻性回應(yīng)。最終,這種理念上的沖突在2023年11月演變?yōu)楣_的董事會危機(jī)。

4. 逼宮CEO薩姆·奧爾特曼(Sam Altman)下臺

2023年11月,OpenAI爆發(fā)了震驚科技界的治理危機(jī),其核心是首席科學(xué)家Ilya Sutskever與CEO Sam Altman在AI發(fā)展路線上的根本分歧。

以 Ilya Sutskever 為代表的部分董事會成員堅(jiān)持,OpenAI 必須恪守非營利初心,將防范 AGI 的潛在風(fēng)險(xiǎn)、確保“通用人工智能造福全人類”作為首要使命,嚴(yán)防商業(yè)利益侵蝕核心目標(biāo);而 Sam Altman 一方則主張公司的當(dāng)務(wù)之急是加速產(chǎn)品化、尋求巨額融資并持續(xù)投入研發(fā),以在激烈的競爭中確保生存并維持技術(shù)領(lǐng)先地位。

2023年11月初,雙方的矛盾因一系列具體事件達(dá)到頂峰。Ilya Sutskever與當(dāng)時(shí)的首席技術(shù)官M(fèi)ira Murati (米拉·穆拉蒂) 秘密合作,整理了一份長達(dá)數(shù)十頁的PDF備忘錄,詳細(xì)列舉了Sam Altman在多方面(包括產(chǎn)品安全審批流程、內(nèi)部基金歸屬等事務(wù))對董事會“缺乏一貫坦誠”的證據(jù),并通過“閱后即焚”郵件發(fā)送給三位獨(dú)立董事。

在獨(dú)立董事的支持下,董事會于2023年11月17日(公開宣布日)突然行動,以“溝通不坦誠”為由,投票罷免了Sam Altman的CEO職務(wù),并解除了聯(lián)合創(chuàng)始人Greg Brockman(格雷格·布羅克曼) 的董事會主席職務(wù)。這一決定由Ilya Sutskever和三位獨(dú)立董事(共4票)做出,Sam Altman和Greg Brockman投了反對票(共2票)。

Sam Altman被罷免引發(fā)了公司內(nèi)外的海嘯。超過95%(超過700名)的OpenAI員工簽署聯(lián)名信,威脅董事會去請回Sam Altman,否則他們將集體加入微軟。以微軟為首的主要投資方也施加了巨大壓力。

面對公司即將分崩離析的局面,Mira Murati和整個(gè)高管團(tuán)隊(duì)迅速倒戈,站到了Sam Altman一邊。在巨大壓力下,Ilya Sutskever于11月20日在社交平臺公開表示“對自己參與董事會行動深感后悔”,并簽署了員工聯(lián)名信。

經(jīng)過數(shù)日激烈談判,Sam Altman于2023年11月21日成功回歸,條件是徹底重組董事會,除Adam D’Angelo外的所有原董事(包括其他獨(dú)立董事和Ilya Sutskever)均退出了董事會。

Sam Altman回歸后,董事會進(jìn)行重組

回歸后,Sam Altman鞏固了權(quán)力,組建了以商業(yè)領(lǐng)袖為主的新董事會,并加速了商業(yè)化進(jìn)程。而Ilya Sutskever雖然保留了“首席科學(xué)家”頭銜,但已被徹底邊緣化,最終于2024年5月正式從OpenAI離職。

四、SSI時(shí)期(2024 - 至今):AI安全的堅(jiān)定踐行者

Ilya Sutskever離開OpenAI后,并于2024 年 6 月與 Daniel Gross(蘋果前AI高管、Y-Combinator的合伙人)和 Daniel Levy (前OpenAI技術(shù)團(tuán)隊(duì)成員)共同創(chuàng)立公司Safe Superintelligence Inc(簡稱SSI)。

公司的使命非常純粹且唯一:直接開發(fā)安全的超級智能,并明確表示,公司不會受到產(chǎn)品周期或短期商業(yè)壓力的干擾。

SSI創(chuàng)立早期,公司采用高度聚焦的精英模式,團(tuán)隊(duì)僅有約10名員工,在加州帕洛阿爾托和以色列特拉維夫設(shè)有辦公室。

成立約3個(gè)月后,SSI于2024年9月初宣布完成10億美元的現(xiàn)金融資,估值超過50億美元。投資者包括紅杉資本、a16z、DST Global、SV Angel、NFDG等頂級風(fēng)投。到2025年4月,SSI在完成20億美元融資后,估值已飆升至320億美元。

然而,在2025年6月底,聯(lián)合創(chuàng)始人兼CEO Daniel Gross 被Meta挖走,離開了SSI。Ilya Sutskever隨即宣布親自接任CEO,并表示SSI拒絕了Meta的收購,將繼續(xù)專注于原有使命。

       原文標(biāo)題 : Ilya Sutskever —— AI最偉大的“推動者”,也是其最深刻的“對峙者”

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號