123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

OpenAI再發(fā)大招推出Voice Engine！讓失語(yǔ)者發(fā)聲只需要15秒音頻...

2024-04-02 09:07

作者：小巖

編輯：彩云

許久沒(méi)有新動(dòng)作的OpenAI最近顯得頗為低調(diào)。但事實(shí)上，對(duì)于這些卷的不能再卷的AI頭部公司而言，沒(méi)有人是敢躺平的。大家不是在發(fā)布新品，就是在研發(fā)新品的路上。

3月30日，OpenAI宣布推出全新的人工智能模型——Voice Engine。這并非是一個(gè)全新的模型，事實(shí)上，自2022年開(kāi)始，OpenAI便默默布局，開(kāi)展了對(duì)于該模型的研發(fā)工作。

工作原理簡(jiǎn)單而高效！能夠駕馭合成聲音所帶來(lái)的挑戰(zhàn)和機(jī)遇。

對(duì)于這款最新發(fā)布的模型，OpenAI官方推特的措辭異常小心而謹(jǐn)慎，它表示，“我們正在分享從 Voice Engine模型的小規(guī)模預(yù)覽中獲得的經(jīng)驗(yàn)體會(huì)”。事實(shí)上，Voice Eengine所呈現(xiàn)出來(lái)的工作效率的確是簡(jiǎn)單而高效的。

圖片1.png

Voive Engine最大的特點(diǎn)在于語(yǔ)音克隆。其中的工作原理很簡(jiǎn)單：用戶僅需通過(guò)電話或電腦麥克風(fēng)錄制一段15秒的聲音片段，OpenAI的語(yǔ)音引擎便能生成“與其聲音高度相似的自然語(yǔ)音”。在此之后，無(wú)論是面對(duì)什么樣的文本，它都能以近乎完美的克隆聲音進(jìn)行朗讀。

這項(xiàng)技術(shù)的問(wèn)世，顯然會(huì)對(duì)那些經(jīng)常錄制自己語(yǔ)音的人，諸如播客，配音藝術(shù)家，口語(yǔ)表演者，有聲書和廣告解說(shuō)員，游戲玩家，流媒體主播，客戶服務(wù)代理，銷售人員等眾多職業(yè)產(chǎn)生重大影響。

除此之外，OpenAI還特別強(qiáng)調(diào)了語(yǔ)音引擎在支持非語(yǔ)言個(gè)體方面的獨(dú)特能力。它能為這些個(gè)體提供個(gè)性化的，非機(jī)械化的聲音，為那些有語(yǔ)言障礙或?qū)W習(xí)需求的人提供治療和教育方面的幫助。

圖片2.png

一旦技術(shù)得以成行，Voice Engine不僅能實(shí)現(xiàn)更真實(shí)的人聲復(fù)刻，更重要的是，它還能適用于各種場(chǎng)景的應(yīng)用，諸如為孩童朗讀故事，企業(yè)產(chǎn)品介紹，醫(yī)療咨詢服務(wù)，為語(yǔ)言障礙者提供幫助等。它不僅支持多種語(yǔ)言，更能模仿出不同的語(yǔ)調(diào)和情感，應(yīng)用不可謂不廣泛。

Voice Engine由來(lái)已久，相關(guān)應(yīng)用早已有之。

正如我們前文所提到的那樣，早在 2022 年底，OpenAI 便開(kāi)發(fā)了 Voice Engine 并將其用于支持文本到語(yǔ)音 API 中的預(yù)設(shè)語(yǔ)音以及 ChatGPT 語(yǔ)音和朗讀。所以，在展望Voice Engine未來(lái)可能產(chǎn)生的廣泛應(yīng)用場(chǎng)景之前，我們不妨看看它曾經(jīng)有過(guò)哪些實(shí)用案例。

首先，Voice Engine可以通過(guò)自然，富有感情的聲音為非閱讀者和兒童提供閱讀幫助。這些聲音不是呆板的預(yù)設(shè)聲音，它代表了更廣泛的說(shuō)話者。譬如一家名為Age of Learning 的教育技術(shù)公司就一直在使用 Voice Engine 生成預(yù)設(shè)的畫外音（voice-over）內(nèi)容。他們還利用 Voice Engine 和 GPT-4 創(chuàng)建實(shí)時(shí)且個(gè)性化的回應(yīng)，從而與學(xué)生進(jìn)行互動(dòng)。

圖片3.png

其次，Voice Engine可以翻譯視頻和播客等方面的內(nèi)容。通過(guò)使用Voice Engine，創(chuàng)作者和企業(yè)可以用自己的聲音流利地向世界各地更多的人進(jìn)行傳播。據(jù)悉，HeyGen便是這方面的早期應(yīng)用者之一。HeyGen是一個(gè)人工智能視覺(jué)故事平臺(tái)，通過(guò)使用 Voice Engine 進(jìn)行視頻翻譯，將演講者的聲音翻譯成多種語(yǔ)言，從而覆蓋全球受眾。值得一提的是，即便是翻譯，Voice Engine也會(huì)保留原說(shuō)話者的母語(yǔ)口音，譬如帶有法語(yǔ)口音的英語(yǔ)等。

圖片4.png

此外，Voice Engine可以為不會(huì)說(shuō)話的人群提供支持：為患有影響語(yǔ)言的疾病的人群提供治療應(yīng)用；為有學(xué)習(xí)需求的人群提供教育增強(qiáng)功能等。譬如它能夠?yàn)椴粫?huì)說(shuō)話的人群提供多種語(yǔ)言的獨(dú)特非機(jī)器人語(yǔ)音。用戶可以選擇最能代表自己的語(yǔ)音，對(duì)于多語(yǔ)種用戶，它也能使每種口語(yǔ)都保持一致的語(yǔ)音。

擔(dān)心合成技術(shù)可能會(huì)被濫用，暫時(shí)沒(méi)有完全公開(kāi)的計(jì)劃。

盡管語(yǔ)音生成式AI被認(rèn)為是OpenAI的又一次巨大突破，但很顯然，官方并不急于向外界完全公開(kāi)Voice Engine。究其原因，主要是因?yàn)楹铣烧Z(yǔ)音技術(shù)具有巨大的風(fēng)險(xiǎn)，很可能會(huì)被濫用。特別是最近一段時(shí)期，由合成語(yǔ)音引發(fā)的電信詐騙，版權(quán)侵害等社會(huì)風(fēng)險(xiǎn)問(wèn)題層出不窮，這些都是OpenAI做出“暫不公開(kāi)”選擇的重要原因。OpenAI也表示，在開(kāi)發(fā)的過(guò)程中，一直在與政府，媒體，教育等社會(huì)各界的美國(guó)和國(guó)際合作伙伴接觸，保證聽(tīng)取和采納反饋。特別當(dāng)下這處于美國(guó)大選時(shí)期，OpenAI又正與政府和外部企業(yè)合作，勢(shì)必會(huì)采取必要的安全措施和謹(jǐn)慎的態(tài)度。

無(wú)獨(dú)有偶，OpenAI于2月推出了視頻生成AI“Sora”也同樣未對(duì)外界公開(kāi)。面對(duì)生成式AI技術(shù)日益普及所引發(fā)的濫用風(fēng)險(xiǎn)，OpenAI對(duì)商用化明顯采取了較審慎的態(tài)度，以確保安全和負(fù)責(zé)任的使用。

圖片5.png

當(dāng)然，我們無(wú)法否認(rèn)，生成式AI的潛力是無(wú)窮的，終究要有落地應(yīng)用的一天。相較于始終保持“審慎開(kāi)放”，乃至“拒絕開(kāi)放”的態(tài)度，我們莫不如提前做好評(píng)估和防范。譬如要逐步淘汰基于語(yǔ)音的身份驗(yàn)證作為訪問(wèn)銀行賬戶和其他敏感信息的安全措施；教育公眾了解AI技術(shù)的能力和局限性,包括存在欺騙性AI內(nèi)容的可能性；加快開(kāi)發(fā)和采用追蹤視聽(tīng)內(nèi)容來(lái)源的技術(shù),以便隨時(shí)明確您是與真人還是與AI互動(dòng)等舉措，都是勢(shì)在必行的。無(wú)論OpenAI是否會(huì)廣泛部署這項(xiàng)技術(shù)，我們大家都要了解它的發(fā)展方向。

最后，我們?cè)賮?lái)討論一個(gè)問(wèn)題：在生成式AI領(lǐng)域，OpenAI是否依舊領(lǐng)跑？

從2022年便孵化出了Voice Engine這一點(diǎn)來(lái)看，OpenAI是早就開(kāi)始布局合成語(yǔ)音這一賽道了。從某種程度上說(shuō)，現(xiàn)在分享的最早期版本很可能只是在小秀肌肉，內(nèi)部應(yīng)該已經(jīng)完成了強(qiáng)力迭代。而且，根據(jù)The Information的獨(dú)家報(bào)道，微軟和OpenAI將合力打造一臺(tái)成本高達(dá)1000億美元，擁有數(shù)百萬(wàn)個(gè)GPU的超級(jí)計(jì)算機(jī)“Stargate （星門）”。它將為OpenAI的人工智能提供巨大的動(dòng)力和算力會(huì)，不夸張的說(shuō)，照比現(xiàn)在微軟給OpenAI的支持直接提升幾個(gè)量級(jí)。

此外，從OpenAI通篇官宣文來(lái)看，OpenAI不會(huì)在短期內(nèi)向公眾推出合成語(yǔ)音領(lǐng)域的更新了，畢竟這個(gè)賽道日趨敏感。這或許是出于重塑企業(yè)形象和公信力的需要。未來(lái)我們或許可以期待OpenAI將Sora和Voice Engine以怎樣的模式集成到下一代 GPT。一旦這樣的GPT得以成行，OpenAI在生成式領(lǐng)域的霸主地位將不可動(dòng)搖。

原文標(biāo)題 : 新火種AI|OpenAI再發(fā)大招推出Voice Engine！讓失語(yǔ)者發(fā)聲只需要15秒音頻...

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网