91青青青国产在观免费影视,亚洲久草视频,日韩美女福利动图视频网站在线观看

當前位置： OFweek 人工智能網(wǎng) > 機器學習 > 正文

機器人能否“說人話”？

2021-01-07 16:11

IT創(chuàng)事記

關(guān)注

往往在放下手機之后你才會意識到，電話那頭的客服其實是個機器人；或者準確地說，是“一位”智能客服。

沒錯，今天越來越多的工作正在被交給人工智能技術(shù)去完成，文本轉(zhuǎn)語音（TTS，Text To Speech）就是其中非常成熟的一部分。它的發(fā)展，決定了今天我們聽到的許多“人聲”，是如此地逼真，以至于和真人發(fā)聲無異。

除了我們接觸最多的智能客服，智能家居中的語音助手、可以服務(wù)聽障人士的無障礙播報，甚至是新聞播報和有聲朗讀等服務(wù)，事實上都基于TTS這項技術(shù)。它是人機對話的一部分——簡單地說，就是讓機器說人話。

它被稱為同時運用語言學和心理學的杰出之作。不過在今天，當我們稱贊它的杰出時，更多的是因為它在在線語音生成中表現(xiàn)出的高效。

要提升語音合成效率當然不是一件容易的事。這里的關(guān)鍵是如何讓神經(jīng)聲碼器高效地用于序列到序列聲學模型，來提高TTS質(zhì)量。

科學家已經(jīng)開發(fā)出了很多這樣的神經(jīng)網(wǎng)絡(luò)聲碼器，例如WaveNet、Parallel WaveNet、WaveRNN、LPCNet 和 Multiband WaveRNN等，它們各有千秋。

WaveNet聲碼器可以生成高保真音頻，但在計算上它那巨大的復(fù)雜性，限制了它在實時服務(wù)中的部署；

LPCNet聲碼器利用WaveRNN架構(gòu)中語音信號處理的線性預(yù)測特性，可在單個處理器內(nèi)核上生成超實時的高質(zhì)量語音；但可惜，這對在線語音生成任務(wù)而言仍不夠高效。

科學家們希望TTS能夠在和人的“交流”中，達到讓人無感的順暢——不僅是語調(diào)上的熱情、親切，或冷靜；更要“毫無”延遲。

新的突破出現(xiàn)在騰訊。騰訊 AI Lab（人工智能實驗室）和云小微目前已經(jīng)率先開發(fā)出了一款基于WaveRNN多頻帶線性預(yù)測的全新神經(jīng)聲碼器FeatherWave。經(jīng)過測試，這款高效高保真神經(jīng)聲碼器可以幫助用戶顯著提高語音合成效率。

英特爾的工程團隊也參與到了這項開發(fā)工作中。他們把面向第三代英特爾至強可擴展處理器所做的優(yōu)化進行了全面整合，并采用了英特爾深度學習加速技術(shù)（英特爾 DL Boost）中全新集成的 16 位 Brain Floating Point （bfloat16）功能。

bfloat16是一個精簡的數(shù)據(jù)格式，與如今的32位浮點數(shù)（FP32）相比，bfloat16只通過一半的比特數(shù)且僅需對軟件做出很小程度的修改，就可達到與FP32同等水平的模型精度；與半浮點精度（FP16）相比，它可為深度學習工作負載提供更大的動態(tài)范圍；與此同時，它無需使用校準數(shù)據(jù)進行量化／去量化操作，因此比 INT8 更方便。這些優(yōu)勢不僅讓它進一步提升了模型推理能力，還讓它能為模型訓練提供支持。

事實上，英特爾至強可擴展處理器本就是專為運行復(fù)雜的人工智能工作負載而設(shè)計的。借助英特爾深度學習加速技術(shù)，英特爾志強可擴展處理器將嵌入式 AI 性能提升至新的高度。目前，此種處理器現(xiàn)已支持英特爾高級矢量擴展 512 技術(shù)（英特爾AVX－512 技術(shù)）和矢量神經(jīng)網(wǎng)絡(luò)指令（VNNI）。

在騰訊推出的全新神經(jīng)聲碼器FeatherWave 聲碼器中，就應(yīng)用了這些優(yōu)化技術(shù)。