訂閱
糾錯(cuò)
加入自媒體

智能語音簡史:這場技術(shù)革命從哪開始?

1952年,貝爾實(shí)驗(yàn)室(Bell Labs)制造一臺6英尺高自動(dòng)數(shù)字識別機(jī)“Audrey”,它可以識別數(shù)字0~9的發(fā)音,且準(zhǔn)確度高達(dá)90%以上。并且它對熟人的精準(zhǔn)度高,而對陌生人則偏低。

1956年,普林斯頓大學(xué)RCA實(shí)驗(yàn)室開發(fā)了單音節(jié)詞識別系統(tǒng),能夠識別特定人的十個(gè)單音節(jié)詞中所包含的不同音節(jié)。

1959年,MIT的林肯實(shí)驗(yàn)室開發(fā)了針對十個(gè)元音的非特定人語音識別系統(tǒng)。

二十世紀(jì)六十年代初,東京無線電實(shí)驗(yàn)室、京都大學(xué)和NEC實(shí)驗(yàn)室在語音識別領(lǐng)域取得了開拓性的進(jìn)展,各自先后制作了能夠進(jìn)行語音識別的專用硬件。

1964年的世界博覽會上,IBM向世人展示了數(shù)字語音識別的“shoe box recognizer”。

二十世紀(jì)七十年代,語音識別的研究取得了突破性的進(jìn)展,研究重心仍然是孤立詞語語音識別。

1971年,美國國防部研究所(Darpa)贊助了五年期限的語音理解研究項(xiàng)目,希望將識別的單詞量提升到1000以上。參與該項(xiàng)目的公司和學(xué)術(shù)機(jī)構(gòu)包括IBM、卡內(nèi)基梅隆大學(xué)(CMU)、斯坦福研究院。就這樣,Harpy在CMU誕生了。不像之前的識別器,Harpy可以識別整句話。

二十世紀(jì)八十年代,NEC提出了二階動(dòng)態(tài)規(guī)劃算法,Bell實(shí)驗(yàn)室提出了分層構(gòu)造算法,以及幀同步分層構(gòu)造算法等。同時(shí),連接詞和大詞匯量連續(xù)語音的識別得到了較大發(fā)展,統(tǒng)計(jì)模型逐步取代模板匹配的方法,隱馬爾科夫模型(HMM)成為語音識別系統(tǒng)的基礎(chǔ)模型。

八十年代中期,IBM創(chuàng)造了一個(gè)語音控制的打字機(jī)—Tangora,能夠處理大約20000單詞。IBM的研究就是基于隱形馬爾科夫鏈模型(hidden Markov model),在信號處理技術(shù)中加入統(tǒng)計(jì)信息。這種方法使得在給定音素情況下,很有可能預(yù)測下一個(gè)因素。

1984年,IBM發(fā)布的語音識別系統(tǒng)在5000個(gè)詞匯量級上達(dá)到了95%的識別率。

1985年AT&T貝爾實(shí)驗(yàn)室建造了第一個(gè)智能麥克風(fēng)系統(tǒng),用來研究大室內(nèi)空間的聲源位置追蹤問題。

1987年開始,國家開始執(zhí)行963計(jì)劃后,國家863智能計(jì)算機(jī)主題專家組為語音識別研究立項(xiàng),每兩年一次。

1987年12月,李開復(fù)開發(fā)出世界上第一個(gè)“非特定人連續(xù)語音識別系統(tǒng)”。

1988年,卡耐基梅隆大學(xué)結(jié)合矢量量化技術(shù)(VQ),用VQ/HMM方法開發(fā)了世界上第一個(gè)非特定人大詞匯量連續(xù)語音識別系統(tǒng)SPHINX,能夠識別包括997個(gè)詞匯的4200個(gè)連續(xù)語句。

1  2  下一頁>  
聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號