專屬客服號
微信訂閱號
全面提升數(shù)據(jù)價值
賦能業(yè)務提質(zhì)增效
語音識別技術最開始的研究范圍集中在小的詞匯方面,后來逐步向大的詞匯量發(fā)展,研究方向也轉變?yōu)榻⒙曇糇R別模型和經(jīng)過處理后的語言數(shù)據(jù)進行匹配。
語音識別的技術的實現(xiàn)方式
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面,其中,最基礎的就是語音識別單元的選取。
(1)語音識別單元的選取。語音識別研究的基礎是選擇語音識別單元。語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種語音識別單元由具體研究任務的類型決定:
單詞(句)單元在中小詞匯語音識別系統(tǒng)中應用廣泛,但由于模型庫過于龐大,模型匹配算法復雜,實時性不強,所以不適合大詞匯系統(tǒng);
音節(jié)單元主要應用于漢語語音識別,因為漢語是單音節(jié)結構的語言,雖然有大約1300個音節(jié),但無調(diào)音節(jié)共408個,相對較少,所以音節(jié)單元在中、大詞匯量的漢語語音識別系統(tǒng)上是可行的。
音素單元之前曾廣泛應用于英語語音識別,也越來越多的應用于中、大詞匯量漢語語音識別系統(tǒng)中。原因在于漢語音節(jié)僅由22個聲母和28個韻母構成,把聲母細化,雖然增加了模型數(shù)量,但是提高了易混淆音節(jié)的區(qū)分能力
(2)特征參數(shù)提取技術。特征提取就是對語音信號進行分析處理,把豐富的語音信息中的冗余信息去除,獲得對語音識別有用的信息。這是一個對語音信號進行信息壓縮的過程,目前經(jīng)常采用的特征參數(shù)提取技術是線性預測(LP)分析技術?;贚P技術提取的倒譜參數(shù)再加上Mel參數(shù)和基于感知線性預測(PLP)分析提取的感知線性預測倒譜對人耳處理聲音的模擬,進一步提高了語音識別系統(tǒng)的性能。
(3)模式匹配及模型訓練技術。早期的語音識別應用的模式匹配和模型訓練技術是動態(tài)時間歸正技術(DTW),它在孤立詞語音識別中獲得了良好性能,但是由于對大詞匯量以及連續(xù)語音識別的不準確,目前已經(jīng)被隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(ANN)所取代。
我國語音識別技術的發(fā)展
研究水平也從實驗室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計劃后,國家863智能計算機專家組為語音識別技術研究專門立項,每兩年滾動一次。我國語音識別技術的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術上還有自己的特點與優(yōu)勢,并達到國際先進水平。中科院自動化所、聲學所、清華大學、北京大學、哈爾濱工業(yè)大學、上海交通大學、中國科技大學、北京郵電大學、華中科技大學等科研機構都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學電子工程系語音技術與專用芯片設計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結果之一,其性能已經(jīng)接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川話兩種語言,達到實用要求。
中科院自動化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應用的“天語”中文語音系列產(chǎn)品——PattekASR,結束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。
2009年前后,大多主流的語音識別解碼器已經(jīng)采用基于有限狀態(tài)機(WFST)的解碼網(wǎng)絡,該解碼網(wǎng)絡可以把語言模型、詞典和聲學共享音字集統(tǒng)一集成為一個大的解碼網(wǎng)絡,提高了解碼的速度,為語音識別的實時應用提供了基礎。
隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機等移動終端的普及應用,可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規(guī)模語言模型和聲學模型成為可能。
在語音識別中,訓練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。
現(xiàn)如今,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。
語音識別技術當前發(fā)展問題
目前,語音識別技術基本成型,處于較為成熟的狀態(tài)。例如在語音識別的Switchboard任務方面,最新的IBM已經(jīng)能將錯誤率控制在5.5%之下,有經(jīng)驗的轉寫人員在這個任務中可以達到4%之下。因此,這類安靜環(huán)境下的語音識別系統(tǒng)已經(jīng)近似于人類水平。
目前的進展多處于應用層面。語音合成技術被應用在更多領域,而且從原始的機器聲音已經(jīng)進化到能夠發(fā)出自然人的聲音的程度,甚至現(xiàn)在出現(xiàn)各種明星聲音的語音助手。在語音識別方面,市面上已經(jīng)出現(xiàn)了針對方言口音的語音軟件。在語義理解方面,聊天機器人正處在迅速進化的過程中,甚至能夠講笑話。在語音喚醒方面,智能音箱等產(chǎn)品大量出現(xiàn)。雖然在這些應用中,許多產(chǎn)品并沒有達到高層智能的水平,但也給語音識別技術指明了方向。
實際上,語音識別技術在發(fā)音規(guī)范且背景噪音可控的環(huán)境下,在很多年前就能夠進入應用階段。不少尖端系統(tǒng)在工程水平很高的情況下還可以做的更好,如早期的Siri及DARPA項目語音識別評測中的各種參賽系統(tǒng)。
但在飛速進步的過程中,語音識別仍無法避免遇到某些瓶頸。
在強噪聲干擾的情況下,目前的語音識別系統(tǒng)還很難達到實用化要求。在自然發(fā)音、噪聲、口音等復雜條件下,語音識別的準確率明顯下降。此外,語音的訓練和測試用數(shù)據(jù)的匹配也并不十分契合。
想要解決環(huán)境復雜的問題,除了高超的技術之外,聲學模型自適應等也是不錯的方式。對于匹配問題則可以更加偏向研究方向,對語音本質(zhì)進行更為深入的理解。
例如在人類的聽覺系統(tǒng)中,存在一種“雞尾酒會效應”:人類在具有背景噪聲干擾的情況下,依然能夠?qū)⒆⒁饬性谀骋粋€人的談話上??梢詫⑷祟惵犛X系統(tǒng)的這種功能賦予語音識別系統(tǒng),但就目前的技術而言依然很難實現(xiàn)。
同時,遠場識別也依然是個充滿挑戰(zhàn)性的問題。當前,語音識別的遠場錯誤率是近場的兩倍左右。因此,解決遠場及強噪聲干擾情況下的語音識別是當前的一個有待進一步研究的問題。
對于這個問題,目前的主要解決方法是語音識別和麥克風陣列相結合。通過陣列信號處理技術,增強多通道語音技術,而后利用深度學習的方法進行聲學建模。當然,這種方案有待于進步和優(yōu)化,并且要考慮多方面的問題。如怎樣將陣列信號處理技術和深度學習方法相結合,利用陣列信號處理的相關知識指導深度神經(jīng)網(wǎng)絡的結構設計,以便直接從多通道語音信號中學習多通道語音增強方法,而后和后端聲學模型聯(lián)合優(yōu)化等。
另外,個體發(fā)音以及用詞習慣都存在差異性,所以如何使得語音識別更加智能化也是一個問題。
可以看到,語音識別已經(jīng)走到一個相對成熟的發(fā)展階段,未來也會在應用級市場普及,但在發(fā)展過程中仍然存在許多瓶頸。生物技術識別方式先進而便捷,但人們不免擔心其中所涉及到的隱私問題。
從當前環(huán)境來看,語音識別技術涉及到的使用范圍還不是很廣,但是隨著深度學習的研究推進,語言識別的技術能夠在發(fā)展之前,進一步提高識別的精確度。
本文由五度數(shù)科整理,轉載請標明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務
評論