国产亚洲成AV在线下载|亚洲精品视频在线|久久av免费这里有精品|大香线蕉视频观看国产

    <style id="akiq1"><progress id="akiq1"></progress></style><label id="akiq1"><menu id="akiq1"></menu></label>

          <source id="akiq1"></source><rt id="akiq1"></rt>

          語(yǔ)音識(shí)別技術(shù)模板(10篇)

          時(shí)間:2023-03-23 15:22:39

          導(dǎo)言:作為寫作愛(ài)好者,不可錯(cuò)過(guò)為您精心挑選的10篇語(yǔ)音識(shí)別技術(shù),它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

          語(yǔ)音識(shí)別技術(shù)

          篇1

          中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-3973 (2010) 03-062-02

          1應(yīng)用領(lǐng)域

          如今,一些語(yǔ)音識(shí)別的應(yīng)用已經(jīng)應(yīng)用到實(shí)際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語(yǔ)音撥號(hào)系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽(tīng)寫機(jī)、計(jì)算機(jī)控制、工業(yè)控制、語(yǔ)音通信系統(tǒng)等。預(yù)計(jì)在不遠(yuǎn)的將來(lái),語(yǔ)音識(shí)別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個(gè)領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語(yǔ)音識(shí)別聽(tīng)寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。

          2發(fā)展歷史

          語(yǔ)音識(shí)別的研究工作開(kāi)始于50年代,Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)―Audry系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。60年代,提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,極大地促進(jìn)了語(yǔ)音識(shí)別的發(fā)展。70年代,動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)解決了語(yǔ)音特征不等長(zhǎng)匹配問(wèn)題,對(duì)特定人孤立詞語(yǔ)音識(shí)別十分有效,在語(yǔ)音識(shí)別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

          80年代語(yǔ)音識(shí)別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)。人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,并以此確定了統(tǒng)計(jì)方法和模型在語(yǔ)音識(shí)別和語(yǔ)言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語(yǔ)音模型自身的特點(diǎn),高效、快捷的算法使得建立實(shí)時(shí)的連續(xù)語(yǔ)音識(shí)別系統(tǒng)成為可能。

          90年代,人們開(kāi)始進(jìn)一步研究語(yǔ)音識(shí)別與自然語(yǔ)言處理的結(jié)合,逐步發(fā)展到基于自然口語(yǔ)識(shí)別和理解的人機(jī)對(duì)話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開(kāi)始應(yīng)用于語(yǔ)音識(shí)別,它和HMM模型建立的語(yǔ)音識(shí)別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識(shí)別率及系統(tǒng)的魯棒性。小波分析也開(kāi)始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。

          現(xiàn)在語(yǔ)音識(shí)別系統(tǒng)已經(jīng)開(kāi)始從實(shí)驗(yàn)室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場(chǎng)的產(chǎn)品。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、Microsoft、AT&T等著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開(kāi)發(fā)研究投以巨資。

          3研究的熱點(diǎn)與難點(diǎn)

          目前語(yǔ)音識(shí)別領(lǐng)域的研究熱點(diǎn)包括:穩(wěn)健語(yǔ)音識(shí)別(識(shí)別的魯棒性)、語(yǔ)音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說(shuō)話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別、高效的識(shí)別(搜索)算法研究 、可信度評(píng)測(cè)算法研究、ANN的應(yīng)用、語(yǔ)言模型及深層次的自然語(yǔ)言理解。

          目前研究的難點(diǎn)主要表現(xiàn)在:(1)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語(yǔ)音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語(yǔ)速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號(hào)分析處理方法。(3)如何把語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面知識(shí)量化、建模并有效用于語(yǔ)音識(shí)別,目前也是一個(gè)難點(diǎn)。(4)由于我們對(duì)人類的聽(tīng)覺(jué)理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識(shí)還很不清楚,這必將阻礙語(yǔ)音識(shí)別的進(jìn)一步發(fā)展。

          4語(yǔ)音識(shí)別系統(tǒng)

          一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)如圖所示:

          輸入的語(yǔ)言信號(hào)首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過(guò)程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點(diǎn)檢測(cè)等。我們稱之為對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。

          語(yǔ)音信號(hào)的特征參數(shù)主要有:短時(shí)能量En,反映語(yǔ)音振幅或能量隨著時(shí)間緩慢變化的規(guī)律;短時(shí)平均過(guò)零率Zn,對(duì)于離散信號(hào)來(lái)講,簡(jiǎn)單的說(shuō)就是樣本改變符號(hào)的次數(shù),可以粗略分辨清音和濁音;短時(shí)自相關(guān)函數(shù);經(jīng)過(guò)FFT或LPC運(yùn)算得到的功率譜,再經(jīng)過(guò)對(duì)數(shù)運(yùn)算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽(tīng)覺(jué)特性變換的美爾(MEL);線性預(yù)測(cè)系數(shù)等。通常識(shí)別參數(shù)可選擇上面的某一種或幾種的組合。

          語(yǔ)音識(shí)別是語(yǔ)音識(shí)別系統(tǒng)最核心的部分。包括語(yǔ)音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識(shí)別算法)以及相應(yīng)的語(yǔ)言模型與語(yǔ)言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語(yǔ)音特征參數(shù)表征的大量已知模式中通過(guò)學(xué)習(xí)算法來(lái)獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識(shí)別(模式匹配)時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配以得到最佳的識(shí)別結(jié)果。語(yǔ)言模型一般指在匹配搜索時(shí)用于字詞和路徑約束的語(yǔ)言規(guī)則,它包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理則可以進(jìn)行語(yǔ)法、語(yǔ)義分析。

          聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識(shí)別模型包括動(dòng)態(tài)時(shí)間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。

          DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個(gè)單詞作為識(shí)別單元,在訓(xùn)練階段將詞匯表中每個(gè)詞的特征矢量序列作為模板存入模板庫(kù),在識(shí)別階段將待識(shí)別語(yǔ)音的特征矢量序列依次與庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。DTW應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在小詞匯量、孤立詞語(yǔ)音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已逐漸被HMM和ANN模型替代。

          HMM模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程(可觀測(cè)的)。HMM很好的模擬了人得語(yǔ)言過(guò)程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個(gè)狀態(tài)可以觀察到的符號(hào)數(shù)M(符號(hào)集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù),包括觀察符號(hào)的概率分布B和初始狀態(tài)概率分布 ,因此一個(gè)HMM模型可以由{N,M,A,B, }來(lái)確定,對(duì)詞匯表中的每一個(gè)詞都要建立相應(yīng)的HMM模型。

          模型參數(shù)得到后可以用Viterbi算法來(lái)確定與觀察序列對(duì)應(yīng)的最佳的狀態(tài)序列。建好模型后,在識(shí)別階段就是要計(jì)算每個(gè)模型產(chǎn)生觀察符號(hào)序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識(shí)別結(jié)果。這個(gè)過(guò)程計(jì)算量很大,有人提出了前向-后向算法,大大減少了計(jì)算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。

          ANN在語(yǔ)音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),是由結(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動(dòng)的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識(shí)不清楚,推理規(guī)則不明確的問(wèn)題,允許樣品有較大的缺損、畸變,因此對(duì)于噪聲環(huán)境下非特定人的語(yǔ)音識(shí)別問(wèn)題來(lái)說(shuō)是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識(shí)別效果。

          將ANN與HMM結(jié)合分別利用各自優(yōu)點(diǎn)進(jìn)行識(shí)別將是今后的一條研究途徑。二者結(jié)合的混合語(yǔ)音識(shí)別方法的研究開(kāi)始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計(jì)算和學(xué)習(xí)概率參數(shù)。

          語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料庫(kù)中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

          5總結(jié)

          盡管語(yǔ)音識(shí)別技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,而語(yǔ)音識(shí)別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語(yǔ)音學(xué)到語(yǔ)言學(xué)的知識(shí)為基礎(chǔ)、以信息論、模式識(shí)別數(shù)理統(tǒng)計(jì)和人工智能為主要實(shí)現(xiàn)手段的語(yǔ)音處理機(jī)制,把整個(gè)語(yǔ)音識(shí)別過(guò)程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。

          參考文獻(xiàn):

          [1]易克初,田斌.付強(qiáng).語(yǔ)音信號(hào)處理[M].國(guó)防工業(yè)出版社,2000.

          [2]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.

          篇2

          語(yǔ)音識(shí)別是一門交叉學(xué)科。語(yǔ)音識(shí)別研究經(jīng)歷了50多年的研究歷程,經(jīng)過(guò)50多年的積累研究,獲得了巨大的進(jìn)展。特別是近20年來(lái),語(yǔ)音識(shí)別技術(shù)取得了顯著的進(jìn)步,并逐步的走向市場(chǎng)。在未來(lái)的日子里,語(yǔ)音識(shí)別技術(shù)將應(yīng)用更為廣泛。

          一、語(yǔ)音識(shí)別技術(shù)概述

          語(yǔ)音識(shí)別是解決機(jī)器“聽(tīng)懂”人類語(yǔ)言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。以語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語(yǔ)音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。

          廣泛意義上的語(yǔ)音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說(shuō)話人識(shí)別、關(guān)鍵詞檢出、語(yǔ)言辨識(shí)和語(yǔ)音識(shí)別。說(shuō)話人識(shí)別技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子,例如對(duì)一些特殊人名、地名的電話監(jiān)聽(tīng)等。語(yǔ)言辨識(shí)技術(shù)是通過(guò)分析處理一個(gè)語(yǔ)音片斷以判別其所屬語(yǔ)言種類的技術(shù),本質(zhì)上也是語(yǔ)音識(shí)別技術(shù)的一個(gè)方面。語(yǔ)音識(shí)別就是通常人們所說(shuō)的以說(shuō)話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向,也是本文討論的主要內(nèi)容。

          二、語(yǔ)音識(shí)別的研究歷史

          語(yǔ)音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開(kāi)發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。

          1959年,Rorgie和Forge采用數(shù)字計(jì)算機(jī)識(shí)別英文元音和孤立詞,從此開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。

          60年代,蘇聯(lián)的Matin等提出了語(yǔ)音結(jié)束點(diǎn)的端點(diǎn)檢測(cè),使語(yǔ)音識(shí)別水平明顯上升;Vintsyuk提出了動(dòng)態(tài)編程,這一提法在以后的識(shí)別中不可或缺。60年代末、70年代初的重要成果是提出了信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效地解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)語(yǔ)音匹配問(wèn)題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

          80年代語(yǔ)音識(shí)別研究進(jìn)一步走向深入:HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中成功應(yīng)用。1988年,F(xiàn)ULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)。

          進(jìn)入90年代后,語(yǔ)音識(shí)別技術(shù)進(jìn)一步成熟,并開(kāi)始向市場(chǎng)提品。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、AT&;T、Microsoft等公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開(kāi)發(fā)研究投以巨資。同時(shí)漢語(yǔ)語(yǔ)音識(shí)別也越來(lái)越受到重視。IBM開(kāi)發(fā)的ViaVoice和Microsoft開(kāi)發(fā)的中文識(shí)別引擎都具有了相當(dāng)高的漢語(yǔ)語(yǔ)音識(shí)別水平。

          進(jìn)入21世紀(jì),隨著消費(fèi)類電子產(chǎn)品的普及,嵌入式語(yǔ)音處理技術(shù)發(fā)展迅速[2]?;谡Z(yǔ)音識(shí)別芯片的嵌入式產(chǎn)品也越來(lái)越多,如Sensory公司的RSC系列語(yǔ)音識(shí)別芯片、Infineon公司的Unispeech和Unilite語(yǔ)音芯片等,這些芯片在嵌入式硬件開(kāi)發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語(yǔ)音識(shí)別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開(kāi)源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。

          三、語(yǔ)音識(shí)別技術(shù)的發(fā)展現(xiàn)狀

          語(yǔ)音識(shí)別技術(shù)通過(guò)全球科學(xué)家的共同努力,經(jīng)歷半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說(shuō)話的寬帶語(yǔ)音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。正式有了如此高的識(shí)別率之后,語(yǔ)音識(shí)別技術(shù)慢慢地從實(shí)驗(yàn)室演示系統(tǒng)逐步走向?qū)嵱没唐?。以IBM Via Voice和Dragon Dictation為代表的兩個(gè)聽(tīng)寫機(jī)系統(tǒng)的出現(xiàn),使“語(yǔ)音識(shí)別”逐步進(jìn)入大眾視線,引起了廣泛的社會(huì)關(guān)注。

          由于校對(duì)和更正識(shí)別的錯(cuò)誤很麻煩和浪費(fèi)時(shí)間,這樣便降低語(yǔ)音識(shí)別的優(yōu)勢(shì)。同時(shí),由于使用的環(huán)境或講話口音習(xí)慣等因素的影響,語(yǔ)音識(shí)別的內(nèi)容大大降低,識(shí)別的內(nèi)容不能達(dá)到100%的正確,所以很多人認(rèn)為目前的語(yǔ)音識(shí)別系統(tǒng)還無(wú)法滿足實(shí)用要求。

          目前,AT&T和MIT等將語(yǔ)音識(shí)別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動(dòng)轉(zhuǎn)接、電話查詢、數(shù)字串識(shí)別的任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所存儲(chǔ)的內(nèi)容存在的,且使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時(shí),語(yǔ)音識(shí)別的正確識(shí)別率可以接近100%。但是,在實(shí)際使用中如果這些條件被破壞,則會(huì)對(duì)識(shí)別系統(tǒng)造成一定的影響。

          我國(guó)的語(yǔ)音識(shí)別研究一直緊跟國(guó)際水平,國(guó)家也很重視。國(guó)內(nèi)中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語(yǔ)音識(shí)別領(lǐng)域的研究和開(kāi)發(fā)。國(guó)家863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門立項(xiàng),并取得了高水平的科研成果。我國(guó)中科院自動(dòng)化所研制的非特定人、連續(xù)語(yǔ)音聽(tīng)寫系統(tǒng)和漢語(yǔ)語(yǔ)音人機(jī)對(duì)話系統(tǒng),其準(zhǔn)確率和系統(tǒng)響應(yīng)率均可達(dá)90%以上。

          四、語(yǔ)音識(shí)別技術(shù)發(fā)展趨勢(shì)

          語(yǔ)音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語(yǔ)音處理技術(shù)的發(fā)展,語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語(yǔ)音的自動(dòng)理解和翻譯,可消除人類相互交往的語(yǔ)言障礙。國(guó)外已有多種基于語(yǔ)音識(shí)別產(chǎn)品的應(yīng)用,如聲控?fù)芴?hào)電話、語(yǔ)音記事本等,基于特定任務(wù)和環(huán)境的聽(tīng)寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。這預(yù)示著語(yǔ)音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。隨著語(yǔ)音技術(shù)的進(jìn)步和通信技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別技術(shù)將為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來(lái)極大的便利,其應(yīng)用和經(jīng)濟(jì)、社會(huì)效益前景非常良好.

          雖然語(yǔ)音識(shí)別在過(guò)去的20年里有了很大的發(fā)展,但是,仍然存在很多的不足,有待于進(jìn)一步的探索,具體可分為以下幾個(gè)方面:

          1.提高可靠性。語(yǔ)音識(shí)別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在比較嘈雜的公共環(huán)境中,人的意識(shí)會(huì)有意識(shí)的排除非需要的聲學(xué)環(huán)境因素,這對(duì)語(yǔ)音識(shí)別系統(tǒng)而言,是很難做到的。另外,在日常生活中,人類的語(yǔ)言常常具有較大的不確定性,比較隨意,并帶有明顯的言語(yǔ)習(xí)慣。這同樣會(huì)給語(yǔ)音識(shí)別系統(tǒng)很大的識(shí)別麻煩。目前,在提高語(yǔ)音系統(tǒng)在不同環(huán)境中的可靠性,同時(shí)要應(yīng)用現(xiàn)代技術(shù)讓語(yǔ)音識(shí)別系統(tǒng)更加智能化,掌握人們語(yǔ)言隨意性的部分規(guī)律,以達(dá)到最佳的識(shí)別效果。

          2.增加詞匯量。系統(tǒng)可以識(shí)別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個(gè)重要度量。一個(gè)語(yǔ)音識(shí)別系統(tǒng)使用的聲學(xué)模型和語(yǔ)音模型如果太過(guò)于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍時(shí),則語(yǔ)音識(shí)別系統(tǒng)不能準(zhǔn)確的識(shí)別出相應(yīng)的內(nèi)容,比如,當(dāng)突然從中文轉(zhuǎn)為英文、法文、俄文時(shí),計(jì)算機(jī)就會(huì)常常輸出混亂奇怪的結(jié)果。但是,隨著系統(tǒng)建模方法的不斷改進(jìn)、搜索算法效率的提高以及硬件資源的發(fā)展,未來(lái)的語(yǔ)音識(shí)別系統(tǒng)可能會(huì)做到詞匯量無(wú)限制和多種語(yǔ)言混合,這樣用戶在使用的時(shí)候可以不必在語(yǔ)種之間來(lái)回切換,這樣就能大大減少詞匯量的對(duì)語(yǔ)音識(shí)別系統(tǒng)的限制。

          篇3

          中圖分類號(hào):TP391.42 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599?。?012) 19-0000-02

          近年來(lái),隨著科學(xué)技術(shù)的進(jìn)步,語(yǔ)音識(shí)別技術(shù)的發(fā)展,通過(guò)語(yǔ)言操縱機(jī)器的夢(mèng)想正在逐步變?yōu)楝F(xiàn)實(shí)。語(yǔ)音識(shí)別是語(yǔ)音信號(hào)處理的一個(gè)重要的研究方向,經(jīng)過(guò)50多年的積累研究,尤其是近20年來(lái),語(yǔ)音識(shí)別技術(shù)取得了顯著進(jìn)步,并且廣泛應(yīng)用于商業(yè),比如蘋果的siri系統(tǒng)。本文從語(yǔ)音識(shí)別的發(fā)展歷史、發(fā)展方向來(lái)著重分析未來(lái)語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)。

          1 語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史

          1.1 語(yǔ)音識(shí)別技術(shù)在國(guó)際的發(fā)展

          早在三四十年前,美國(guó)的一些大學(xué)和實(shí)驗(yàn)室就開(kāi)始了語(yǔ)音識(shí)別技術(shù)的研究,50年代的AT& T Bell實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng)第一個(gè)實(shí)現(xiàn)了可識(shí)別十個(gè)英文數(shù)字。60和70年代,提出了線性預(yù)測(cè)分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實(shí)現(xiàn)特定人孤立語(yǔ)音識(shí)別系統(tǒng);80年代和90年代是語(yǔ)音識(shí)別技術(shù)應(yīng)用研究方向的,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語(yǔ)音識(shí)別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時(shí)代的來(lái)臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語(yǔ)音識(shí)別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query?。娫捳Z(yǔ)音識(shí)別)引擎等。

          1.2 語(yǔ)音識(shí)別技術(shù)在國(guó)內(nèi)的發(fā)展

          我國(guó)的語(yǔ)音識(shí)別研究工作雖然起步較晚,但由于國(guó)家的重視,研究工作進(jìn)展順利,相關(guān)研究緊跟國(guó)際水平。由于中國(guó)有不可忽視的龐大市場(chǎng),國(guó)外對(duì)中國(guó)的語(yǔ)音識(shí)別技術(shù)也非常重視,漢語(yǔ)語(yǔ)音語(yǔ)義的特殊性也使得中文語(yǔ)音識(shí)別技術(shù)的研究更具有挑戰(zhàn)。但是,國(guó)內(nèi)研究機(jī)構(gòu)在進(jìn)行理論研究的同時(shí),應(yīng)注重語(yǔ)音識(shí)別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。

          現(xiàn)如今,許多用戶已經(jīng)能享受到語(yǔ)音識(shí)別技術(shù)帶來(lái)的方便,比如智能手機(jī)的語(yǔ)音操作等。但是,這與實(shí)現(xiàn)真正的人機(jī)交流還有相當(dāng)遙遠(yuǎn)的距離。目前,計(jì)算機(jī)對(duì)用戶語(yǔ)音的識(shí)別程度不高,人機(jī)交互上還存在一定的問(wèn)題,語(yǔ)音識(shí)別技術(shù)還有很長(zhǎng)的一段路要走,必須取得突破性的進(jìn)展,才能做到更好的商業(yè)應(yīng)用,這也是未來(lái)語(yǔ)音識(shí)別技術(shù)的發(fā)展方向。

          2 語(yǔ)音識(shí)別技術(shù)的技術(shù)實(shí)現(xiàn)及困難

          語(yǔ)音識(shí)別技術(shù)的實(shí)現(xiàn)方式是聲音通過(guò)轉(zhuǎn)換裝置進(jìn)入機(jī)器,而機(jī)器配有“語(yǔ)音辨識(shí)”程序,程序?qū)⒌玫降穆曇魳颖九c數(shù)據(jù)庫(kù)存儲(chǔ)的樣本進(jìn)行比對(duì),輸出最匹配的結(jié)果,轉(zhuǎn)化為機(jī)器語(yǔ)言,進(jìn)而執(zhí)行命令。真正建立辨識(shí)率高的語(yǔ)音辨識(shí)程序組,是非常困難而專業(yè)的,專家學(xué)者們研究出許多破解這個(gè)問(wèn)題的方法,如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等,使目前的語(yǔ)音辨識(shí)系統(tǒng)已達(dá)到一個(gè)可接受的程度,并具有較高辨識(shí)度。

          2.1 語(yǔ)音識(shí)別的技術(shù)實(shí)現(xiàn)方式

          語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面,其中,最基礎(chǔ)的就是語(yǔ)音識(shí)別單元的選取。

          (1)語(yǔ)音識(shí)別單元的選取。語(yǔ)音識(shí)別研究的基礎(chǔ)是選擇語(yǔ)音識(shí)別單元。語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種語(yǔ)音識(shí)別單元由具體研究任務(wù)的類型決定:

          單詞(句)單元在中小詞匯語(yǔ)音識(shí)別系統(tǒng)中應(yīng)用廣泛,但由于模型庫(kù)過(guò)于龐大,模型匹配算法復(fù)雜,實(shí)時(shí)性不強(qiáng),所以不適合大詞匯系統(tǒng);

          音節(jié)單元主要應(yīng)用于漢語(yǔ)語(yǔ)音識(shí)別,因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,雖然有大約1300個(gè)音節(jié),但無(wú)調(diào)音節(jié)共408個(gè),相對(duì)較少,所以音節(jié)單元在中、大詞匯量的漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)上是可行的。

          音素單元之前曾廣泛應(yīng)用于英語(yǔ)語(yǔ)音識(shí)別,也越來(lái)越多的應(yīng)用于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)中。原因在于漢語(yǔ)音節(jié)僅由22個(gè)聲母和28個(gè)韻母構(gòu)成,把聲母細(xì)化,雖然增加了模型數(shù)量,但是提高了易混淆音節(jié)的區(qū)分能力

          (2)特征參數(shù)提取技術(shù)。特征提取就是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,把豐富的語(yǔ)音信息中的冗余信息去除,獲得對(duì)語(yǔ)音識(shí)別有用的信息。這是一個(gè)對(duì)語(yǔ)音信號(hào)進(jìn)行信息壓縮的過(guò)程,目前經(jīng)常采用的特征參數(shù)提取技術(shù)是線性預(yù)測(cè)(LP)分析技術(shù)?;贚P技術(shù)提取的倒譜參數(shù)再加上Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜對(duì)人耳處理聲音的模擬,進(jìn)一步提高了語(yǔ)音識(shí)別系統(tǒng)的性能。

          (3)模式匹配及模型訓(xùn)練技術(shù)。早期的語(yǔ)音識(shí)別應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)是動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW),它在孤立詞語(yǔ)音識(shí)別中獲得了良好性能,但是由于對(duì)大詞匯量以及連續(xù)語(yǔ)音識(shí)別的不準(zhǔn)確,目前已經(jīng)被隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)所取代。

          2.2 語(yǔ)音識(shí)別遇到的困難

          目前,語(yǔ)音識(shí)別研究工作進(jìn)展緩慢,困難具體表現(xiàn)在:

          (一)語(yǔ)音識(shí)別系統(tǒng)對(duì)環(huán)境敏感,采集到的語(yǔ)音訓(xùn)練系統(tǒng)只能應(yīng)用于與之對(duì)應(yīng)的環(huán)境,而且當(dāng)用戶輸入錯(cuò)誤時(shí)不能正確響應(yīng),應(yīng)用起來(lái)相對(duì)困難;(二)必須采取新的新號(hào)處理方法來(lái)處理人在高噪聲環(huán)境下的發(fā)音變化的問(wèn)題;(三)語(yǔ)言模型、語(yǔ)法及詞法模型在中、大詞匯量連續(xù)語(yǔ)音識(shí)別中無(wú)法正確、合理的運(yùn)用,需要有效地利用語(yǔ)言學(xué)、心理學(xué)及生理學(xué)等方面的研究成果;現(xiàn)階段的科學(xué)技術(shù)對(duì)人類生理學(xué)諸如聽(tīng)覺(jué)系統(tǒng)分析理解功能、大腦神經(jīng)系統(tǒng)的控制功能等還不夠,更無(wú)法應(yīng)用于語(yǔ)音識(shí)別;語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)向商品的轉(zhuǎn)化過(guò)程中還有許多具體細(xì)節(jié)技術(shù)問(wèn)題需要解決。

          3 語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)

          3.1 進(jìn)一步提高可靠性

          目前語(yǔ)音識(shí)別系統(tǒng)很難做到排除各種聲學(xué)環(huán)境因素的影響,而人類語(yǔ)言在日常生活中的隨意性和不確定性給語(yǔ)音識(shí)別系統(tǒng)造成極大的識(shí)別困難。所以,要應(yīng)用現(xiàn)代技術(shù)智能化語(yǔ)音識(shí)別系統(tǒng),以達(dá)到更好的識(shí)別效果;

          3.2 增加詞匯量

          目前語(yǔ)音識(shí)別系統(tǒng)使用的聲學(xué)模型和語(yǔ)音模型過(guò)于局限,需要通過(guò)改進(jìn)系統(tǒng)建模方法、提高搜索算法的效率來(lái)做到詞匯量無(wú)限制和多重語(yǔ)言混合,減少詞匯量對(duì)語(yǔ)音識(shí)別系統(tǒng)的限制;

          3.3 微型化并降低成本

          語(yǔ)音識(shí)別系統(tǒng)在商業(yè)上的用途相當(dāng)廣泛,利用先進(jìn)的微電子技術(shù),將具有先進(jìn)功能和性能的語(yǔ)音識(shí)別應(yīng)用系統(tǒng)固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語(yǔ)音識(shí)別系統(tǒng)和微電子芯片技術(shù)的發(fā)展將引領(lǐng)信息技術(shù)革命到一個(gè)新的臺(tái)階。語(yǔ)音識(shí)別系統(tǒng)使人溝通更加自由,使人可以方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)。這必然會(huì)成為語(yǔ)音識(shí)別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢(shì)。

          4 結(jié)束語(yǔ)

          21世紀(jì),信息和網(wǎng)絡(luò)飛速發(fā)展,信息和網(wǎng)絡(luò)的時(shí)代已經(jīng)來(lái)臨,人與人之間的距離隨著Internet和移動(dòng)電話網(wǎng)的連接和普及變得越來(lái)越近,信息資源擴(kuò)散的越來(lái)越迅速,人與機(jī)器的交互顯得尤為重要。語(yǔ)音識(shí)別技術(shù)的研究和應(yīng)用可以讓人無(wú)論何時(shí)何地都可以通過(guò)語(yǔ)音交互的方式實(shí)現(xiàn)任何事,可以使人更方便的享受更多的社會(huì)信息資源和現(xiàn)代化服務(wù),所以,如何將這一技術(shù)可靠的、低成本的應(yīng)用于商業(yè)和日常生活,是語(yǔ)音識(shí)別技術(shù)的發(fā)展方向和趨勢(shì)。

          參考文獻(xiàn):

          [1]劉鈺.語(yǔ)音識(shí)別技術(shù)概述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2010:14-17.

          [2]盛青.語(yǔ)音自動(dòng)識(shí)別技術(shù)及其軟件實(shí)時(shí)實(shí)現(xiàn)[J].西北工業(yè)大學(xué),2001:45-47.

          [3]廖锎.淺析語(yǔ)音識(shí)別技術(shù)的發(fā)展及趨勢(shì)[J].科技傳播,2010:34-36.

          篇4

          語(yǔ)音芯片的應(yīng)用

          近年來(lái)語(yǔ)音芯片應(yīng)用越來(lái)越廣泛,主要包括:

          1.電話通信中的語(yǔ)音撥號(hào)。特別是在中、高檔移動(dòng)電話上,現(xiàn)已普遍具有語(yǔ)音撥號(hào)的功能。隨著語(yǔ)音識(shí)別芯片的價(jià)格降低,普通電話上也將具備語(yǔ)音撥號(hào)的功能。

          2. 汽車的語(yǔ)音控制。由于在汽車的行駛過(guò)程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語(yǔ)音撥號(hào)功能的免提電話通信方式。此外,對(duì)汽車的門、窗、空調(diào)、照明以及音響等設(shè)備,同樣也可以由語(yǔ)音來(lái)方便地進(jìn)行控制。

          3. 工業(yè)控制及醫(yī)療領(lǐng)域。當(dāng)操作人員的眼或手已經(jīng)被占用的情況下,在增加控制操作時(shí),最好的辦法就是增加人與機(jī)器的語(yǔ)音交互界面。由語(yǔ)音對(duì)機(jī)器發(fā)出命令,機(jī)器用語(yǔ)音做出應(yīng)答。

          4. 個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語(yǔ)音交互界面。PDA的體積很小,人機(jī)界面一直是其應(yīng)用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現(xiàn)多采用手寫體識(shí)別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現(xiàn)在業(yè)界一致認(rèn)為,PDA的最佳人機(jī)交互界面是以語(yǔ)音作為傳輸介質(zhì)的交互方法,并且已有少量應(yīng)用。隨著語(yǔ)音識(shí)別技術(shù)的提高,可以預(yù)見(jiàn),在不久的將來(lái),語(yǔ)音將成為PDA主要的人機(jī)交互界面。

          5. 智能玩具。通過(guò)語(yǔ)音識(shí)別技術(shù),我們可以與智能娃娃對(duì)話,可以用語(yǔ)音對(duì)玩具發(fā)出命令,讓其完成一些簡(jiǎn)單的任務(wù),甚至可以制造具有語(yǔ)音鎖功能的電子看門狗。智能玩具有很大的市場(chǎng)潛力,而其關(guān)鍵在于語(yǔ)音芯片價(jià)格的降低。

          6. 家電遙控。用語(yǔ)音可以控制電視機(jī)、VCD、空調(diào)、電扇、窗簾的操作,而且一個(gè)遙控器就可以把家中的電器皆用語(yǔ)音控制起來(lái),這樣,可以讓令人頭疼的各種電器的操作變得簡(jiǎn)單易行。

          語(yǔ)音識(shí)別專用芯片系統(tǒng)有如下幾個(gè)特點(diǎn): 1. 多為中、小詞匯量的語(yǔ)音識(shí)別系統(tǒng),即只能夠識(shí)別10~100詞條。只有近一兩年來(lái),才有連續(xù)數(shù)碼或連續(xù)字母語(yǔ)音識(shí)別專用芯片實(shí)現(xiàn)。2. 一般僅限于特定人語(yǔ)音識(shí)別的實(shí)現(xiàn),即需要讓使用者對(duì)所識(shí)別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練,這一類識(shí)別功能對(duì)語(yǔ)種、方言和詞條沒(méi)有限制。有的芯片也能夠?qū)崿F(xiàn)非特定人語(yǔ)音識(shí)別,即預(yù)先將所要識(shí)別的語(yǔ)句碼本訓(xùn)練好而裝入芯片,用戶使用時(shí)不需要再進(jìn)行學(xué)習(xí)就可直接應(yīng)用。但這一類識(shí)別功能只適用于規(guī)定的語(yǔ)種和方言,而且所識(shí)別的語(yǔ)句只限于預(yù)先已訓(xùn)練好的語(yǔ)句。3. 由此芯片組成一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)。因此,除了語(yǔ)音識(shí)別功能以外,為了有一個(gè)好的人機(jī)界面和識(shí)別正確與否的驗(yàn)證,該系統(tǒng)還必須具備語(yǔ)音提示(語(yǔ)音合成)及語(yǔ)音回放(語(yǔ)音編解碼記錄)功能。4. 多為實(shí)時(shí)系統(tǒng),即當(dāng)用戶說(shuō)完待識(shí)別的詞條后,系統(tǒng)立即完成識(shí)別功能并有所回應(yīng),這就對(duì)電路的運(yùn)算速度有較高的要求。5. 除了要求有盡可能好的識(shí)別性能外,還要求體積盡可能小、可靠性高、耗電省、價(jià)錢低等特點(diǎn)。

          語(yǔ)音識(shí)別技術(shù)發(fā)展

          在發(fā)達(dá)國(guó)家各種各樣基于語(yǔ)音識(shí)別技術(shù)的產(chǎn)品已經(jīng)可以買到,如具有聲控?fù)芴?hào)電話,語(yǔ)音記事本等等。語(yǔ)音電話服務(wù)、數(shù)據(jù)查詢服務(wù)也已經(jīng)部分實(shí)現(xiàn)?;谔囟ㄈ蝿?wù)和環(huán)境的聽(tīng)寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用前景。

          說(shuō)話者自適應(yīng)技術(shù)近年在語(yǔ)音識(shí)別系統(tǒng)的研究中也備受重視,這是由于與人有關(guān)的語(yǔ)音識(shí)別系統(tǒng)比與人無(wú)關(guān)的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率要高很多。通過(guò)有效的自適應(yīng)手段可以很快地提高系統(tǒng)的識(shí)別能力。實(shí)際上說(shuō)話人自適應(yīng)技術(shù)和穩(wěn)健語(yǔ)音自適應(yīng)技術(shù)是相通的。由于不同的說(shuō)話人在聲道長(zhǎng)度,說(shuō)話口音方式都很不一樣。說(shuō)話者自適應(yīng)技術(shù)也主要是從以下兩方面著手。

          靜態(tài)處理方法。從特征提取或訓(xùn)練階段就盡可能減少來(lái)自說(shuō)話人的變化因素對(duì)模型的貢獻(xiàn)??梢赃M(jìn)行聲道參數(shù)的歸一化處理或?qū)φf(shuō)話人進(jìn)行分類處理,如分男女聲的識(shí)別系統(tǒng)就是其中的一個(gè)典型,但實(shí)際上僅僅從男女聲上對(duì)模型分類還是太粗,可以通過(guò)有效的聚類方法進(jìn)行分類。這類方法統(tǒng)稱為聲學(xué)歸一化處理方法。

          動(dòng)態(tài)處理方法。對(duì)預(yù)先訓(xùn)練好的與人無(wú)關(guān)識(shí)別系統(tǒng),通過(guò)臨時(shí)得到的特定人語(yǔ)音數(shù)據(jù)對(duì)系統(tǒng)的模板或特征參數(shù)進(jìn)行自適應(yīng)修正,從而在原有系統(tǒng)基礎(chǔ)上建立一個(gè)用于特定任務(wù)、特定環(huán)境或特定說(shuō)話人的系統(tǒng),這類方法統(tǒng)稱為自適應(yīng)方法。自適應(yīng)方法可分為: 批模式、累進(jìn)模式、即時(shí)模式; 按自適應(yīng)學(xué)習(xí)策略又分為無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。從用戶使用的方便程度來(lái)看是由難到易,而算法實(shí)現(xiàn)則是由易到難。采用何種策略取決于應(yīng)用背景,對(duì)識(shí)別率的要求等因素。對(duì)于聽(tīng)寫機(jī)等應(yīng)用來(lái)說(shuō),最具吸引力的是累進(jìn)、無(wú)監(jiān)督的自適應(yīng)方式,也稱在線自適應(yīng)。

          語(yǔ)言模型也是目前研究的一個(gè)重要方面。目前的語(yǔ)言模型是與任務(wù)有關(guān)的,典型的統(tǒng)計(jì)語(yǔ)言模型是通過(guò)大量任務(wù)特定的語(yǔ)料訓(xùn)練出來(lái)的。通過(guò)新聞?wù)Z料訓(xùn)練出來(lái)的模型不能很好地工作于法律方面的文件語(yǔ)音識(shí)別。有幾種方法用于解決這些問(wèn)題。一種是使用自適應(yīng)語(yǔ)言模型。在靜態(tài)語(yǔ)言模型的基礎(chǔ)上,通過(guò)一個(gè)高速緩沖存儲(chǔ)器對(duì)語(yǔ)言模型進(jìn)行動(dòng)態(tài)的修正; 另一種是先訓(xùn)練多領(lǐng)域語(yǔ)言模型,然后通過(guò)混合高斯模型將這些模型結(jié)合在一起; 還有一種比較好的辦法是使用大顆粒的語(yǔ)言模型,如基于類的語(yǔ)言模型,而不是基于詞的語(yǔ)言模型,類可以是詞性類,詞義類,以及由一定的數(shù)據(jù)驅(qū)動(dòng)的聚類算法產(chǎn)生的各種類。

          由于不同詞可以屬于同一類,這樣類比較大,構(gòu)成的語(yǔ)言模型就比較穩(wěn)健。其關(guān)鍵的問(wèn)題是如何決定詞的分類,由于詞的分類比較復(fù)雜,同一詞可能屬于不同的類,特別是解決如何通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)分類的算法,即使用數(shù)據(jù)驅(qū)動(dòng)算法也還沒(méi)有很好地解決?;诮y(tǒng)計(jì)技術(shù)的計(jì)算語(yǔ)言學(xué)已經(jīng)越來(lái)越受到重視,它解決了單獨(dú)規(guī)則語(yǔ)言模型不能解決的一些問(wèn)題。當(dāng)然統(tǒng)計(jì)語(yǔ)言模型也不能解決全部問(wèn)題,因此如何把統(tǒng)計(jì)語(yǔ)言模型和基于規(guī)則的語(yǔ)言模型結(jié)合也是語(yǔ)言模型研究的重點(diǎn)之一。

          目前不同快速語(yǔ)音識(shí)別算法都在開(kāi)發(fā)中。其中包括對(duì)HMM狀態(tài)輸出的概率分布進(jìn)行矢量量化,縮小搜索空間算法,減少計(jì)算機(jī)的內(nèi)存需求方法,以及結(jié)合計(jì)算機(jī)結(jié)構(gòu)特點(diǎn)的編程技術(shù)的應(yīng)用。

          篇5

          與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是我們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。而提起語(yǔ)音識(shí)別.我們最容易想到的還要數(shù)不會(huì)講笑話的Siri。

          作為世界上第一家上市的語(yǔ)音識(shí)別公司,Siri的“娘家”Nuance有著輝煌的歷史,曾經(jīng)在語(yǔ)音領(lǐng)域一統(tǒng)江湖。蘋果iPhone手機(jī)的虛擬語(yǔ)音助手Siri、三星的語(yǔ)音助手S-Voice.各大航空公司和頂級(jí)銀行的自動(dòng)呼叫中心和虛擬在線語(yǔ)音助手,都采用了Nuance的技術(shù)。近年來(lái),Nuance的語(yǔ)音識(shí)別技術(shù)已經(jīng)從實(shí)驗(yàn)室走向市場(chǎng),將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。

          在智能車載領(lǐng)域,Nuance定制的汽車級(jí)語(yǔ)音平臺(tái)Dragon Drive獲得了201 5CES創(chuàng)新大獎(jiǎng),通過(guò)將車載平臺(tái)與手機(jī)連接,Nuance可以幫用戶實(shí)現(xiàn)語(yǔ)音控制GPS導(dǎo)航、信息收發(fā)、電話接打、社交網(wǎng)絡(luò)更新等等。

          在前一段時(shí)間,Nuance在其官方博客上,公布了將發(fā)力醫(yī)療領(lǐng)域的消息。消息中說(shuō),Nuance在醫(yī)療領(lǐng)域進(jìn)軍,不僅僅通過(guò)智能手表追蹤運(yùn)動(dòng)情況和心率,還將會(huì)直接根據(jù)人的身體狀況匹配相應(yīng)的服務(wù),如合適的餐廳或食物等,當(dāng)然這些大多是基于可穿戴設(shè)備的。另外他們還考慮到更多場(chǎng)景.諸如緊急語(yǔ)音求助、醫(yī)患對(duì)話存檔、呼叫中心的對(duì)話聽(tīng)寫等。

          隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以及手機(jī)等移動(dòng)終端的普及應(yīng)用,目前可以從多個(gè)渠道獲取大量文本或語(yǔ)音方面的語(yǔ)料,這為語(yǔ)音識(shí)別中的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語(yǔ)言模型和聲學(xué)模型成為可能。在語(yǔ)音識(shí)別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語(yǔ)料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大規(guī)模語(yǔ)料資源的積累將提到戰(zhàn)略高度。從Nuance向醫(yī)療領(lǐng)域發(fā)力看出,由于醫(yī)療領(lǐng)域詞匯庫(kù)專業(yè)性強(qiáng)演變性弱,只要建立完整的數(shù)據(jù)庫(kù),就可以做到對(duì)疾病名稱、藥品名稱相對(duì)精確的識(shí)別。

          如今國(guó)內(nèi)也有了相應(yīng)的應(yīng)用如支持語(yǔ)音搜索功能的病歷夾與珍立拍,致力于為醫(yī)生提供一個(gè)安全存儲(chǔ)病歷資料的云空間,方便查找病例。而科大訊飛、云知聲、盛大、捷通華聲、中科信利、尚科語(yǔ)音、搜狗語(yǔ)音助手、紫冬口譯、騰訊語(yǔ)音、百度語(yǔ)音等都日漸被用戶習(xí)慣的系統(tǒng),都采用了最新的語(yǔ)音識(shí)別技術(shù),市面上其他相關(guān)的產(chǎn)品也直接或間接嵌入了類似的技術(shù)。

          從打字到語(yǔ)音的習(xí)慣改變

          隨著語(yǔ)音識(shí)別在移動(dòng)終端上的應(yīng)用越來(lái)越火熱,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。

          騰訊、百度都建立了自己的語(yǔ)音團(tuán)隊(duì),在移動(dòng)搜索領(lǐng)域發(fā)力 隨著吳恩達(dá)加盟,擔(dān)任首席科學(xué)家,負(fù)責(zé)百度研究院,百度看起來(lái)更加高大上了許多。吳恩達(dá)的研究領(lǐng)域就是機(jī)器學(xué)習(xí)和人工智能,研究重點(diǎn)是深度學(xué)習(xí)。深度學(xué)習(xí)被認(rèn)為是當(dāng)前的機(jī)器學(xué)習(xí)算法里最接近人腦思維的一種。在語(yǔ)音識(shí)別方面,會(huì)對(duì)互聯(lián)網(wǎng)、家用電器帶來(lái)很大的改革在百度Big Talk2015年第一期公開(kāi)課上,吳恩達(dá)說(shuō),“語(yǔ)音會(huì)是改革互聯(lián)網(wǎng)的很大一個(gè)因素。語(yǔ)音識(shí)別會(huì)推動(dòng)物聯(lián)網(wǎng)的革命,比如汽車界面、家用設(shè)備,以及可穿戴設(shè)備。在這方面,特別是在移動(dòng)互聯(lián)網(wǎng)方面,中國(guó)其實(shí)領(lǐng)先于美國(guó)和其他國(guó)家很多。”

          篇6

          中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2012)02-0082-01

          由于生活節(jié)奏的加快,汽車已經(jīng)成為了人們生活中重要的工具,人們?cè)谲噧?nèi)的時(shí)間也更多。同時(shí)也希望能夠在車內(nèi)接收到外界的信息繼續(xù)進(jìn)行工作,還要求汽車有娛樂(lè)功能,因此促進(jìn)了車載多媒體的發(fā)展。而車載多媒體傳統(tǒng)的人機(jī)交互方式會(huì)增加潛在的駕駛危險(xiǎn),為此將語(yǔ)音識(shí)別應(yīng)用于車載多媒體系統(tǒng)中,將會(huì)是車載多媒體發(fā)展的重要方向。端點(diǎn)檢測(cè)、特征參數(shù)提取以及識(shí)別是語(yǔ)音識(shí)別的主要內(nèi)容,本文也將從這三個(gè)方向?qū)囋诙嗝襟w系統(tǒng)的語(yǔ)音識(shí)別進(jìn)行研究。

          1、端點(diǎn)檢測(cè)

          在進(jìn)行語(yǔ)音識(shí)別時(shí),首先需要通過(guò)端點(diǎn)檢測(cè)來(lái)對(duì)語(yǔ)音信號(hào)中的無(wú)聲片段和有聲片段進(jìn)行分割。目前,語(yǔ)音端點(diǎn)識(shí)別已經(jīng)從開(kāi)始的單一門限發(fā)展到了基于模糊理論的判決。但是對(duì)于車載多媒體而言,計(jì)算量較大、識(shí)別響應(yīng)時(shí)間較長(zhǎng)端點(diǎn)檢測(cè)的方法顯然不使用,所以主要采用基于短平均過(guò)零率和短時(shí)間平均幅度的方法來(lái)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),這種方法利用短時(shí)間內(nèi)幅度的檢測(cè)和過(guò)零率來(lái)作為語(yǔ)音端點(diǎn)的檢測(cè)。

          首先,利用短時(shí)幅度可以有效判斷語(yǔ)音端點(diǎn),同時(shí)語(yǔ)音的濁音部分平均幅度會(huì)明顯大于噪聲的平均幅度,然后同時(shí)再輔以短時(shí)過(guò)零率的方法來(lái)判斷語(yǔ)音開(kāi)始的濁音,從而進(jìn)一步對(duì)端點(diǎn)檢測(cè)進(jìn)行校準(zhǔn),兩者的結(jié)合能夠更加精確的判斷語(yǔ)音端點(diǎn),并且兩種算法都較為簡(jiǎn)單,能夠滿足車在多媒體的需求。

          2、特征參數(shù)提取

          在完成語(yǔ)音的端點(diǎn)檢測(cè)之后,需要提取語(yǔ)音的特征參數(shù),然后進(jìn)行語(yǔ)音識(shí)別。目前用于語(yǔ)音特征參數(shù)提取的算法主要有LPCC(線性預(yù)測(cè)倒譜系數(shù))和MFCC(Mel頻率倒譜),由于MFCC具有更強(qiáng)的抗干擾能力等特點(diǎn),更適合與噪聲較多、司機(jī)不能離輸入設(shè)備很近的車載環(huán)境。

          分析MFCC的語(yǔ)音特征參數(shù)提取可以分成預(yù)加重、加窗、FFT(快速傅里葉變換)、濾波、自然對(duì)數(shù)提取、自然對(duì)數(shù)DCT計(jì)算這六個(gè)步驟。由于MFCC其計(jì)算精度以及計(jì)算量都較大,因此,使用MFCC作為車載系統(tǒng)的語(yǔ)音特征參數(shù)提取時(shí),需要進(jìn)行相應(yīng)的改進(jìn):

          (1)在MFCC實(shí)現(xiàn)的六個(gè)步驟中,例如加窗等步驟就可以實(shí)現(xiàn)進(jìn)行計(jì)算,然后存儲(chǔ)在數(shù)組中,在使用時(shí)進(jìn)行查表提取,從而避免每一次語(yǔ)音識(shí)別時(shí)重復(fù)計(jì)算,從而加快了計(jì)算速度。

          (2)FFT需要花費(fèi)大量的時(shí)間(據(jù)統(tǒng)計(jì),F(xiàn)FT需要花費(fèi)MFCC56.32%的時(shí)間[2]),由于FFT算法是對(duì)復(fù)數(shù)進(jìn)行處理,而語(yǔ)音信號(hào)的處理只涉及到實(shí)數(shù)部分,其虛數(shù)部分為零,因此增加了運(yùn)算時(shí)間,因此可以利用文獻(xiàn)3所提出的FFT運(yùn)算方法,將長(zhǎng)度為N的FFT預(yù)算降低到長(zhǎng)度為N/2的FFT運(yùn)算,從而提高了語(yǔ)音特征參數(shù)提取效率。

          3、識(shí)別模式

          語(yǔ)音識(shí)別的原理是模式匹配,通過(guò)計(jì)算現(xiàn)有語(yǔ)音模式與語(yǔ)音模板庫(kù)中的模板的距離,來(lái)獲得最佳的匹配模式。匹配的方法主要有DTW(動(dòng)態(tài)時(shí)間規(guī)整)、HMM(隱馬爾科夫模型)和ANN(人工神經(jīng)元網(wǎng)絡(luò))。由于ANN計(jì)算量較大,因此不適合用于車載多媒體系統(tǒng)中,HMM需要繁雜的程序結(jié)構(gòu),包含眾多功能模塊,需要大量的計(jì)算。因此, DTW模式更適合用于車載多媒體系統(tǒng)中。能夠滿足車載系統(tǒng)孤立詞、小詞匯量的語(yǔ)音識(shí)別。

          為了更好的在車在多媒體系統(tǒng)中的嵌入式平臺(tái)上實(shí)現(xiàn)DTW,對(duì)DTW進(jìn)行進(jìn)一步的改進(jìn):

          (1)由于在語(yǔ)音識(shí)別匯總,對(duì)音頭和音尾的判斷存在一定的誤差,因此,使用傳統(tǒng)DTW方法在進(jìn)行固定端點(diǎn)匹配時(shí)會(huì)存在一定的誤差,從而降低了語(yǔ)音匹配成功率。為此,可以采用放寬端點(diǎn)限制的方法來(lái)使用DTW進(jìn)行語(yǔ)音識(shí)別。其主要的思路是取消傳統(tǒng)DTW中對(duì)音頭和音尾嚴(yán)格對(duì)其的限制。從而,只要兩次語(yǔ)音在開(kāi)始的W幀內(nèi)能夠匹配成功,同時(shí)在結(jié)束的W幀內(nèi)匹配成功,即認(rèn)為兩次語(yǔ)音匹配成功。在降低了對(duì)端點(diǎn)檢測(cè)的精度要求,符合車載系統(tǒng)小詞匯量的特點(diǎn),不會(huì)降低車載系統(tǒng)語(yǔ)音識(shí)別效率。

          (2)在使用DTW進(jìn)行語(yǔ)音模板匹配時(shí),需要計(jì)算兩個(gè)模板各幀的距離來(lái)計(jì)算模板之間的距離。加入模板庫(kù)中的某個(gè)模板T有N幀,待識(shí)別的語(yǔ)音R有M幀,那么通常需要申請(qǐng)M×N長(zhǎng)度的空間,再根據(jù)兩個(gè)模板所有幀間距離計(jì)算整體長(zhǎng)度。但是在實(shí)際的應(yīng)用中,只需要M長(zhǎng)度的空間來(lái)存放模板T第n-1幀與模板R中M幀之間的距離,在計(jì)算完第n幀與模板R中M幀之間的距離對(duì)M長(zhǎng)度空間的數(shù)據(jù)進(jìn)行替換,從而進(jìn)行模板T第n+1幀與模板R中M幀之間的距離,從而節(jié)省了(N-1)×M的存儲(chǔ)空間,這對(duì)車載系統(tǒng)有限存儲(chǔ)空間的系統(tǒng)中有著非常重要的意義。

          4、結(jié)語(yǔ)

          相比于傳統(tǒng)的按鈕式、觸摸屏式人機(jī)交互系統(tǒng),語(yǔ)音識(shí)別對(duì)于車載多媒體系統(tǒng)有著非常重要的意義,將是車載多媒體系統(tǒng)重要的發(fā)展方向,本文針對(duì)車載多媒體系統(tǒng)對(duì)低CPU運(yùn)算時(shí)間和地存儲(chǔ)空間的特點(diǎn),對(duì)語(yǔ)音識(shí)別中的端點(diǎn)檢測(cè)、語(yǔ)音特征參數(shù)提取以及識(shí)別模式的實(shí)現(xiàn)和優(yōu)化進(jìn)行了研究。

          參考文獻(xiàn)

          [1]方敏,浦劍濤,李成榮.嵌入式語(yǔ)音識(shí)別系統(tǒng)的研究和實(shí)現(xiàn)[J].中國(guó)信息學(xué)報(bào),2004,(6):73~78.

          [2]萬(wàn)春,黃杰圣,曹煦暉.基于DTW的孤立詞語(yǔ)音識(shí)別研究和算法改進(jìn)[J].計(jì)算機(jī)與現(xiàn)代化,2005,(13):4~6.

          篇7

          中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A

          1語(yǔ)音識(shí)別技術(shù)的研究意義

          人們使用的聲音語(yǔ)言是一種人在特定高度思維和意識(shí)活動(dòng)下的產(chǎn)品。語(yǔ)言是人類最直接以及最理想的交流方式,也是人機(jī)通信是最方便的方式。在機(jī)器人發(fā)展的高級(jí)發(fā)展階段中,機(jī)器人的智能語(yǔ)音識(shí)別與人類的活動(dòng)是密切相關(guān)的,有聲語(yǔ)言的人機(jī)交互信息成為重要的手段。例如,語(yǔ)音識(shí)別獲取外界信息很自然,沒(méi)有特殊的訓(xùn)練方法,隨著機(jī)器人技術(shù)的發(fā)展和廣泛應(yīng)用,有越來(lái)越多的機(jī)會(huì)來(lái)接觸人類和機(jī)器人,所以人們希望通過(guò)語(yǔ)音識(shí)別和機(jī)器人去處理,不管誰(shuí)能能準(zhǔn)確安全,方便地操縱機(jī)器人。機(jī)器人和人類之間的信息交互,表現(xiàn)在兩個(gè)方面,一是對(duì)更高層次的機(jī)器人操作,方便軟件的設(shè)計(jì)開(kāi)發(fā),這種多為教學(xué)機(jī)器人,另一種是在實(shí)際操作的要求下完成信息交互任務(wù)的機(jī)器人。智能機(jī)器人作為機(jī)器人技術(shù)發(fā)展的高級(jí)階段,其發(fā)展趨勢(shì)是:不僅要求機(jī)器人具有高度的自治能力,還要使機(jī)器人和人類之間的協(xié)調(diào)也具有一定的智能性。這就要求機(jī)器人具有不同的高性能主動(dòng)做事能力,而不是被動(dòng)地接受任務(wù),為了實(shí)現(xiàn)這一目標(biāo),自然語(yǔ)言作為人機(jī)信息交換將發(fā)揮越來(lái)越重要的作用。目前,智能機(jī)器人已成為機(jī)器人研究領(lǐng)域的一個(gè)熱點(diǎn)。工業(yè)機(jī)器人是智能機(jī)器人的一個(gè)重要研究領(lǐng)域。當(dāng)今,工業(yè)機(jī)器人的發(fā)展方興未艾,巨大的市場(chǎng)潛力,使真正的工業(yè)機(jī)器人的已經(jīng)在市場(chǎng)上嶄露頭角,以滿足人們?nèi)找嬖鲩L(zhǎng)的需求,我們不能沒(méi)有一個(gè)高性能的語(yǔ)音識(shí)別系統(tǒng)。由于工業(yè)機(jī)器人是面向生產(chǎn)實(shí)際的需要,最好的工作方式是讓機(jī)器人能顧聽(tīng)懂最常見(jiàn)的人類語(yǔ)言,完成指定的工作,并能與人交流。機(jī)器人語(yǔ)音識(shí)別是機(jī)器人研究領(lǐng)域中的語(yǔ)音識(shí)別應(yīng)用,最終的目標(biāo)是讓機(jī)器人了解人們的口頭語(yǔ)言,然后按照人們的命令來(lái)行動(dòng)或反應(yīng),從而形成一個(gè)良好的人機(jī)對(duì)話系統(tǒng)。為了能夠進(jìn)一步推動(dòng)智能機(jī)器人的開(kāi)發(fā)應(yīng)用,因此,在語(yǔ)音識(shí)別機(jī)器人的研究領(lǐng)域中,機(jī)器人語(yǔ)音識(shí)別系統(tǒng)是工業(yè)機(jī)器人的實(shí)際推廣應(yīng)用,具有重要的意義。

          語(yǔ)音識(shí)別技術(shù)在智能機(jī)器人中的應(yīng)用已經(jīng)有很多年的歷史,作為智能機(jī)器人的一個(gè)分支,工業(yè)機(jī)器人得到了迅速發(fā)展,工業(yè)機(jī)器人通過(guò)語(yǔ)音識(shí)別從工業(yè)噪聲中提取有效的語(yǔ)音命令。為了實(shí)現(xiàn)機(jī)器人在一些特殊工業(yè)環(huán)境中工作的目的,機(jī)器人要能夠識(shí)別命令意圖。語(yǔ)音識(shí)別技術(shù),可以實(shí)現(xiàn)人機(jī)對(duì)話,從而讓機(jī)器能模仿人類完成所有工作的分配,使其在各行各業(yè)中能夠得以應(yīng)用。目前所面臨的實(shí)際問(wèn)題是:噪聲和干擾環(huán)境下對(duì)大型工業(yè)機(jī)器人的語(yǔ)音識(shí)別有嚴(yán)重的影響。在機(jī)器人識(shí)別領(lǐng)域,工業(yè)環(huán)境中的實(shí)時(shí)性是一個(gè)非常重要的任務(wù)。機(jī)器人在工業(yè)環(huán)境下應(yīng)用的聽(tīng)覺(jué)識(shí)別是使智能機(jī)器人發(fā)展速率低的瓶頸。

          2語(yǔ)音識(shí)別系統(tǒng)的發(fā)展

          2.1語(yǔ)音識(shí)別系統(tǒng)的發(fā)展方向

          語(yǔ)音識(shí)別系統(tǒng)是基于一套應(yīng)用軟件系統(tǒng)的硬件平臺(tái)和操作系統(tǒng)的一些。語(yǔ)音識(shí)別一般分為兩個(gè)步驟。第一步是學(xué)習(xí)或培訓(xùn)。這一階段的任務(wù)是建立基本單元的聲學(xué)模型來(lái)進(jìn)行識(shí)別和模型的語(yǔ)音語(yǔ)法分析等。第二步是識(shí)別或測(cè)試。根據(jù)識(shí)別系統(tǒng)的類型可以滿足一個(gè)識(shí)別方法的要求,使用語(yǔ)音分析的方法來(lái)分析語(yǔ)音特征參數(shù),并建立了比較和測(cè)量系統(tǒng)模型,根據(jù)一定的標(biāo)準(zhǔn),鑒定結(jié)果。

          語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用可分為兩個(gè)發(fā)展方向,其中一個(gè)是大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽(tīng)寫機(jī),以及結(jié)合電話網(wǎng)或互聯(lián)網(wǎng)的語(yǔ)音信息服務(wù)系統(tǒng),這些系統(tǒng)是在計(jì)算機(jī)平臺(tái)上的一個(gè)重要發(fā)展方向。其次是應(yīng)用的小型化,便攜式音頻產(chǎn)品,如無(wú)線移動(dòng)電話的撥號(hào),語(yǔ)音控制車載設(shè)備,智能玩具,家用電器和其他方面的應(yīng)用的遠(yuǎn)程控制,這些應(yīng)用系統(tǒng)大多采用特殊的硬件系統(tǒng)來(lái)實(shí)現(xiàn),特別是語(yǔ)音信號(hào)處理芯片和語(yǔ)音識(shí)別芯片,最近幾年快速發(fā)展,為其廣泛應(yīng)用創(chuàng)造了極為有利的條件。

          2.2語(yǔ)音識(shí)別系統(tǒng)的模型與模式

          語(yǔ)音識(shí)別系統(tǒng)的核心是聲學(xué)模型和模式分類。首先通過(guò)學(xué)習(xí)算法,訓(xùn)練語(yǔ)音聲學(xué)模型的特點(diǎn)是通過(guò)學(xué)習(xí)過(guò)程來(lái)生成聲學(xué)模型,這是識(shí)別潛在的模型的前提,是最關(guān)鍵的語(yǔ)音識(shí)別系統(tǒng)的一部分。聲學(xué)模型的目的是提供一種有效的方法來(lái)計(jì)算特征向量的聲音序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一刻發(fā)音之前和之后都會(huì)受到影響。

          為了模仿自然連續(xù)的協(xié)同發(fā)音和識(shí)別不同的發(fā)音,通常需要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型和語(yǔ)言的發(fā)音特點(diǎn)的設(shè)計(jì)是密切相關(guān)的。聲學(xué)模型單元大小與單詞發(fā)音,音節(jié)模式和音位語(yǔ)音訓(xùn)練數(shù)據(jù)大小有關(guān),故要求其系統(tǒng)識(shí)別具有很大的靈活性。大詞匯量語(yǔ)音識(shí)別系統(tǒng),通常采用較小的單元和少量的計(jì)算,該模型只有較小的存儲(chǔ)容量,減少訓(xùn)練數(shù)據(jù)的數(shù)量,但相應(yīng)的聲音定位和分割問(wèn)題就顯得更加困難,規(guī)則識(shí)別模型變得越來(lái)越復(fù)雜。通常大型模型中識(shí)別單元包括協(xié)同發(fā)音,這有利于提高系統(tǒng)的識(shí)別率,但訓(xùn)練數(shù)據(jù)也相對(duì)增加。必須根據(jù)不同語(yǔ)言的特點(diǎn)來(lái)識(shí)別詞匯,詞匯量大小決定單位大小。

          篇8

          無(wú)線通信網(wǎng)絡(luò)在創(chuàng)造移動(dòng)電子商務(wù)時(shí),也帶來(lái)一系列不安全的因素,例如黑客竊聽(tīng)、盜取信息、篡改用戶信息等。同時(shí),有關(guān)法律法規(guī)的不夠完善也嚴(yán)重制約著移動(dòng)電子商務(wù)的快速發(fā)展。

          1.竊聽(tīng)用戶信息

          過(guò)去的電子商務(wù)中,入侵者可以運(yùn)用有線網(wǎng)絡(luò),進(jìn)一步實(shí)施有關(guān)的竊聽(tīng)工作,因此,極易判定入侵者的具置和信息。在無(wú)線網(wǎng)絡(luò)環(huán)境下,進(jìn)行追蹤比較困難,因此在無(wú)線網(wǎng)絡(luò)環(huán)境下,入侵者如果具備網(wǎng)卡或相關(guān)的無(wú)線設(shè)備從任何地點(diǎn)都能進(jìn)入無(wú)線網(wǎng)絡(luò)中。

          2.黑客篡改用戶信息

          篡改用戶信息的情況在無(wú)線電子商務(wù)中非常普遍,如果非法用戶采用無(wú)線通信網(wǎng)絡(luò)獲取用戶的交易信息,可以隨意把篡改或刪除信息發(fā)送出去,這會(huì)給用戶帶來(lái)很大的損失。黑客也可以截取用戶的登陸名稱或密碼,從而竊取用戶的合法賬號(hào)。

          二、語(yǔ)音識(shí)別技術(shù)在移動(dòng)電子商務(wù)中的應(yīng)用

          1.創(chuàng)建安全模型

          本文設(shè)計(jì)的安全模式,是以語(yǔ)音識(shí)別技術(shù)為基礎(chǔ),創(chuàng)建移動(dòng)電子商務(wù)安全模型。該系統(tǒng)包含移動(dòng)設(shè)備用戶、語(yǔ)音服務(wù)提供商、移動(dòng)電子商務(wù)企業(yè)三個(gè)部分組合而成。客戶端輸入的語(yǔ)音信息先讓移動(dòng)電子商務(wù)企業(yè)接收,隨之傳送至語(yǔ)音服務(wù)提供商進(jìn)行處理。設(shè)計(jì)的模型主要表現(xiàn)在儲(chǔ)存語(yǔ)音信息、進(jìn)行語(yǔ)音識(shí)別、及時(shí)更新、傳輸安全四個(gè)方面,從而有效保障電子商務(wù)交易的安全運(yùn)行。

          2.安全模型的各項(xiàng)功能

          (1)存儲(chǔ)語(yǔ)音信息

          在無(wú)線電子商務(wù)實(shí)際交易時(shí),全部的語(yǔ)音信息會(huì)先存在移動(dòng)電子商務(wù)企業(yè)的語(yǔ)音數(shù)據(jù)庫(kù)內(nèi),移動(dòng)電子商務(wù)企業(yè)把用戶讀入的信息轉(zhuǎn)換為數(shù)字符號(hào),存入專業(yè)的語(yǔ)音數(shù)據(jù)內(nèi)并標(biāo)明用戶名稱、時(shí)間等信息,從而更好的標(biāo)識(shí)語(yǔ)音信息。移動(dòng)電子商務(wù)企業(yè)把新增加的語(yǔ)音信息發(fā)送到語(yǔ)音服務(wù)提供商,由他們對(duì)這一段語(yǔ)音信息給予相應(yīng)的處理,成功獲取這段語(yǔ)音特征之后,自行把特征信息輸送到移動(dòng)電子商務(wù)企業(yè)的語(yǔ)音特征數(shù)據(jù)庫(kù)內(nèi),并標(biāo)明相對(duì)應(yīng)的用戶名稱、時(shí)間等信息,隨之進(jìn)一步展開(kāi)語(yǔ)音識(shí)別。從上述的分析可知,對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行去噪、提取特征先是由語(yǔ)音服務(wù)提供商進(jìn)程處理。語(yǔ)音服務(wù)提供商把語(yǔ)音信息傳輸給電子商務(wù)企業(yè)的語(yǔ)音特征數(shù)據(jù)庫(kù)之后,電子商務(wù)企業(yè)系統(tǒng)會(huì)先對(duì)語(yǔ)音特征是否已經(jīng)出現(xiàn)在數(shù)據(jù)庫(kù)中,如果查詢獲知該用戶名存在,表明數(shù)據(jù)庫(kù)已經(jīng)詳細(xì)記錄該用戶的語(yǔ)音信息;隨后把新錄入的語(yǔ)音特征與上一次最新的語(yǔ)音特征展開(kāi)比較。若兩次語(yǔ)音特征一致,表明該語(yǔ)音順利通過(guò)系統(tǒng)識(shí)別,證明用戶的身份合法。同時(shí),由于語(yǔ)音并不是獨(dú)特或唯一的,進(jìn)行語(yǔ)音識(shí)別時(shí)極易受到外界環(huán)境的干擾,對(duì)確定語(yǔ)音識(shí)別發(fā)生源非常困難。此時(shí),可以使用相關(guān)技術(shù)在服務(wù)器端設(shè)置聲吶裝置,當(dāng)用戶進(jìn)行語(yǔ)音識(shí)別驗(yàn)證過(guò)程中,憑借超聲波判定發(fā)生源體積的大小。但該設(shè)備無(wú)法安裝在客戶端上,如果這樣非法用戶可以把客戶端的聲吶設(shè)備拆卸下來(lái),從而致使發(fā)生源可信度降低。

          (2)及時(shí)更新語(yǔ)音特征

          移動(dòng)電子商務(wù)企業(yè)不僅僅要接受輸入的語(yǔ)音信息,同時(shí)要及時(shí)更新語(yǔ)音特征,從而提升語(yǔ)音識(shí)別的準(zhǔn)確度。具體實(shí)施步驟如下:首先必須具備充足的歷史信息才能有效總結(jié)新的規(guī)律。移動(dòng)電子商務(wù)企業(yè)可以建立定時(shí)查看用戶語(yǔ)音特征的系統(tǒng),如果系統(tǒng)檢測(cè)到語(yǔ)音特征數(shù)據(jù)庫(kù)共出現(xiàn)30余條相同用戶名的語(yǔ)音特征,系統(tǒng)會(huì)自動(dòng)對(duì)語(yǔ)音特征展開(kāi)比較,從而找尋其中的差別,最后獲取新的語(yǔ)音特征。把新的語(yǔ)音特征作為21條語(yǔ)音特征輸入語(yǔ)音特征數(shù)據(jù)庫(kù)內(nèi),之后發(fā)送到相關(guān)企業(yè)數(shù)據(jù)庫(kù)內(nèi)。若看到某一用戶名下語(yǔ)音特征多于20條,運(yùn)用這一信息數(shù)除以20,如果得出的余數(shù)是0,在采用最新的20條信息按照上述的步驟進(jìn)行處理。運(yùn)用上述方法對(duì)語(yǔ)音特征進(jìn)行更新。

          (3)傳輸語(yǔ)音信息

          篇9

          1 項(xiàng)目建設(shè)目標(biāo)

           

          1.1 項(xiàng)目背景

           

          目前,固網(wǎng)用戶撥打電話,必須先查出被叫的號(hào)碼,并按鍵進(jìn)行撥叫。而隨著通信業(yè)的發(fā)展,要記的電話號(hào)碼越來(lái)越多,而目前大部分的固定電話都沒(méi)有號(hào)碼存儲(chǔ)的功能,所以很多時(shí)候使用固話打電話時(shí),要么從手機(jī)上查找被叫的電話,或者是從紙制電話簿去查找,既不方便,又浪費(fèi)時(shí)間。

           

          “語(yǔ)音電話本”完全可以幫助用戶解決以上問(wèn)題,用戶只需撥打一個(gè)號(hào)碼接入系統(tǒng)平臺(tái),說(shuō)出聯(lián)系人的姓名,系統(tǒng)就可以自動(dòng)將話路轉(zhuǎn)到該人的電話上。整個(gè)過(guò)程通過(guò)自然的語(yǔ)音方式交互,即感到親切自然方便快捷,又節(jié)省時(shí)間,提高工作效率。

           

          從服務(wù)管理的角度來(lái)看,隨著信息通信客服業(yè)務(wù)受理的不斷發(fā)展,座席客服話務(wù)量越來(lái)越多,用戶對(duì)服務(wù)的質(zhì)量要求也越來(lái)越高,傳統(tǒng)客服系統(tǒng)在傳統(tǒng)語(yǔ)音信息處理上的局限性制約了系統(tǒng)服務(wù)和管理能力的提升。

           

          服務(wù)方面,由于業(yè)務(wù)的多樣性和復(fù)雜性帶來(lái)的海量數(shù)據(jù)信息不能得到快速、有效的關(guān)聯(lián)處理而產(chǎn)生的問(wèn)題,影響了客戶服務(wù)體驗(yàn)。

           

          運(yùn)營(yíng)管理方面,雇傭人工座席每天接聽(tīng)大量的信息查詢電話,座席業(yè)務(wù)人員的更替帶來(lái)的培訓(xùn),消耗了部分運(yùn)維成本,影響了服務(wù)質(zhì)量。

           

          1.2 建設(shè)目標(biāo)

           

          本項(xiàng)目通過(guò)研究智能語(yǔ)音技術(shù)在國(guó)網(wǎng)遼寧公司信息通信客服系統(tǒng)中的應(yīng)用,將語(yǔ)音識(shí)別及客服查號(hào)業(yè)務(wù)相結(jié)合,使用先進(jìn)的語(yǔ)音識(shí)別技術(shù)來(lái)代替繁重的人工勞動(dòng),提高省公司內(nèi)部溝通的效率。目前,語(yǔ)音電話本技術(shù)實(shí)現(xiàn)主要包含:ASR 、TTS 、IVR 三項(xiàng)技術(shù),其中TTS和IVR技術(shù)對(duì)于語(yǔ)音電話本業(yè)務(wù)來(lái)說(shuō)已經(jīng)非常成熟。

           

          ASR語(yǔ)音識(shí)別技術(shù)近年來(lái)發(fā)展十分迅速,其應(yīng)用也逐步得到推廣,佳都新太也一直開(kāi)發(fā)、調(diào)試、應(yīng)用這項(xiàng)重要的語(yǔ)音技術(shù),自2001年以來(lái)佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個(gè)項(xiàng)目中使用了ASR 自動(dòng)語(yǔ)音識(shí)別系統(tǒng),佳都新太通過(guò)對(duì)ASR測(cè)試、改進(jìn),自動(dòng)語(yǔ)音識(shí)別率達(dá)到95%以上。

           

          語(yǔ)音電話本業(yè)務(wù)可以說(shuō)是CTI平臺(tái)上的典型應(yīng)用,佳都新太把ASR語(yǔ)音自動(dòng)識(shí)別技術(shù)、TTS語(yǔ)音合成技術(shù)與CTI 的IVR技術(shù)三者融合為一體,為語(yǔ)音電話本業(yè)務(wù)的技術(shù)實(shí)現(xiàn)提供了可靠的保障。

           

          本項(xiàng)目可以達(dá)到目標(biāo):

           

          1.2.1 對(duì)語(yǔ)音信息的自動(dòng)化處理

           

          通過(guò)建立具備智能語(yǔ)音分析能力的語(yǔ)音識(shí)別平臺(tái),實(shí)現(xiàn)對(duì)用戶查號(hào)業(yè)務(wù)的語(yǔ)音實(shí)時(shí)識(shí)別及關(guān)聯(lián)處理,同時(shí)實(shí)現(xiàn)對(duì)語(yǔ)音文件的統(tǒng)一分析,提供支撐客服業(yè)務(wù)受理的有效工具。

           

          1.2.2 文件分析處理

           

          通過(guò)語(yǔ)音分析引擎對(duì)送入的語(yǔ)音進(jìn)行文字轉(zhuǎn)寫、維度結(jié)合后生成索引文件,這些結(jié)構(gòu)化的索引文件中包含了語(yǔ)音中的所有信息。索引文件存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,通過(guò)對(duì)有效的海量錄音文件、音頻文件進(jìn)行分析處理。

           

          1.2.3 實(shí)現(xiàn)自助查號(hào)功能

           

          通過(guò)實(shí)現(xiàn)語(yǔ)音中的知識(shí)挖掘和語(yǔ)音文件的快速檢索,實(shí)現(xiàn)自動(dòng)語(yǔ)音查號(hào)功能。

           

          2 項(xiàng)目技術(shù)方案

           

          2.1 項(xiàng)目設(shè)計(jì)原則

           

          本次項(xiàng)目是對(duì)省公司固定電話語(yǔ)音自動(dòng)查號(hào)系統(tǒng)的功能完善,使用先進(jìn)的語(yǔ)音識(shí)別技術(shù)來(lái)代替繁重的人工勞動(dòng),提高省公司內(nèi)部溝通的效率。

           

          本次項(xiàng)目的關(guān)鍵點(diǎn)和技術(shù)難點(diǎn)在于語(yǔ)音識(shí)別,因此在方案設(shè)計(jì)過(guò)程中我們著重考慮了這個(gè)問(wèn)題,選用了國(guó)內(nèi)領(lǐng)先的智能語(yǔ)音技術(shù)來(lái)作為語(yǔ)音識(shí)別引擎,結(jié)合座席客服系統(tǒng)的需求提供定制化專業(yè)服務(wù)。

           

          2.2 整體架構(gòu)設(shè)計(jì)

           

          如圖1,用戶通過(guò)撥打查號(hào)服務(wù)電話,系統(tǒng)為用戶播放自動(dòng)語(yǔ)音并引導(dǎo)用戶按鍵選擇功能和需要查號(hào)的人名,系統(tǒng)根據(jù)語(yǔ)音分析出內(nèi)容,并在數(shù)據(jù)庫(kù)中查詢對(duì)應(yīng)的號(hào)碼,系統(tǒng)將查到的號(hào)碼以自動(dòng)語(yǔ)音方式播報(bào)給用戶。

           

          系統(tǒng)部署需新增接入網(wǎng)關(guān)1臺(tái),用于與電力內(nèi)部電話程控交換機(jī)對(duì)接,實(shí)現(xiàn)平臺(tái)電話呼入呼出。采用電信級(jí)語(yǔ)音接入網(wǎng)關(guān)Dialogic DMG2030,接入規(guī)模1E1(即30路通話),PRI信令,通過(guò)電路中繼上聯(lián)到遼寧電力內(nèi)部程控交換機(jī)。遼寧電力內(nèi)部程控交換系統(tǒng)為語(yǔ)音電話本系統(tǒng)分配一個(gè)內(nèi)部接入服務(wù)號(hào)碼和一個(gè)外部接入服務(wù)號(hào)碼。同時(shí)網(wǎng)關(guān)接入虛擬資源池虛機(jī)網(wǎng)絡(luò)。

           

          新增虛擬資源池虛機(jī)1臺(tái),用于部署媒體處理軟件、CTI平臺(tái)、語(yǔ)音電話本業(yè)務(wù)應(yīng)用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數(shù)據(jù)庫(kù)。

           

          新增核心網(wǎng)絡(luò)交換機(jī)1臺(tái),用于系統(tǒng)組網(wǎng)。

           

          2.3 系統(tǒng)邏輯結(jié)構(gòu)

           

          IVR與TTS、ASR通過(guò)語(yǔ)音引擎實(shí)現(xiàn)整個(gè)語(yǔ)音交互過(guò)程的自動(dòng)識(shí)別、自動(dòng)播放功能。系統(tǒng)采用B/S結(jié)構(gòu),方便用戶對(duì)電話本的修改,也便于各營(yíng)業(yè)網(wǎng)點(diǎn)的開(kāi)戶、受理以及對(duì)用戶的電話本進(jìn)行維護(hù)等。整個(gè)系統(tǒng)采用模塊化結(jié)構(gòu),具有很高的可靠性和可擴(kuò)充性。

           

          邏輯結(jié)構(gòu)見(jiàn)圖2。

           

          2.4 系統(tǒng)建設(shè)方案

           

          新建“語(yǔ)音電話本”業(yè)務(wù)平臺(tái),其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖3所示。

           

          設(shè)備組成說(shuō)明:

           

          系統(tǒng)平臺(tái)需要以下設(shè)備:

           

          (1)IPS數(shù)字排隊(duì)機(jī);

           

          (2)信令網(wǎng)關(guān)節(jié)點(diǎn);

           

          (3)數(shù)據(jù)庫(kù)服務(wù)器: 實(shí)現(xiàn)用戶數(shù)據(jù)的存儲(chǔ)和系統(tǒng)認(rèn)證等功能;

           

          (4)TTS服務(wù)器: 通過(guò)IPS平臺(tái)的MS模塊來(lái)實(shí)現(xiàn)資源調(diào)用;

           

          (5)ASR服務(wù)器:通過(guò)IPS平臺(tái)的MS模塊來(lái)實(shí)現(xiàn)資源調(diào)用;

           

          (6)WEB服務(wù)器:實(shí)現(xiàn)用戶通過(guò)互聯(lián)網(wǎng)對(duì)電話簿的維護(hù)管理功能;

           

          (7)業(yè)務(wù)處理服務(wù)器:用于處理個(gè)人語(yǔ)音電話本業(yè)務(wù)流程;

           

          (8)管理維護(hù)節(jié)點(diǎn);

           

          (9)路由器和防火墻等網(wǎng)絡(luò)設(shè)備;

           

          2.5 配置計(jì)算依據(jù)

           

          2.5.1 中繼和語(yǔ)音的配置比例

           

          語(yǔ)音電話本業(yè)務(wù),用戶報(bào)出要找的人的姓名后,ASR進(jìn)行識(shí)別,系統(tǒng)根據(jù)ASR識(shí)別出的名字,找出對(duì)應(yīng)的電話號(hào)碼并進(jìn)行外呼,被叫接通后,主被叫進(jìn)行通話的過(guò)程中,語(yǔ)音資源即可釋放。整個(gè)業(yè)務(wù)實(shí)現(xiàn)和呼叫卡類業(yè)務(wù)的資源配置非常相似,根據(jù)200業(yè)務(wù)的實(shí)際運(yùn)行經(jīng)驗(yàn)數(shù)據(jù),建議中繼和語(yǔ)音的比例為4:1。

           

          2.5.2 中繼和ASR的配置比例

           

          在一個(gè)呼叫的過(guò)程中,用戶說(shuō)出要找人的姓名,ASR資源進(jìn)行識(shí)別,在識(shí)別完成系統(tǒng)呼通被叫后,ASR資源釋放,主被叫雙方進(jìn)行通話,按平均呼叫時(shí)長(zhǎng)為150秒,其中ASR識(shí)別的時(shí)間大概為30秒,而在一次通話中占用一入一出兩個(gè)通道,按上面的估算數(shù)據(jù),中繼和ASR的配比大約為 2×150/30=10:1。

           

          2.5.3 中繼容量和所能支持的用戶數(shù)的比例

           

          假設(shè)一些呼叫參數(shù)如下:

           

          系統(tǒng)中繼容量A

           

          用戶數(shù) B

           

          每用戶每天使用次數(shù)C:8次

           

          每次呼叫時(shí)長(zhǎng)D:150秒

           

          忙時(shí)集中系統(tǒng)E:10%

           

          忙時(shí)中繼Erl數(shù)F:0.8

           

          根據(jù)公式:A=B*C*D*E/F/3600

           

          則 A:B=8×150×10%/0.8/3600=1:24

           

          因?yàn)檎Z(yǔ)音電話本業(yè)務(wù)每次呼叫要占用一入一出兩個(gè)端口,所以中繼容量和所支持的用戶數(shù)的比例約為1:10。

           

          2.5.4 數(shù)據(jù)庫(kù)處理能力計(jì)算

           

          忙時(shí)TPMC=(忙時(shí)呼叫次數(shù)×(平均每次呼叫數(shù)據(jù)庫(kù)訪問(wèn)次數(shù)+其他應(yīng)用模塊平均每次呼叫事務(wù)訪問(wèn)處理次數(shù)))/60

           

          按4.3.3假設(shè)的數(shù)據(jù),當(dāng)使用語(yǔ)音電話本的用戶數(shù)為10,000用戶時(shí),系統(tǒng)的忙時(shí)呼叫次數(shù)為 10000×8×10%=8000次/小時(shí)

           

          按每次呼叫對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)操作次數(shù)為10次來(lái)計(jì)算,則10,000用戶時(shí),對(duì)數(shù)據(jù)庫(kù)的TPMC值的要求為:

           

          TPMC=8000×10/60=1333

           

          2.6 業(yè)務(wù)系統(tǒng)功能

           

          2.6.1 業(yè)務(wù)流程(如圖4)

           

          2.6.2 聲控?fù)芴?hào)

           

          用戶使用綁定電話撥打接入號(hào)碼“***”進(jìn)入系統(tǒng)后,系統(tǒng)直接會(huì)提示用戶報(bào)出用戶想找的人的姓名,并進(jìn)行呼叫。

           

          (1)“聯(lián)系人名字” 選中默認(rèn)呼叫號(hào)碼:

           

          (2)用戶撥打“語(yǔ)音電話本”服務(wù)號(hào)碼;

           

          (3)說(shuō)出對(duì)方姓名,如:張三;

           

          (4)系統(tǒng)識(shí)別語(yǔ)音,查詢對(duì)應(yīng)的默認(rèn)電話號(hào)碼;

           

          (5)系統(tǒng)通過(guò)語(yǔ)音播報(bào)查詢到的電話號(hào)碼。

           

          (6)“聯(lián)系人名字+電話類型” 精確查詢:

           

          (7)用戶撥打“語(yǔ)音電話本”服務(wù)號(hào)碼;

           

          (8)說(shuō)出對(duì)方姓名+電話類型,如:張三 手機(jī);

           

          (9)系統(tǒng)識(shí)別語(yǔ)音,查詢對(duì)應(yīng)的電話類型的號(hào)碼;

           

          系統(tǒng)通過(guò)語(yǔ)音播報(bào)查詢到的電話號(hào)碼。用戶通過(guò)綁定電話使用語(yǔ)音電話本業(yè)務(wù)流程如圖5所示。

           

          用戶使用非綁定電話使用語(yǔ)音電話本業(yè)務(wù)時(shí),必須先通過(guò)輸入帳號(hào)和密碼,經(jīng)過(guò)系統(tǒng)鑒權(quán)后才能使用。

           

          2.6.3 原始通訊錄的錄入

           

          語(yǔ)音電話業(yè)務(wù)開(kāi)展的一個(gè)關(guān)鍵問(wèn)題,就是用戶申請(qǐng)?jiān)摌I(yè)務(wù)后首批通訊錄的錄入問(wèn)題,首批通訊錄相對(duì)來(lái)說(shuō)量比較大,錄入的方式建議采用營(yíng)業(yè)廳前臺(tái)填表錄入、通過(guò)WEB錄入的方式,也可以采用電話、傳真、信函的方式進(jìn)行錄入。在首批通訊錄錄入后,用戶在使用過(guò)程中做一些號(hào)碼本的修改和維護(hù),維護(hù)量都比較小,可以通過(guò)WEB方式、電話、短消息、傳真等多種方式進(jìn)行修改。

           

          批量導(dǎo)入電話本:

           

          通過(guò)Excel文件導(dǎo)入企業(yè)通訊錄,可以參考如表1格式。

           

          可以根據(jù)實(shí)際需求增加其他列。

           

          2.6.4 電話本維護(hù)(Web)

           

          系統(tǒng)提供后臺(tái)管理界面,管理員登錄后臺(tái)對(duì)電話本進(jìn)行管理,如圖6。

           

          個(gè)人電話本資料可通過(guò)Web、人工坐席、電話、傳真、短消息等多種方式進(jìn)行電話本資料的維護(hù)管理,包括修改用戶密碼等。

           

          業(yè)務(wù)流程如圖7所示。

           

          “增加、刪除、修改”用戶記錄:

           

          系統(tǒng)提供對(duì)單個(gè)記錄的“增加”、“刪除”、“修改”功能,方便對(duì)電話本進(jìn)行靈活管理。

           

          2.6.5 多個(gè)號(hào)碼優(yōu)先呼功能

           

          當(dāng)用戶錄入的某個(gè)聯(lián)系人有多個(gè)通訊號(hào)碼時(shí),如有手機(jī)、小靈通、固定電話,可以把這些號(hào)碼都錄入在系統(tǒng)中,在呼叫時(shí),用戶可以自行設(shè)置優(yōu)先呼叫的號(hào)碼,在號(hào)碼不通時(shí)再按設(shè)置的優(yōu)先策略逐一呼叫被叫其他的聯(lián)系方式。

           

          2.6.6 信息查詢(Web)

           

          系統(tǒng)提供電話本查詢界面給座席和管理員使用。

           

          座席和管理員可根據(jù)聯(lián)系人姓名,查詢聯(lián)系人對(duì)應(yīng)的所有電話信息。

           

          該功能主要在座席提供人工服務(wù)時(shí)使用。

           

          3 技術(shù)創(chuàng)新點(diǎn)

           

          本次項(xiàng)目采用國(guó)內(nèi)領(lǐng)先的智能語(yǔ)音識(shí)別技術(shù)(ASR)結(jié)合客服后臺(tái)定制化查詢需求,在滿足用戶傳統(tǒng)的查詢基礎(chǔ)上,語(yǔ)音定制化為用戶報(bào)出相關(guān)信息,由用戶按鍵選擇即可,大大方便了用戶的操作和客服的工作時(shí)間。

           

          4 總體性能指標(biāo)

           

          通過(guò)研究智能語(yǔ)音技術(shù)在信息通信客服系統(tǒng)中的應(yīng)用,實(shí)現(xiàn)客服查號(hào)業(yè)務(wù)的自能化,實(shí)現(xiàn)語(yǔ)音的自動(dòng)識(shí)別及數(shù)據(jù)分析,減少人工運(yùn)維成本,提高客服服務(wù)質(zhì)量及服務(wù)效率。

           

          5 技術(shù)展望

           

          篇10

          中圖分類號(hào):TP391.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2014) 12-0000-02

          隨著全球化的發(fā)展,越來(lái)越多的人想掌握一門外語(yǔ),而傳統(tǒng)的語(yǔ)言教學(xué)已不能滿足人們的這一需求。計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer Assisted Language Learning,縮寫CALL)伴隨著這一時(shí)代背景應(yīng)運(yùn)而生。CALL是在一定的語(yǔ)言學(xué)和心理學(xué)的理論基礎(chǔ)之上,利用計(jì)算機(jī)技術(shù)和信息技術(shù)輔助、推進(jìn)語(yǔ)言學(xué)習(xí)。目前,許多CALL學(xué)習(xí)軟件大多是把各類資料集成在一起,基本上不能對(duì)學(xué)習(xí)者給出有效的反饋信息。語(yǔ)音識(shí)別技術(shù)的應(yīng)用使得CALL系統(tǒng)可以具有發(fā)音評(píng)測(cè)的功能,能夠幫助學(xué)習(xí)者及時(shí)發(fā)現(xiàn)和糾正錯(cuò)誤發(fā)音,避免重復(fù)錯(cuò)誤發(fā)音形成習(xí)慣,從而極大提高了學(xué)習(xí)者的學(xué)習(xí)效率。

          一、計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)及其特點(diǎn)

          (一)計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)簡(jiǎn)介

          語(yǔ)言作為我們的日常交流工具,在經(jīng)濟(jì)全球化發(fā)展的今天,它的社會(huì)功能也越來(lái)越凸顯。隨著國(guó)際交流的日益頻繁,越來(lái)越多的人想掌握一門第二語(yǔ)言,語(yǔ)言學(xué)習(xí)也成為了教育領(lǐng)域的一大熱點(diǎn)。

          語(yǔ)言學(xué)習(xí)的直接目的就是提高學(xué)生的交際能力,而這一能力最直接的體現(xiàn)就是口語(yǔ)表達(dá)。傳統(tǒng)的師生教學(xué)是語(yǔ)言學(xué)習(xí)的主要方式,在這種教學(xué)方式下口語(yǔ)的教學(xué)主要是采用教師講解發(fā)音方式和發(fā)音演示,學(xué)生跟讀訓(xùn)練的方法??梢哉f(shuō)這樣的學(xué)習(xí)方式在口語(yǔ)學(xué)習(xí)中是至關(guān)重要且卓有成效的,但卻是不夠的。隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的迅猛發(fā)展,CALL已成為當(dāng)今外語(yǔ)教學(xué)發(fā)展的一個(gè)新趨勢(shì)。作為一種新的學(xué)習(xí)方式,它主要是在一定的語(yǔ)言學(xué)和心理學(xué)的理論基礎(chǔ)之上,利用計(jì)算機(jī)和信息技術(shù)輔助和推進(jìn)外語(yǔ)的教學(xué)。

          CALL是外語(yǔ)學(xué)習(xí)的新趨勢(shì),它在中國(guó)的應(yīng)用已經(jīng)有近20年的歷史,但直到多媒體技術(shù)的出現(xiàn),它才真正進(jìn)入外語(yǔ)教學(xué)的課堂。可以預(yù)見(jiàn)CALL作為一種教育技術(shù)在教學(xué)中的運(yùn)用是外語(yǔ)學(xué)習(xí)發(fā)展的必然趨勢(shì)。

          (二)計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)的應(yīng)用及其特點(diǎn)

          CALL始于二十世紀(jì)五十年代的美國(guó),在語(yǔ)言教學(xué)中的應(yīng)用始于二十世紀(jì)六十年代。其發(fā)展大致經(jīng)歷了行為主義階段、交際法階段、綜合法階段[1]。

          1.行為主義階段(Behavioristic CALL)

          60年代,當(dāng)時(shí)的應(yīng)用主要為CAI(Computer-Aided Instruction)課件(courseware)的開(kāi)發(fā)與利用,課件以行為主義(behaviorism)為理論基礎(chǔ)。按照該理論,斯金納設(shè)計(jì)了便于及時(shí)強(qiáng)化的程序教學(xué)機(jī)器和便于進(jìn)行程序教學(xué)的程序[2]。程序教學(xué)主張把教學(xué)目標(biāo)和內(nèi)容分解成很小的單元,按照嚴(yán)格的邏輯順序編制程序,將教學(xué)信息轉(zhuǎn)換成一系列問(wèn)題與答案,電腦呈現(xiàn)一個(gè)問(wèn)題(S),學(xué)生提供一個(gè)答案(R),答對(duì)給予獎(jiǎng)勵(lì),答錯(cuò)給予懲罰,獎(jiǎng)勵(lì)或懲罰緊隨反應(yīng)之后,這樣通過(guò)一步步地強(qiáng)化使學(xué)生掌握教學(xué)內(nèi)容,最終達(dá)到預(yù)期的目標(biāo)。

          這時(shí)CALL軟件的特點(diǎn)是:計(jì)算機(jī)僅作為提供素材和指令的工具,將各知識(shí)點(diǎn)以固定方式組織起來(lái);允許學(xué)生根據(jù)自己的步調(diào)自定學(xué)習(xí)進(jìn)度和速度,但學(xué)習(xí)過(guò)程完全由計(jì)算機(jī)程序控制;計(jì)算機(jī)向?qū)W生提供大量的練習(xí),練習(xí)的答案往往是唯一的,學(xué)生的回答沒(méi)有自主性和靈活性。

          2.交際法階段(Communicative CALL)

          20世紀(jì)80年代,計(jì)算機(jī)的功能大大加強(qiáng),微機(jī)(microcomputer,或稱個(gè)人電腦 personal computer)開(kāi)始應(yīng)用于教育。CAI課件的設(shè)計(jì)原則轉(zhuǎn)向以認(rèn)知心理學(xué)為主導(dǎo),強(qiáng)調(diào)學(xué)習(xí)者的心理特征和認(rèn)知規(guī)律,遵循認(rèn)知的信息加工理論,把學(xué)習(xí)看作是學(xué)習(xí)者根據(jù)自己的態(tài)度、興趣、愛(ài)好和需要,利用原有的認(rèn)知結(jié)構(gòu),對(duì)當(dāng)前外部刺激所提供的信息做出主動(dòng)、有選擇的信息加工。這一時(shí)期CALL軟件的代表是著名學(xué)者安德遜(Aderson)根據(jù)認(rèn)知學(xué)習(xí)理論,研制出的”高中幾何智能輔助教學(xué)系統(tǒng)”,它實(shí)現(xiàn)了對(duì)學(xué)生求解幾何問(wèn)題思維過(guò)程的自動(dòng)跟蹤和控制。

          這一時(shí)期CALL軟件的特點(diǎn)是:計(jì)算機(jī)能夠根據(jù)學(xué)習(xí)者的需求和特點(diǎn)進(jìn)行個(gè)別教學(xué),但由于心理學(xué)對(duì)人類學(xué)習(xí)規(guī)律認(rèn)識(shí)不全面和人工智能技術(shù)的發(fā)展不成熟,CALL軟件離個(gè)別化教學(xué)還有一段距離。

          3.綜合法階段(Integrative CALL)

          80年代后期并持續(xù)至今,多媒體技術(shù)與網(wǎng)絡(luò)技術(shù)取得突破性發(fā)展,尤其是因特網(wǎng)的出現(xiàn)及其迅猛發(fā)展不僅改變了傳統(tǒng)的生產(chǎn)方式、生活方式和思維方式,也改變了人們的教育觀念和學(xué)習(xí)方式,引起了一場(chǎng)教育革命。

          同時(shí)期崛起的建構(gòu)主義(constructivism)學(xué)習(xí)理論成為這場(chǎng)教育革命中革新傳統(tǒng)教學(xué)的理論基礎(chǔ)。建構(gòu)主義學(xué)習(xí)理論與認(rèn)知語(yǔ)言學(xué)、社會(huì)語(yǔ)言學(xué)、第二語(yǔ)言習(xí)得的理論等構(gòu)成綜合法的理論基礎(chǔ)。其中社會(huì)語(yǔ)言學(xué)的影響尤為明顯,它強(qiáng)調(diào)在語(yǔ)言學(xué)習(xí)中要為學(xué)生提供真實(shí)的社會(huì)交際,使他們能夠掌握社會(huì)所需要的語(yǔ)言技能(Warshauer&Meskill,1998)。而實(shí)現(xiàn)這一目的的最好方法是使學(xué)生參與有意義的任務(wù)型學(xué)習(xí)(task-based learning)。通過(guò)專題學(xué)習(xí)(thematic learning)、項(xiàng)目型學(xué)習(xí)(project-based learning)、協(xié)作式學(xué)習(xí)(collaborative learning)、跨文化學(xué)習(xí)(cross-cultural learning)等多種方法,在兼學(xué)知識(shí)、文化的同時(shí)學(xué)習(xí)語(yǔ)言。

          這一時(shí)期CALL軟件的特點(diǎn)是:(1)計(jì)算機(jī)作為認(rèn)知工具、情感交流及協(xié)作學(xué)習(xí)工具,起到導(dǎo)師、伙伴的作用;(2)提倡為外語(yǔ)學(xué)習(xí)創(chuàng)造真實(shí)的情境,開(kāi)展有意義的、有創(chuàng)造性的語(yǔ)言交際活動(dòng);(3)提倡將語(yǔ)言的學(xué)習(xí)與計(jì)算機(jī)技能的學(xué)習(xí)及使用結(jié)合起來(lái),培養(yǎng)學(xué)生具有21世紀(jì)網(wǎng)絡(luò)時(shí)代所需要的外語(yǔ)交際能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。

          由此可以看出,CALL經(jīng)歷的三個(gè)階段伴隨著教育學(xué)、心理學(xué)、計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展而發(fā)展,CALL系統(tǒng)的設(shè)計(jì)也向著交互性、個(gè)性化、針對(duì)性和創(chuàng)造性的方向發(fā)展。

          二、語(yǔ)音識(shí)別技術(shù)在CALL系統(tǒng)的應(yīng)用

          (一)語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介

          語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別技術(shù)(Automatic Speech Recognition,ASR),其目標(biāo)是讓機(jī)器也能夠像人一樣具有聽(tīng)覺(jué)功能,直接接受人的語(yǔ)言,能理解人的意圖,并做出相應(yīng)的反應(yīng)。

          最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是50年代由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字[3];60和70年代,線性預(yù)測(cè)編碼(Linear Predictive Coding LPC)及動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warp DTW)技術(shù)的提出有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)的匹配問(wèn)題[4],實(shí)現(xiàn)了特定人孤立詞語(yǔ)音識(shí)別系統(tǒng);80年代和90年代,隱馬爾科夫(HMM)模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語(yǔ)音識(shí)別系統(tǒng)的性能比以往更優(yōu)異,實(shí)現(xiàn)了大詞匯量、連續(xù)語(yǔ)音和非特定人的語(yǔ)音識(shí)別。隨著多媒體時(shí)代的到來(lái),語(yǔ)音識(shí)別技術(shù)逐漸從實(shí)驗(yàn)室走向應(yīng)用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。

          21世紀(jì),互聯(lián)網(wǎng)和移動(dòng)通信技術(shù)的發(fā)展給語(yǔ)音識(shí)別帶來(lái)了新的契機(jī),語(yǔ)音識(shí)別應(yīng)用已經(jīng)延伸到各個(gè)方面,如通訊領(lǐng)域、計(jì)算機(jī)語(yǔ)音檢索系統(tǒng)、自動(dòng)化控制等。語(yǔ)音識(shí)別技術(shù)已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè),是一門既有理論價(jià)值又有實(shí)際意義的重要學(xué)科。

          (二)語(yǔ)音識(shí)別技術(shù)的基本原理

          從技術(shù)上看,語(yǔ)音識(shí)別屬于模式識(shí)別的范疇,其系統(tǒng)結(jié)構(gòu)與模式識(shí)別具有相似之處。不同的語(yǔ)音識(shí)別系統(tǒng)在具體實(shí)現(xiàn)細(xì)節(jié)上有所不同,但所采用的原理基本是相似的。首先要對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,并抽取所需的語(yǔ)音特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的語(yǔ)音模板。在識(shí)別過(guò)程中,將輸入的語(yǔ)音信號(hào)的特征與己存在的語(yǔ)音模板進(jìn)行比較,并根據(jù)一定的搜索,找出最優(yōu)的與輸入的語(yǔ)音相匹配的模板。最后,給出計(jì)算機(jī)的識(shí)別結(jié)果。其識(shí)別過(guò)程如圖1:

          圖1

          (三)語(yǔ)音識(shí)別技術(shù)在CALL中的應(yīng)用

          隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,CALL已成為現(xiàn)代教育技術(shù)在教育領(lǐng)域一個(gè)重要應(yīng)用。但最初的CALL主要應(yīng)用在文字閱讀和語(yǔ)言理解能力的訓(xùn)練,現(xiàn)存的CALL系統(tǒng)也大多側(cè)重單詞、語(yǔ)法的學(xué)習(xí)[5],很少關(guān)注語(yǔ)言發(fā)音訓(xùn)練。語(yǔ)音技術(shù)的不斷發(fā)展和成熟為學(xué)習(xí)者發(fā)音練習(xí)提供了可能,它在CALL中最直接的應(yīng)用就是幫助用戶更好地練習(xí)語(yǔ)言發(fā)音。

          CALL中引入語(yǔ)音識(shí)別技術(shù),改變了傳統(tǒng)的語(yǔ)言學(xué)習(xí)方式,使得學(xué)習(xí)者能夠?qū)ψ约旱陌l(fā)音做出客觀的評(píng)價(jià)。基于語(yǔ)音識(shí)別技術(shù)的CALL已成為計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)研究的熱點(diǎn),不少公司和科研機(jī)構(gòu)也投入了大量的人力、物力、財(cái)力在研究開(kāi)發(fā)相關(guān)的發(fā)音學(xué)習(xí)系統(tǒng),并且出現(xiàn)了一些較為成熟的產(chǎn)品。如“Pronunciation”、“Tell Me More”等,這些系統(tǒng)采用提供語(yǔ)音信號(hào)波形圖的方式讓學(xué)習(xí)者進(jìn)行模仿,這種方式只是給學(xué)習(xí)者技術(shù)上的沖擊感,對(duì)改善他們的發(fā)音并沒(méi)有實(shí)際的幫助。國(guó)內(nèi)許多英語(yǔ)學(xué)習(xí)軟件都是把各類英語(yǔ)資料(文本、圖片、音頻、視頻)累積在一起,基本上不能對(duì)學(xué)習(xí)者給出有效的反饋信息,即便加入了語(yǔ)音識(shí)別功能,其功能類似于復(fù)讀機(jī),即只能給學(xué)習(xí)者提供發(fā)音演示、錄音跟讀的功能,如“說(shuō)寶堂”、“e百分”等產(chǎn)品。由于很少有軟件會(huì)對(duì)學(xué)習(xí)者的發(fā)音做出一個(gè)整體的評(píng)分,也不能準(zhǔn)確定位和檢測(cè)學(xué)習(xí)者的發(fā)音錯(cuò)誤,更沒(méi)有對(duì)學(xué)習(xí)者的錯(cuò)誤發(fā)音做出一個(gè)反饋和矯正,加之學(xué)習(xí)者因?yàn)樽陨硭较拗?,很難完全發(fā)現(xiàn)錯(cuò)誤、糾正不正確的發(fā)音。故此,軟件發(fā)音錯(cuò)誤矯正的功能顯得尤為重要。基于語(yǔ)音識(shí)別技術(shù)的CALL系統(tǒng)對(duì)于語(yǔ)言學(xué)習(xí)者來(lái)說(shuō)是一個(gè)有效的輔助語(yǔ)言學(xué)習(xí)的平臺(tái),為了有效的促進(jìn)語(yǔ)言學(xué)習(xí),它應(yīng)該具備如圖2所示的功能。

          圖2

          通過(guò)分析我們可以發(fā)現(xiàn),目前語(yǔ)音識(shí)別技術(shù)在CALL中的應(yīng)用取得了一些進(jìn)展,但是仍然有一些問(wèn)題等待解決和克服。目前的一些困難和問(wèn)題主要集中在產(chǎn)品設(shè)計(jì)理念和技術(shù)實(shí)現(xiàn)上兩個(gè)方面。

          在產(chǎn)品設(shè)計(jì)理念上我們需要考慮以下幾個(gè)問(wèn)題:(1)教育軟件的設(shè)計(jì)和開(kāi)發(fā)應(yīng)該應(yīng)考慮學(xué)習(xí)者的需求,以學(xué)習(xí)者為中心;(2)教育軟件的設(shè)計(jì)應(yīng)該考慮教育學(xué)和教育心理學(xué)的相關(guān)理論,避免書本知識(shí)的搬家;(3)考慮學(xué)習(xí)者認(rèn)知的個(gè)體差異性,為學(xué)生提供多元化學(xué)習(xí)的認(rèn)知工具。

          在技術(shù)實(shí)現(xiàn)上我們需要考慮以下幾個(gè)問(wèn)題:(1)選擇合適的識(shí)別基元以提高識(shí)別率;(2)對(duì)語(yǔ)音信號(hào)的端點(diǎn)更加精確的檢測(cè),即判斷語(yǔ)音信號(hào)的開(kāi)始和結(jié)尾以提高識(shí)別的準(zhǔn)確率;(3)對(duì)給定的發(fā)音進(jìn)行錯(cuò)誤檢測(cè)和糾正,尋找合理的評(píng)分機(jī)制,并對(duì)學(xué)習(xí)者的發(fā)音進(jìn)行及時(shí)、客觀的反饋;(4)提高預(yù)處理階段語(yǔ)音信號(hào)的信噪比;(5)選擇高效的識(shí)別算法以減少識(shí)別時(shí)的搜索范圍,提高識(shí)別速度。

          四、結(jié)束語(yǔ)

          本文分別介紹了語(yǔ)音識(shí)別技術(shù)和CALL,然后對(duì)語(yǔ)音識(shí)別技術(shù)在CALL中的應(yīng)用進(jìn)行了綜述,并探討了設(shè)計(jì)基于語(yǔ)音識(shí)別技術(shù)的CALL系統(tǒng)時(shí)需要考慮的問(wèn)題。語(yǔ)音識(shí)別技術(shù)作為一種逐漸成熟的技術(shù),它是基于語(yǔ)音識(shí)別技術(shù)的CALL系統(tǒng)的基礎(chǔ)與核心?;谡Z(yǔ)音識(shí)別技術(shù)的CALL是一種新的、有效的學(xué)習(xí)方式,它能夠有效的促進(jìn)學(xué)習(xí)者口語(yǔ)水平的提高,也是CALL系統(tǒng)的一個(gè)重要發(fā)展方向。

          參考文獻(xiàn):

          [1]楊芳,曹揚(yáng)波.計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的發(fā)展與前景[J].中國(guó)科技信息,2011(02).

          [2]何克抗,李文光.教育技術(shù)學(xué)[M].北京:北京師范大學(xué)出版社,2009.

          [3]詹新明,黃南山,楊燦.語(yǔ)音識(shí)別技術(shù)研究進(jìn)展[J].現(xiàn)代計(jì)算機(jī),2008(09).