網(wǎng)站地圖|客服中心|設(shè)為首頁|加入收藏

行業(yè)新聞

首頁 > 新聞 > AI > 語音識別技術(shù)在智能語音機器人中的應(yīng)用

語音識別技術(shù)在智能語音機器人中的應(yīng)用

信息時代,科學(xué)技術(shù)的飛速發(fā)展帶動人工智能化技術(shù)的更新進步。機器人的應(yīng)用領(lǐng)域和范圍也越來越廣泛,在生產(chǎn)、建筑、旅游等各個行業(yè)都能夠看到人工智能機器人的身影。  旅游產(chǎn)業(yè)與互聯(lián)網(wǎng)的結(jié)合,要隨著信息技術(shù)的發(fā)展與時俱進。物聯(lián)網(wǎng)、人工智能、虛擬現(xiàn)實等新興的互聯(lián)網(wǎng)技術(shù)讓旅游產(chǎn)業(yè)的未來充滿了挑戰(zhàn)與機遇,導(dǎo)游等依賴大數(shù)據(jù)的職業(yè)完全可能被人工智能機器人取代。 

本文主要介紹語音識別技術(shù)在智能語音機器人中的應(yīng)用,一般語音機器人的設(shè)計開發(fā)主要著眼于能聽會說,力圖利用語音識別和語音合成等技術(shù),將模擬的聽說能力賦予機器人并生動地展示給觀眾,主要應(yīng)用于展廳博物館等場景,需考慮到機器人所處環(huán)境非常嘈雜,因此對系統(tǒng)的穩(wěn)定性和抗噪性能都提出了較高的要求。此外,由于參與的觀眾來自全國各地,涉及不同性別、年齡、地域口音,所以系統(tǒng)聲學(xué)模型的分類設(shè)計、調(diào)練和自動切換也是一個重要的設(shè)計要素。

 

智能語音機器人的總體設(shè)計

 

       智能機器人與觀眾采用相互問答的小型對話形式進行交流。為實現(xiàn)上方便,可把問答對話的領(lǐng)域進行合理的限制。除迎賓和問候語外,可以設(shè)計4個問題域:有關(guān)時間、日期和星期的問答,有關(guān)全世界各大城市所在時區(qū)和當?shù)貢r間的問答,100以內(nèi)的數(shù)學(xué)四則運算題目的問答,沒有關(guān)系機器人的身世、本領(lǐng)等自身情況的問答。對于每個限定的問題域,相應(yīng)詞匯表的大小是有限的。在限定領(lǐng)域、有限詞匯的條件下,機器人基本可以與觀眾進行自由問答,并可以在不同的問題與之間相互切換。系統(tǒng)工作流程圖如下。

語音識別技術(shù)在智能語音機器人中的應(yīng)用

       系統(tǒng)啟動并初始化后處于等待狀態(tài),如果沒有觀眾靠近,機器人就定時反復(fù)播放自我介紹。如果有觀眾參觀(由紅外探測配合),系統(tǒng)檢測到語音信號,便會從等待狀態(tài)進入問答狀態(tài)。在觀眾預(yù)先選定的問題域內(nèi),機器人將和觀眾進行“自由”問答,在回答觀眾提問的同時,機器人會有協(xié)調(diào)的動作加以配合:針對不同觀眾對機器人所提問題的不同回答,機器人會有不同的相應(yīng),并以此決定下一步的動作。在某些問題域內(nèi),機器人在對文檔話過程中還會向觀眾提出一些問題,并等待觀眾回答。如果觀眾回答正確,機器人將表示祝賀,否則機器人將給出合理的提示(如噪聲太大,講話聲音要大點,沒有聽清楚或者你的答案不正確等)。多次回答不正確時,機器人將給出正確答案,機器人與觀眾對話結(jié)束后,向觀眾道別,再次轉(zhuǎn)入等待狀態(tài)。

 

核心語音模塊及關(guān)鍵技術(shù)

語音模塊是智能機器人的核心構(gòu)件,它完成的功能包括:機器人從外界接收觀眾的語街,送入語音識別器進行識別,再從識別結(jié)果中提取若干關(guān)鍵詞,而后通過對這些關(guān)詞的分析,將其映射為某個問題:機器人再針對此問題生成回答,最后將文本形式的答案合成為語音,輸出給觀眾。如果觀眾的問題超出限定的對話范圍或者識別結(jié)果可信度不高,則在答案生成階段給出錯誤提示,并由語音合成器輸出。如果機器人想向觀眾提出問題,也要由語音合成器合成后輸出,模塊的整體框架如下圖所示。

語音識別技術(shù)在智能語音機器人中的應(yīng)用

 

1.問題域相關(guān)的數(shù)據(jù)組織

機器人與觀眾的問答將限定在某個問題域內(nèi)進行,針對每個問題域,我們確定了有限大小的詞匯表,并通過大量的語料訓(xùn)練出相應(yīng)的基于詞類的統(tǒng)計語言模型”“關(guān)鍵詞表可以從詞匯表中提煉得到,它記錄的是對于理解問題有實質(zhì)作用的詞匯及其相關(guān)信息,此外還要在關(guān)鍵詞表的基礎(chǔ)上形成關(guān)鍵詞類型組合模板庫,其中每個模板代表問題域內(nèi)的一類具體問題。

語音識別技術(shù)在智能語音機器人中的應(yīng)用

2.識別結(jié)果的可信度度量及拒識

從以上框圖可以看到,語音識別器的識別結(jié)果作為關(guān)鍵詞提取問題理解等后續(xù)各個步驟的原始輸入,它的正確與否直接影響到整個系的性能。

 

在限定領(lǐng)域限定詞匯量的條件下,如果觀眾的提問或回答不超出限定的詞匯,識別結(jié)果的正確率可以達到95%以上。但是,一旦問題超出限定的領(lǐng)域或者出現(xiàn)了集外詞,識別器的性能就會嚴重下降。因此對識別器識別結(jié)果的可信度進行度量就顯得非常重要,它可以降低集外詞(OOV)帶來的不利影響。

我們采取的方法是利用統(tǒng)計語言模型衡量識別所得到的整個句子的可信度。如果一個句子的詞誤識率比較低,構(gòu)成這個句子的眾多三元短語(w1w2,w3),會比較多的出現(xiàn)在統(tǒng)計語言模型Trigram;反之如果出現(xiàn)較多的識別錯誤,那么句子中大部分的詞w1和元短語(wl,w2)將出現(xiàn)在UnigramBigram中,很少有三元短語命中Trigram對于一個由若干詞WW2,,Wi,…Wn構(gòu)成的句子,我們根據(jù)各個詞及它所構(gòu)成的知語在統(tǒng)計語言模型中出現(xiàn)的情況對其中每個詞打分。出現(xiàn)在Trigram中的可信度高,因而得分較高,出現(xiàn)在BigramUnigram中的可信度低,因而得分較低。再在各個詞得分的基礎(chǔ)上得到整個句子的可信度得分。若得分低于某個門限,則認為句子中包含較多的識別錯誤或者集外詞,可信度較低,應(yīng)當被拒識。

 

3.關(guān)鍵詞檢測

從識別器得到的識別結(jié)果,是由一個個詞構(gòu)成的詞序列,其中某些詞對于理解整個句子有著非常重要的作用,這就是我們所說的關(guān)鍵詞。在這步要做的就是提取出這些關(guān)鍵詞,形成一個關(guān)鍵詞串,作為下一步問題理解的輸入,這種處理同時也是為了降低問題理解時的難度。針對上面提到的四個問題域,我們分別設(shè)計了關(guān)鍵詞表,預(yù)先規(guī)定了在這一問題域內(nèi)的關(guān)鍵詞。這個關(guān)鍵表是語音識別系統(tǒng)中相應(yīng)問題域下的詞匯表的子集,記錄了每個關(guān)鍵詞的漢字串,類標識和詞序號等信息。在提取關(guān)鍵詞時,只需要在句子中進行搜索,檢測到出現(xiàn)在關(guān)鍵間表的關(guān)鍵詞,記錄它們出現(xiàn)的位置和次序。比如一個句子請問現(xiàn)在紐約的當?shù)貢r間是幾點鐘?”我們可以提取出關(guān)鍵漢字串現(xiàn)在紐約當?shù)貢r間幾點鐘以及對應(yīng)的關(guān)鍵詞類型串NOWCITY+LOCALTIME+CCLOCK”。對于不包含關(guān)鍵詞的句子我們把它視作無效或者錯誤的輸入,給出相應(yīng)的提示。

 

4.問題理解和答案生成

“關(guān)鍵詞提取得到的關(guān)鍵詞漢字串以及類型串將用于問題理解和答案生成。

問題理解時,主要用到關(guān)鍵詞類型串,通過與模板組合庫中的模板對照,可以把它映射到某一類具體問題上。比如上面例子中的“NOW+CITY+LOCALTIME+OCLOCK”,就可以映射為“詢問某城市的當?shù)貢r間這類問題。在系統(tǒng)中針對每個不同的問題域,設(shè)計了許多關(guān)鍵字類型組合的模板,每個模板對應(yīng)一類問題。如果關(guān)鍵字類型串成功映射為某類問題,即可轉(zhuǎn)入答案生成,否則我們認為問題無效和錯誤在答案生成時,已經(jīng)明確了問題的類型,相應(yīng)回答的基本句式就已經(jīng)確定,所需要的就是給句式賦予具體的內(nèi)容。利用關(guān)鍵詞提取得到的關(guān)鍵字漢字串和詞序號等信息,可以唯一地確定問題的具體內(nèi)容,并由此得到問題的最終答案。

 

以上介紹的是系統(tǒng)的總體結(jié)構(gòu)和流程設(shè)計,針對機器人將要長期展出的要求,以及其展出環(huán)境比較嘈雜觀眾類型復(fù)雜、年齡跨度大等特點,還有許多實際問題需要解決。比如,針對現(xiàn)場環(huán)境噪聲和不同的觀眾類型需要現(xiàn)場采集數(shù)據(jù),進行聲學(xué)模型訓(xùn)練;根據(jù)說話人的不同聲學(xué)特性,要對說話人進行聚類,設(shè)計分類的聲學(xué)模型,并在線選擇、切換;另外還要設(shè)計不同的問題域,并組織數(shù)據(jù)和訓(xùn)練相應(yīng)的語言模型。

  • 基于用戶創(chuàng)新

    界面設(shè)計日新月異,夢創(chuàng)義堅持基于用戶需求的界面創(chuàng)新設(shè)計……

  • 服務(wù)設(shè)計思維

    互聯(lián)網(wǎng)的格局發(fā)生的改變,在我們進行設(shè)計服務(wù)時更是考慮不同用戶、不同……

  • 洞察用戶心理

    洞察用戶有意識和無意識的行為以及心理特征通過構(gòu)造一系列的服務(wù)來促進……

  • 查看更多 >>

最新新聞Latest News

中小型企業(yè)網(wǎng)站建設(shè)完應(yīng)該如何營銷
很多中小型企業(yè)往往糾結(jié)于以下10個問題:一、我們起步比別人晚,我們的……
做企業(yè)網(wǎng)站到底做給誰看?
設(shè)計經(jīng)常時不時的遇到一些企業(yè)客戶,常常搞不清楚誰會真正看你的企業(yè)網(wǎng)……
傳統(tǒng)企業(yè)進軍移動互聯(lián)網(wǎng),從移動云網(wǎng)站開始
移動互聯(lián)網(wǎng)是移動通信和互聯(lián)網(wǎng)融合的產(chǎn)物,其發(fā)展的重要基礎(chǔ)便是智能手……
網(wǎng)站建設(shè)和運營五大細節(jié)決定用戶黏性
網(wǎng)站的成功離不開搜索引擎優(yōu)化,更離不開最基礎(chǔ)最根本的用戶群體,如何……
2015年值得關(guān)注的電子商務(wù)5大趨勢
線上線下銷售的界線正在變得越來越模糊。在2015年,這一趨勢仍將繼續(xù)!

本站搜索關(guān)鍵詞:語音識別技術(shù)在智能語音機器人中的應(yīng)用 | 北京網(wǎng)站建設(shè) | 北京網(wǎng)站建設(shè)公司 | 北京網(wǎng)站建設(shè)中心 | 高端網(wǎng)站建設(shè) | 電商網(wǎng)站建設(shè) | 企業(yè)網(wǎng)站建設(shè) | 手機網(wǎng)站建設(shè) | 微站官網(wǎng)建設(shè) | APP開發(fā)

銷售熱線

7x24小時全國售前咨詢熱線:010-57281389

7x24小時全國售后服務(wù)熱線:13020085953 15313016798

手機 | 微信同號:18600846206   QQ:523313456

立即咨詢 網(wǎng)站建設(shè)業(yè)務(wù)咨詢|客服熱線:010-57281389 13020085953

點這里給我發(fā)消息 電子郵箱:cnet99@cnet99.com

營業(yè)地址(東部):北京市朝陽區(qū)伊莎文心廣場A座3層B-22

位置分享

營業(yè)地址(西部):北京市豐臺區(qū)汽車博物館東路1號諾德中心9-605

標準網(wǎng)站,網(wǎng)站建設(shè),域名注冊,虛擬主機,獨享主機,企業(yè)云郵箱,網(wǎng)站維護一條龍,北京網(wǎng)站建設(shè)中心


  掃一掃 加微信
  微信號:cnet99com

  掃一掃 加關(guān)注
  微信平臺

天潤智力-專注于互聯(lián)網(wǎng)平臺建設(shè)與服務(wù)領(lǐng)域 中國互聯(lián)網(wǎng)平臺建設(shè)服務(wù)提供商

萬網(wǎng)阿里云金牌首席合作伙伴站點 全線代理萬網(wǎng)阿里云產(chǎn)品及服務(wù)

中國萬網(wǎng)正式通過ISO9001國際標準質(zhì)量體系認證

Copyright©1999-2024 天潤智力 京ICP備12009254號-3 京公網(wǎng)安備 11010502032407號