1. gzyueqian
      13352868059
      首頁 > 新聞中心 > > 正文

      語音識別技術(shù)帶我們走進語音搜索的新時代

      更新時間: 2006-05-25 16:33:22來源: 粵嵌教育瀏覽量:725

        服務是戴爾業(yè)務發(fā)展戰(zhàn)略的重要組成部分,也是戴爾發(fā)展快的一項業(yè)務。目前,戴爾服務發(fā)展速度是行業(yè)發(fā)展速度的10倍。

        哼一段旋律就能查到對應的歌曲,輸一個關(guān)鍵詞就能從一堆音頻資料里查到想要的一段話。一邊擺弄著語音軟件,趙慶衛(wèi)博士一邊說,“這些語音識別技術(shù)是近一兩年才開始應用的。”

        2006年5月8日,在中國科學院聲學研究所中科信利語音實驗室里,趙慶衛(wèi)博士向記者演示了實驗室在語音識別技術(shù)的一些應用軟件產(chǎn)品。

        一個單位,兩塊牌子。顏永紅的名片上印著兩家單位名稱:中科信利技術(shù)有限公司和中國科學院聲學所語音實驗室,其實這兩個指的是同一個單位。

        顏永紅既是中科信利公司的董事長,同時兼任語音實驗室的主任。中科院聲學研究所所長田靜博士將這種模式稱為中科院高科技產(chǎn)業(yè)化的“試點”。

        “在國內(nèi)公司里面,真正將語音識別產(chǎn)品拿出來在國家電信網(wǎng)上使用的,應該只有我們。”顏永紅表示。

        *音頻搜索:從關(guān)鍵詞到內(nèi)容

        “在將來數(shù)年內(nèi),互聯(lián)網(wǎng)將成為一個浩大的視/音頻檔案庫。”顏永紅順手指了一下他桌子上的聊天攝像頭。

        伴隨多媒體內(nèi)容制作成本下降,諸如《饅頭》之類網(wǎng)民自制的音視頻內(nèi)容在互聯(lián)網(wǎng)上日益增多,一段用錄音筆隨手錄下的講話、自我娛樂的博客音頻,或是用DV親手拍下的短劇,將大大激發(fā)網(wǎng)民的創(chuàng)造熱情。而3C(Computer、Communication和Consumer Electrics)融合帶來的應用,將漸漸抹平個人電腦、電視和移動設備之間的界限。然而,如何在這樣浩繁的數(shù)據(jù)庫里查找所需的片斷,亦將成為困擾互聯(lián)網(wǎng)搜索的難題。

        “目前的搜索技術(shù)主要是搜索音視頻的關(guān)鍵詞,如名字或作者,并沒有辦法搜索音頻內(nèi)容。”顏永紅指出。

        如今,大多數(shù)的視/音頻搜索引擎依賴于人工創(chuàng)建的文字信息,比如包含視/音頻網(wǎng)頁的環(huán)繞文字;或者注冊源的描述性文字(作品名稱或作者名字)。步入下一個網(wǎng)絡(NGN)時代時,多媒體信息將必然增多。

        但由于音視頻內(nèi)容都包含在文件里面,并沒有一個直白的文字材料可以去搜索,這個時候,需要一種技術(shù)對音視頻文件去理解,只有知道了內(nèi)容以后,才能應用搜索引擎。

        通過語音識別技術(shù),可以把多媒體文件變成文字。然而,一旦實現(xiàn)了這種轉(zhuǎn)變,又將產(chǎn)生一個老問題:如何有效地進行文字搜索。
      事實上,實現(xiàn)了音頻向文字的轉(zhuǎn)變,只要使用現(xiàn)有的搜索引擎技術(shù),就可以解決這個老問題。“對于下一代搜索引擎來說,語音識別技術(shù)是關(guān)鍵。”顏永紅說道,頭略微昂高了些,眼睛直視著前方。

        *前語音搜索時代的商機

        有一臺遙控器,用戶就可以直接在電視上使用搜索引擎,搜索視頻語音內(nèi)容中的文字。

        2006年4月27 日,在“2006微軟亞洲研究院創(chuàng)新日”開幕式上,一臺具有點播視/音頻搜索功能的電視機吸引了觀眾的目光。這是微軟亞洲研究院利用語音識別和信息檢索相關(guān)技術(shù)研發(fā)的新產(chǎn)品。

        “目前,它主要應用在消費電子類產(chǎn)品上。”微軟亞洲研究院語音組副研究員趙勇表示,語音識別技術(shù)肯定會對未來的互聯(lián)網(wǎng)搜索引擎產(chǎn)生重大影響,“但現(xiàn)在還沒有在互聯(lián)網(wǎng)搜索領(lǐng)域使用。”

        “我們現(xiàn)在已經(jīng)可以為客戶提供整體解決方案。”顏永紅在中科信利與富迪科技結(jié)盟儀式上表示。2006年4月20日,兩家公司宣布形成結(jié)盟,以適應真實語言環(huán)境和個性化的信息家電應用需要,并力圖在交互語音市場中推廣語音識別技術(shù)的廣泛使用。

        富迪科技是應用SAM(小型陣列麥克風Small Array Microphone)硬件技術(shù)的公司,通過解決語音處理過程中遇到的回聲及噪聲,提高語音傳達的準確性。顏永紅把這種合作模式描述為:“軟件+硬件”。

        語音識別系統(tǒng)的性能受許多因素的影響,包括不同的說話人、說話方式、環(huán)境噪音、傳輸信道等。

        提高系統(tǒng)精確性,就是要提高系統(tǒng)克服這些因素影響的能力,使系統(tǒng)在不同的應用環(huán)境、條件下保持性能穩(wěn)定;自適應的目的是根據(jù)不同的影響來源,自動地、有針對性地對系統(tǒng)進行調(diào)整,在使用中逐步提高性能。

        語音系統(tǒng)中的噪聲包括環(huán)境噪聲和錄音過程加入的電子噪聲。增強系統(tǒng)精確性的特征方法包括語音增強和尋找對噪聲干擾不敏感的特征。

        富迪科技的SAM和芯片技術(shù)就是確保通信免除回聲和噪音的干擾。SAM的波束形成技術(shù)能精確地形成一個對準說話人的椎狀窄波束,只接收該說話人的聲音,同時抑制環(huán)境中的噪音與干擾。這些技術(shù)已經(jīng)成功使用在汽車免提通信/遠程通信以及VoIP電話等。

        2005年,中信科利通過三家增值服務商將語音技術(shù)應用于中國電信、中國網(wǎng)通、中國移動等20個省的語音呼叫服務上。

        在傳統(tǒng)的模式下,打單位電話,總是需要先轉(zhuǎn)到企業(yè)總機,再經(jīng)接線生轉(zhuǎn)向目的地。現(xiàn)在應用了語音識別技術(shù),只要說出那個人的名字,機器就直接轉(zhuǎn)到相應人的分機上。

        走在大街上,經(jīng)過音像店,手機用戶突然聽到一首歌曲,旋律很美。這時候,人們?nèi)绻胝业竭@首歌曲,怎么辦?可以用手機撥號到服務器上,對著話筒哼出這段旋律,服務臺就會告訴大家歌曲的名字和歌手的名稱。這是中科信利推出的基于分布式集群架構(gòu)的語音處理平臺TSE。

        TSE可以集成多個不同的語音處理模塊,對多個服務器進行動態(tài)資源管理和負載均衡,具有容錯處理功能,可以同時處理大規(guī)模并發(fā)應用。

        據(jù)介紹,一臺普通的服務器可以同時支持90線并發(fā)應用,識別準確率達到95%以上。TSE現(xiàn)有的主要功能模塊包括:語音識別、歌詞檢索、旋律識別、語音搜索以及特定網(wǎng)站語音搜索。

        在演示中,趙衛(wèi)東特意演唱了一段歌曲,很快,識別模塊就列出了一長串兒備選音樂。

        2005年,國內(nèi)語音合成技術(shù)企業(yè)安徽中科大訊飛信息科技有限公司通過和美國Nuance公司的合作,在語音識別技術(shù)市場開始了與中信科利的角逐。

        美國Nuance公司是由原來國際上四大語音公司以及其他在語音技術(shù)方面有特點的語音公司整合而成。合并以后,Nuance成為了全球首屈一指的語音解決方案供應商,在全球語音市場穩(wěn)居。它能夠提供了從網(wǎng)絡到IVR(Interactive Voice Response,互動式語音應答)的應用方案。

        憑借Nuance多達28個語種的語音識別技術(shù)和在美國宇航局太空總署研發(fā)的宇宙飛船中的語音控制技術(shù),安徽中科大訊飛將有力地推動國內(nèi)語音市場的競爭態(tài)勢。

        *全面商用尚待時日

        盡管堅信語音識別技術(shù)在下一代搜索引擎中是關(guān)鍵,而且已經(jīng)有了初步的商業(yè)嘗試。顏永紅依然認為,“大規(guī)模普及商用仍需要5~10年的時間”。這主要是尚有一些技術(shù)難題有待解決。

        語音識別的精確度還需要大力提高,當前的語音識別技術(shù)難免會引發(fā)一些錯誤。此外,對計算機而言,計算復雜性還太高。作為一個使用者,如果建一個網(wǎng)站進行語音搜索,可能需要大量的服務器。同時,硬件條件并不成熟。

        “我們希望,‘十一五’規(guī)劃結(jié)束的時候,至少要讓相當多的人接受語音搜索,而不僅是談理念。”顏永紅表示,五年的時間,由于技術(shù)上的摩爾定律效應,計算復雜度的問題將可以解決。對于復雜性太高的問題,也許五年以后就不存在了。

        對于語音識別的精確度問題,顏永紅坦言:“這需要專業(yè)人員研究算法,努力把錯誤率降下來。”

        針對目前的簡單應用,語音識別技術(shù)已經(jīng)不存在什么問題。比如中科信利的中文電視廣播新聞節(jié)目識別系統(tǒng)已經(jīng)被英國Autonomy公司采用,并作為其提供給全國各電視臺的數(shù)字媒體管理系統(tǒng)中一個核心技術(shù)模塊。

        若要在人機交互中讓計算機真正理解那些并不標準的發(fā)言人的語音,則尚有一定的難度。它要實現(xiàn)完全的商用,還有較長的路途要走。

        在演示中,有人如果發(fā)言時帶南腔北調(diào),或說走調(diào)的話,計算機往往不能準確辨識。顏永紅解釋,這就和人一樣,比如一個記者,講新聞、攝影方面的內(nèi)容,可能很精通,也比較好理解。但是,如果讓他坐到隔壁去聽一個化學教授的講座,可能就聽不懂。把全球互聯(lián)網(wǎng)的搜索內(nèi)容,完全放開,計算機辨別、確認則具有很大的難度。解決的途徑之一是,為搜索限定范圍,比如局限于攝影方面的內(nèi)容,語音識別準確性會提高。

        再有就是多媒體的內(nèi)容理解,這要比文字的理解難度高很多。就文字而言,不管是哪種,對計算機來說,都是一大堆的0、1編碼。但對于語言來說,全世界有多少種語言,就需要有多少個開發(fā)語音識別技術(shù)的公司。

        公司往上發(fā)展一步,難度不是只增加一個數(shù)量級,而是幾個數(shù)量級。這就決定了在語音搜索市場實現(xiàn)一家公司壟斷幾乎不可能。
      顏永紅認為:“將來,企業(yè)也許會通過收購來完成多語種語音搜索來覆蓋市場。”語音識別很大的障礙是語言障礙。

        目前,中科信利主要是做中文語音識別,英文的也有。而一旦做英文方面的識別,就需要很多英文數(shù)據(jù)。“收集這些數(shù)據(jù)很困難。”顏永宏表示。

        將來是否會和中外互聯(lián)網(wǎng)搜索引擎公司合作?顏永紅表示,有接觸的愿望,但尚無實際進展。他認為,“如果我們東西做得好,他們肯定會用。當然,這還是一個不成熟的技術(shù)。”

      免費預約試聽課

      亚洲另类欧美综合久久图片区_亚洲中文字幕日产无码2020_欧美日本一区二区三区桃色视频_亚洲AⅤ天堂一区二区三区

      
      

      1. 亚洲色中文字幕先锋 | 久久国产伦三级理电影 | 日本精品在线一区欧美 | 午夜短视频福利在线播放 | 亚洲午夜主播在线网址 | 日韩欧美在线导航亚洲都市 |