當谷歌開發版的Android移動操作系統時,這家網絡巨頭對這個操作系統解讀用戶語音命令的方式作出了一些重大的改變。當時谷歌基于所謂的“神經網絡”安裝了一個語音識別系統,這個“神經網絡”是一種計算機化的學習系統,在很大程度上能像人腦那樣運作。
負責開發這個項目的谷歌研究科學家文森特·凡毫克(Vincent Vanhoucke)稱,對許多用戶來說,谷歌作出的這種改變所帶來的影響非常大。“這個項目在某種程度上讓我們感到驚喜,表明我們只需要改變下模式就能取得相當大的改善。”他說道。
凡毫克表示,與此前版本的Android系統相比,Jelly Bean語音識別系統的誤差率要低25%左右,而且能讓用戶更加愿意使用語音命令。他表示,目前用戶在使用智能手機語音服務時傾向于使用更加人類化的語言;也就是說,用戶越來越不像是跟機器人對話。“這個語音識別系統正在改變人們的行為方式。”凡毫克說道。
這只是“神經網絡”算法正在改變科技產品運作方式以及用戶使用方式的例子之一。在二十世紀八十年代,這一領域中的研究工作曾是熱門的研究領域之一,但隨后已經沉寂了多年時間,現在則已卷土重來,微軟和IBM與谷歌都在探索這種算法能應用于哪些領域。
當用戶向Android操作系統的語音識別軟件說話時,聲音頻譜會被分解并發送到谷歌全球服務器“大軍”中的八臺電腦,隨后由凡毫克及其團隊開發的“神經網絡”模型進行處理。谷歌非常擅長把這種龐大的計算工作分解開來,然后非常迅速地進行處理;為了做到這一點,谷歌讓杰夫·迪恩(Jeff Dean)及其.下的工程師團隊負責相關工作,這個團隊以善于徹底改造現代數據中心的運作方式而聞名。 “神經網絡”給凡毫克等研究人員帶來了一種分析海量模式——在Jelly Bean的例子中是用戶語言的頻譜——的方式,然后預測一種全新的模式可能代表著什么。“神經網絡”這個比喻來自于生物學,神經元會與生物體中的其他細胞構成網絡,允許其以專業的方式處理信號。在Jelly Bean所使用的“神經網絡”中,谷歌可能通過分析龐大的現實世界數據的方式構建了多個語言運作的模式——比如說英語語音搜索請求的模式等。
“人們在很長時間里都相信——之所以會有這種想法,一部分原因是基于我們在人腦中看到的東西——想要獲得一個良好的感知系統,那么你就必須使用多層功能。”多倫多大學的計算機科學教授杰弗里·辛頓(Geoffrey Hinton)說道。“但問題在于,你能如何以有效的方式來學習這些東西。”
Android系統接收語音命令,然后谷歌使用“神經網絡”模式來對其進行處理,來判斷用戶的語音內容。谷歌的軟件首先會嘗試挑選出用戶語音中的各個部分,也就是組成單詞的不同類型的元音和輔音,這是“神經網絡”的一個層面;然后谷歌軟件會使用這些信息來作出更加復雜的猜測,每一層都會推動其更加接近于弄明白用戶說的是什么。