11月27日是美國感恩節(jié)后的第一個星期五,通常都被稱作“黑色星期五”。這一天,紐約時代廣場上的兩塊大型LED顯示屏上,并沒有像往常那樣播放路透社和納斯達克的標識廣告,而是如同接收到外太空信號一般,不停地滾動著手機號碼和沒有任何邏輯聯(lián)系的詞句。 神奇的是,這些是人們撥打888-376-4336后對著話筒任意說出來的,經(jīng)過號碼背后的語音識別系統(tǒng)處理后會同步顯示在屏幕上,每個詞句下面還有似曾相識的搜索結(jié)果網(wǎng)頁。 這其實是谷歌為旗下的語音搜索進行的一項別出心裁的推廣活動。
千里之外的北京,谷歌全球副總裁維克·甘多特拉(Vic Gundotra)也在向中國媒體展示該公司剛剛推出的中文版語音搜索。“紐約最好的意大利餐廳!”維克拿出手機放在耳朵上,操著并不熟練的中文大聲說道,然后笑瞇瞇地把手里的手機轉(zhuǎn)向大家。是的,不到一秒鐘的時間,屏幕上已經(jīng)顯示出了搜索結(jié)果。
不需要再噼里啪啦地敲擊鍵盤了,一個并不陌生的語音時代難道已經(jīng)來臨?
鍵盤不再是必需品
手機是這場語音化浪潮的中心。“在小小的手機鍵盤上輸入文字搜索信息并不容易,”谷歌中國產(chǎn)品經(jīng)理許裴說,“一些較長的詞,鍵盤輸入不僅速度很慢也容易拼錯,而我們正在開車的時候是沒有辦法停下來用手打字的。”據(jù)微軟移動高級總監(jiān)帕祖斯基(Dariusz Paczuski)統(tǒng)計,使用智能手機搜索一個餐廳需要按鍵盤超過20次,發(fā)短信則需要更多下。而只需張嘴的語音搜索則能提供更方便、快速和簡單的搜索服務(wù),大大降低人們使用手機搜索的門檻。
手機的演化也為語音搜索的實現(xiàn)提供了硬件基礎(chǔ)?,F(xiàn)在幾乎所有手機都擁有錄音、照相等功能,智能手機的出現(xiàn)則讓手機從一個單純的通話裝置變成一臺小型的計算設(shè)備。按維克的話說,麥克風和攝像頭跟互聯(lián)網(wǎng)相連之后,變成了云端的耳朵和眼睛。
越來越多的公司意識到,移動搜索領(lǐng)域會呈現(xiàn)與互聯(lián)網(wǎng)搜索截然不同的人機交互方式。網(wǎng)易有道總裁周楓就曾透露,有道現(xiàn)在和未來的產(chǎn)品設(shè)計將不需要用戶手動輸入任何文字,而更多采用的是語音搜索、攝像頭搜索等智能化方式。有道搜索的手機購物助手可以利用手機條形碼掃描為消費者提供價格比對信息;而有道手機詞典則可利用手機攝像頭為用戶提供單詞實時翻譯功能等。
谷歌則把重點放在了語音搜索上。去年谷歌在美國發(fā)布了英文語音搜索服務(wù)Voice Search,應(yīng)用于Android、諾基亞S60、黑莓、iPhone等多個系列的手機。其競爭對手微軟也早早地進行了布局。2007年,微軟收購了領(lǐng)先的手機語音識別服務(wù)廠商TellMe,組成了微軟現(xiàn)在的語音團隊,TellMe為包括411商務(wù)搜索、1-800-555的信息搜索以及美國航空在內(nèi)的企業(yè)提供語音平臺。微軟新的語音團隊最大的任務(wù)就是把語音搜索技術(shù)與Windows Mobile整合起來,移動版Bing搜索在三星手機上已經(jīng)實現(xiàn)與谷歌類似的語音搜索功能。
手機將會成為語音化浪潮的中心
云端的語音搜索
語音搜索是通過云計算和機器的智能分析實現(xiàn)的。“你說的關(guān)鍵詞會成為聲波,再轉(zhuǎn)換為數(shù)字,然后把它通過‘云’發(fā)到我們的后端,計算機會基于我們所有的數(shù)據(jù),來識別這些語音。”維克說。因為所有的計算都是在云端計算的,所以用戶能在極短的時間里得到搜索結(jié)果。值得注意的是,聲波里面包含著很多背景雜音,有些背景噪音連人的耳朵都難以分辨,但計算機系統(tǒng)能夠識別出這些背景噪音并進行分離和過濾。 這樣,“無論大家在出租車還是在街上做語音搜索都可以成功。”維克說。
與文字輸入不同的是,準確性是人們對于語音識別最大的擔心。盡管按照維克的說法,谷歌已經(jīng)花了很多的時間,了解各種口音、各種習慣的表達方式,但面對人類千奇百怪的發(fā)音,語音識別永遠不可能做到完美。就在演示現(xiàn)場,當有人念出類似“清華大學(xué)附近的水煮魚”這樣的句子時,機器的識別當場便出現(xiàn)了錯誤,
然而,就像圖文搜索引擎一樣,語音搜索的優(yōu)勢在于,其語音識別模式是基于全球幾十億的搜索請求,搜索引擎的算法會隨著對搜索請求的深入分析而變得更加精準。目前,谷歌在語音搜索的識別結(jié)果的下拉菜單里,提供了幾個備選選項,用戶可以選擇正確的那個。這樣,系統(tǒng)就接受了某種“培訓(xùn)”,知道下次再有人這樣說話哪個是正確的選項。中文還有一個最為考驗語音搜索引擎的特點,那就是中文有很多同音字,但因為很多搜索都是一系列文字組織起來的,通過對人們搜索的習慣的認知,搜索引擎能夠認識出這些發(fā)音大約指的是哪些字。
“我們就像人一樣,隨著對世界認知的發(fā)展,隨著對語境認知的發(fā)展就能夠更精準地了解其他人的意思。”維克說,“如果有著幾百萬的說中文的用戶能夠使用我們中文語音搜索功能的話,我們系統(tǒng)就會變得更加聰明。”
無處不在的語音識別
手機上的語音搜索只是一個開始。語音搜索功能將延伸為語音輸入,覆蓋到手機、電腦等各種終端上。“我們的目標是使得人們在所有的地方所有時候都能使用這個應(yīng)用,”維克說,“但是我們認為手機的應(yīng)用是最急迫的,所以先做了。” 在比爾·蓋茨預(yù)測的未來十年最重要的技術(shù)進步中,語音識別技術(shù)位居首位。微軟語音團隊主管Serafin也表示:“語音操作是新的趨勢,是繼鍵盤和觸摸屏之后的必然進化方向。”
其實,自電腦誕生以來,讓電腦聽懂人們的說話,一直是IT從業(yè)者的一大心愿。在單機時代,IBM是最早進行語音識別技術(shù)研究的企業(yè),在上個世紀90年代就推出可用于聲控打字和語音導(dǎo)航的語音識別輸入軟件IBM ViaVoice VIA。用戶只要對著電腦講話即可輸入漢字,輸入速度能達到150個漢字,幾乎是鍵盤輸入的2倍、普通手寫輸入的6倍。盡管售價不菲,但這套軟件在全球已售出100多萬套。漢王科技當年正是基于這套軟件,開發(fā)出了基于語音和手寫識別的手持設(shè)備。
微軟則從Windows XP開始,在操作系統(tǒng)中添加了語音識別功能,在新推出的Windows 7里這一功能更為完善。不用鍵盤鼠標,用戶可以通過語音對計算機進行簡單的控制,如說一句“打開瀏覽器”,就可以輕松地打開IE。剛剛上市的Exchange Server 2010中則有更加先進的語音郵件預(yù)覽功能,可以自動為語音郵件提供文本預(yù)覽。不方便收聽語音郵件的情況下用戶可以先通過語音郵件預(yù)覽來了解郵件的大致內(nèi)容,也可以通過閱讀文本預(yù)覽來決定郵件的優(yōu)先順序。
而基于Web的云計算則將這種語音識別技術(shù)帶入更廣泛的應(yīng)用領(lǐng)域。不僅語音搜索成為現(xiàn)實,前不久谷歌還為YouTube推出一項新的功能,讓用戶利用語音識別為YouTube視頻添加字幕,這將大大提升YouTube視頻的觀看體驗。
古老的鍵盤和鼠標會不會漸漸從電腦配件的標準列表里消失?或許現(xiàn)在還沒多少人能接受,但誰又能否認人們對語音的想象力呢。
|