無論膚色、階層、國籍、身體和認(rèn)知狀態(tài),所有人都應(yīng)能夠感受科技帶來的進(jìn)步。 文 | 光譜 去年,Google 在 I/O 大會(huì)上展示了AI 所取得的令人驚訝的能力。而今年,它仍然沒有讓我失望。 2019年5月7日,Google 年度開發(fā)者大會(huì) I/O 2019 在老地點(diǎn)正式召開。從搜索到 Android,從智能助理到深度學(xué)習(xí),這家地表最強(qiáng)科技公司的眾多部門一展在過去一年時(shí)間里取得的進(jìn)展。 今年的許多新功能、技術(shù)和體驗(yàn),重點(diǎn)都被放在了“用 AI 為人服務(wù),降低干擾、去除繁瑣和提高效率”這件事上。 在本屆 I/O 大會(huì)中,我們看到了一個(gè)從未如此強(qiáng)大,甚至接近所謂“通用人工智能”的 Google Assistant 虛擬助理。只需要用自然語言發(fā)布命令,它就可以完成過去從未想過能完成的任務(wù); 我們還感受到圍繞 Google 搜索的新功能帶來的前所未有的體驗(yàn)創(chuàng)新,讓我們?cè)趪饴眯袝r(shí)再也不用擔(dān)心看不懂菜單、交通指示; 通過新的深度學(xué)習(xí)技巧 federated learning,用戶不需要上傳數(shù)據(jù),就能感受到 AI 模型所帶來的定制化體驗(yàn)。Google 將它運(yùn)用到了十億級(jí)用戶的產(chǎn)品當(dāng)中,讓我們看到它在 AI 的時(shí)代保護(hù)用戶數(shù)據(jù)隱私,不只是嘴上說,也有切實(shí)的行動(dòng)。 這次 I/O 上,Google 還宣布了許多面向障礙人士設(shè)計(jì)的功能,比如讓為“漸凍人癥”(ALS)患者的面部表情設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),從而讓機(jī)器可以理解這些障礙人士的“自然語言”…… 1 AI 幫你完成重復(fù)工作 在北美工作和生活,經(jīng)常在線上完成訂單的同學(xué)可能經(jīng)常遇到這一情況:每次都要填寫大量的表格,輸入重復(fù)的信息,包括姓名、聯(lián)系方式、機(jī)票時(shí)間班次、車型、賬單地址、送貨地址等,來回在各種網(wǎng)頁跳轉(zhuǎn),如果在手機(jī)網(wǎng)頁上還要放大縮小頁面點(diǎn)到表格上才能輸入……浪費(fèi)了大量的時(shí)間 為什么這類操作,不能像密碼 autofill 那樣自動(dòng)完成? Duplex on the web 是 Google Assistant 的一個(gè)新能力。它的任務(wù),就是幫助你在網(wǎng)頁上完成任何任務(wù)。不過目前,它主攻的方向是完成訂單,比如網(wǎng)購、租車和訂票。 比如在下面視頻中,用戶因?yàn)槌霾钚枰廛?。Google Assistant 1)通過日歷提取了用戶的日程、目的地和往返航班信息, 2)自動(dòng)打開租車網(wǎng)站,確認(rèn)上述信息是否正確, 3)再按照用戶以往租車習(xí)慣直接選擇車型,再次跟用戶確認(rèn), 4)最后確認(rèn)整個(gè)訂單。 如果你仔細(xì)觀察,全程用戶只點(diǎn)了4次屏幕……四次!就下好了訂單,完成了整個(gè)租車的流程。 為什么 Google Assistant 能夠代替用戶完成這些任務(wù)?首先,因?yàn)?Google 內(nèi)部系統(tǒng)打通,Assistant 可以讀取用戶的 Gmail、日歷以及保存好的付款信息,從而免去用戶手動(dòng)輸入。其次,Duplex on the web 本身是一項(xiàng)非常復(fù)雜,但在提升用戶效率上效果拔群的技術(shù)。它的核心是一個(gè)遞歸神經(jīng)網(wǎng)絡(luò) (RNN),執(zhí)行包括自然語言理解、處理、語音識(shí)別、文字轉(zhuǎn)語音、信息錄入等多種任務(wù)。 去年我們報(bào)道過,Duplex 可以模擬出一個(gè)自然聲音,替用戶給餐館、酒店或理發(fā)店打電話,展現(xiàn)出了強(qiáng)大的自然語言計(jì)算能力。 其實(shí),Duplex 的本質(zhì)就是一個(gè)專門做“下訂單”這件事的聊天機(jī)器人。不過,去年的 Duplex 和今年的 Duplex on the web 區(qū)別在于:前者的交互就是聊天,基于語音識(shí)別和自然語言處理,后者更強(qiáng)調(diào)讓 AI 完成基于圖形界面的交互工作。 該功能將在今年晚些時(shí)候面向美國和英國市場推出,支持所有內(nèi)置 Google Assistant 的 Android 手機(jī),可以完成的任務(wù)包括租車和電影票。 無疑,如果你已經(jīng)在使用 Google 產(chǎn)品,Google 就已經(jīng)拿到了你大量的數(shù)據(jù)。在無法離開谷歌全家桶/沒有更好的替代方案前提下,我們自然會(huì)希望 Google 為我們帶來更多的價(jià)值。Duplex on the web 就是這樣一個(gè)功能,它幫助我們完成高重復(fù)性的工作,帶來了效率和體驗(yàn)的提升。 2 更快、更聰明的虛擬助手 今年,由于在遞歸神經(jīng)網(wǎng)絡(luò)技術(shù)方面的進(jìn)步,Google 將新版 Google Assistant 背后的神經(jīng)網(wǎng)絡(luò)模型大小從數(shù)百 GB 縮小到了不到500MB。這意味著兩件事: 1)Google Assistant 終于可以不需要和云端相連,在本地使用了; 2)正因?yàn)椴恍枰?lián)網(wǎng),它的語音識(shí)別、響應(yīng)和完成任務(wù)的速度顯著提升了。 現(xiàn)場演示的效果令人震驚。隨著演示者說出命令,句子說完的一秒鐘之內(nèi) Google Assistant 已經(jīng)執(zhí)行完畢:演示者命令手機(jī)打開計(jì)算器、日歷、瀏覽器等軟件,以及約翰·傳奇的 Twitter 頁面,Assistant都迅速完成了任務(wù)。 演示者讓 Assistant 在 Google Photos 里找到所有黃石公園的照片,Assistant 很快就找到了那些照片。演示者又追加了一句“the ones with animal'(完整語境:黃石公園所有照片里有動(dòng)物的照片),雖然命令里沒有任何語境,但是 Assistant 仍然正確找到了響應(yīng)的照片。 當(dāng)回復(fù)郵件時(shí),Assistant 還能理解演示者所說的話屬于郵件正文,還是“標(biāo)題:xxx”這樣的命令,并作出對(duì)應(yīng)的操作。 全程,演示者沒有觸碰屏幕哪怕一次,所有的任務(wù)都通過語音完成——虛擬助手的執(zhí)行能力和效率已經(jīng)和鋼鐵俠的賈維斯差不多。而且因?yàn)椴恍枰?lián)網(wǎng),現(xiàn)場的演示是在飛行模式下進(jìn)行的(視頻僅為示意): Google 宣稱,因?yàn)榭梢栽诒镜剡\(yùn)行,新版 Google Assistant 理解和處理請(qǐng)求的速度比當(dāng)前版本快10倍。不僅如此,新版 Google Assistant 的自然語言理解能力比前代有很大增強(qiáng),現(xiàn)在可以連續(xù)追加請(qǐng)求,不用每次都加一句'Hey Google/Ok Google',而且還能跨應(yīng)用程序完成任務(wù)。 可能是因?yàn)閷?duì)手機(jī)計(jì)算性能或者特殊硬件有要求,Google 宣布下一代 Pixel 手機(jī)才可以使用新版 Assistant。不過按照慣例,新功能發(fā)布半年到一年之后,因?yàn)?Google 對(duì)神經(jīng)網(wǎng)絡(luò)模型的持續(xù)優(yōu)化,老款設(shè)備應(yīng)該也會(huì)支持。 對(duì)于普通人來說,Google Assistant 的改進(jìn)效果可能并沒有那么顯著,畢竟大部分人都有靈活的雙手,也不一定認(rèn)為語音控制就是最合適的交互方式。但是,對(duì)于雙手行動(dòng)不便的障礙人士,更快的響應(yīng)速度,以及對(duì)語音控制的更好支持,意味著當(dāng)他們使用手機(jī)時(shí),也可以享受 AI,享受 Google Assistant 對(duì)生活和工作帶來的改善。 3 讓AI對(duì)障礙人士一視同仁 在本屆 I/O 上,Google 為障礙人士帶來的福利,可不止上面 Google Assistant 這一條。 關(guān)注科技進(jìn)展的朋友可能都聽說過,即便是在基于神經(jīng)網(wǎng)絡(luò)的人工智能中,也存在偏見 (bias)。這偏見可能來自于 AI 的開發(fā)者,但更多時(shí)候原因是結(jié)構(gòu)化的。比方說,作為訓(xùn)練數(shù)據(jù)的有色人種照片太少,訓(xùn)練出的人臉識(shí)別系統(tǒng)對(duì)有色人種的表現(xiàn)就很差。 同樣,當(dāng)訓(xùn)練語音識(shí)別和自然語言理解系統(tǒng)時(shí),我們需要使用大量中文或者英文的高精度語料。但是,許多開發(fā)者沒有想過的是:發(fā)音障礙人士(比如聾啞人)的口頭表達(dá)能力很差,他們的發(fā)音對(duì)于普通人來說很難理解——那么,他們就不配享受語音識(shí)別和自然語言技術(shù)進(jìn)步帶來的成果嗎? Google 顯然不這樣認(rèn)為。在 I/O 2019 上,該公司宣布了內(nèi)部正在做的幾個(gè)專門解決此類問題的項(xiàng)目。 Project Euphonia 就是這樣一個(gè)項(xiàng)目。Google AI 的研究人員和世界上致命的“漸凍人癥”(ALS)救助機(jī)構(gòu)合作,了解患者對(duì)于溝通的需求和最大的渴望是什么。研究人員將漸凍人癥患者有限的語句錄下來,轉(zhuǎn)成聲譜圖的視覺形式,將它作為訓(xùn)練數(shù)據(jù)喂給神經(jīng)網(wǎng)絡(luò)。 訓(xùn)練結(jié)果是顯著的。盡管 Project Euphonia 還在科研階段,強(qiáng)化過的語音識(shí)別系統(tǒng)對(duì)發(fā)音障礙人士的魯棒性已經(jīng)達(dá)到了商業(yè)化產(chǎn)品(比如 YouTube 自動(dòng)生成字幕)的水平。 但是,每一位障礙人士面臨的障礙千差萬別。比如深度漸凍人癥患者和高位截癱患者,往往連說話的能力都被剝奪,有些人只能發(fā)出“無意義”的聲音,有些人還能做面部表情就已經(jīng)是奇跡。在過去,這些人使用互聯(lián)網(wǎng),只能通過眼球追蹤的鼠標(biāo)/打字板,對(duì)交流形成了巨大阻礙。 針對(duì)不同的身體和認(rèn)知障礙情況,Project Euphonia 的研究人員找到一種定制化 AI 算法的方式,對(duì)聲音、表情進(jìn)行學(xué)習(xí),現(xiàn)在已經(jīng)能夠準(zhǔn)確地理解并傳遞患者想要表達(dá)的內(nèi)容或者情緒,并控制電腦完成對(duì)應(yīng)的操作。 在一個(gè)演示視頻當(dāng)中,一位十三年深度 ALS 患者 Steve Saling坐在輪椅上看球賽,當(dāng)他支持的隊(duì)伍進(jìn)球時(shí),系統(tǒng)識(shí)別到了他的表情,并播放了歡呼和喇叭的音效。 播放完這個(gè)演示視頻,Google CEO 頌達(dá)爾·皮柴回到場上,眼眶帶有一點(diǎn)濕潤。 另一個(gè)名叫 Live Relay 的功能,在某種程度上和去年的 Duplex 電話機(jī)器人非常相似。它的任務(wù)是幫助聾啞人打電話。 Google 遇到的一個(gè)案例是,一位以色列聾啞人怎么都弄不好他的寬帶,但是寬帶公司除了電話之外不支持其他任何客服方式——沒有電郵、短信和打字聊天。而通過 Live Relay,聾啞人獲得了一個(gè)能通過語音和對(duì)方正常交流的“代理人”,而他自己只需要打字或者用 AI 生成的短語控制這個(gè)代理人即可。 有了這個(gè)技術(shù),聾啞人也能和其他人通過電話交流了。 在這個(gè) AI 驅(qū)動(dòng)技術(shù)進(jìn)步的年代,AI 應(yīng)當(dāng)為了所有人而開發(fā),它帶來的進(jìn)步不應(yīng)該只被一小部分人所感受到。“我們需要確保在神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中去掉偏見?!逼げ裾f。 如果像 Project Euphonia 這樣的技術(shù)早幾十年誕生,正好趕上霍金的輝煌年代,該有多好? 4 讓每一位普通人的生活更輕松 所有人,當(dāng)然也包括大部分人。盡管對(duì)障礙人士格外看重,Google 今年也沒有忘掉普通用戶。 前面提到的 Google Assistant 改進(jìn)、Duplex on the web 技術(shù),其實(shí)對(duì)所有人的生活都能帶來改變。除此之外,橫跨 Google 整個(gè)產(chǎn)品陣列,在今年的 I/O 大會(huì)上都有值得一提的功能更新。 在中國市場上,包括百度在內(nèi)的搜索產(chǎn)品整合相機(jī)拍攝功能已經(jīng)有很長一段時(shí)間了。而 Google 在兩年前才在手機(jī)端搜索/相機(jī) app 里整合了 Google Lens 技術(shù)。不過和同類視覺搜索產(chǎn)品相比,Google Lens 的進(jìn)化速度未免有點(diǎn)快…… I/O 2019 大會(huì)上,Google Lens 獲得了一個(gè)許多用戶可能都用得上的功能:AR 點(diǎn)菜…… 聽到名字你可能覺得無聊,點(diǎn)菜就點(diǎn)菜,搞什么 AR?別著急,其實(shí)這個(gè)功能蠻簡單也挺有用:在餐館里,對(duì)著一張全是文字的菜單拍照,手機(jī)會(huì)自動(dòng)告訴你那幾道菜評(píng)價(jià)最好,甚至還能給你調(diào)出幾張照片,方便你點(diǎn)菜。 這個(gè)功能的背后,生活在西方國家或經(jīng)常出國旅行的中國朋友可能都感同身受:不像中餐館喜歡放圖,很多歐美餐館菜單都是純文字,上面只有菜名和用料,更別提大部分人對(duì)用料的英文也一知半解,經(jīng)常出現(xiàn)點(diǎn)完了還不知道自己在吃什么的情況。 而這次 Google 推出這個(gè)功能,讓我明白了一點(diǎn):原來不只是中國人,點(diǎn)菜對(duì)全世界人民都是個(gè)難題啊…… Google Lens 的這個(gè)功能,實(shí)現(xiàn)方式其實(shí)很好理解:首先用 GPS 或手機(jī)信號(hào)的地理位置記錄來確認(rèn)用戶所在的餐館,然后用光學(xué)字符識(shí)別之類的技術(shù)對(duì)菜單進(jìn)行索引,再跟 Google Maps/Yelp(美國版大眾點(diǎn)評(píng))上的熱門菜品和評(píng)價(jià)進(jìn)行比對(duì),最后再把熱門菜品通過 AR 技術(shù)投射在屏幕上。 以后,出門下館子再也不怕點(diǎn)菜了。 小票識(shí)別:在美國吃飯大家都喜歡各付各的(=中國的 AA 制),但也會(huì)經(jīng)常遇到餐館不收多張卡的情況,再加上小費(fèi),每個(gè)人該付多少很不好算。而 Google Lens 現(xiàn)在有了一個(gè)新功能,用相機(jī)拍一下小票,Lens 會(huì)自動(dòng)識(shí)別金額,按照用戶希望的比例計(jì)算小費(fèi),最后再算出分單的金額——一個(gè)挺有用也挺有趣的功能。 通用隱身模式:當(dāng)大家不想自己的瀏覽記錄被追蹤和記錄,特別是瀏覽某些不可名狀網(wǎng)站的時(shí)候,都會(huì)打開 Chrome 瀏覽器的隱身模式 (incognito mode)。 現(xiàn)在,Google 計(jì)劃更多的產(chǎn)品支持隱身模式。比方說,你臨時(shí)需要查看一個(gè) YouTube 視頻,但是不想今后自己的推薦里出現(xiàn)大量類似的視頻,點(diǎn)一個(gè)按鈕就可以在 YouTube 里打開隱身模式。目前 YouTube 已經(jīng)支持,不久后 Google Maps 和 Google 搜索也將引入隱身模式。 Federated Learning:簡單來說,用戶的數(shù)據(jù)不上傳,只在本地訓(xùn)練訓(xùn)練一個(gè)簡單的獨(dú)立模型→這個(gè)模型上傳(不攜帶可識(shí)別或不可識(shí)別的用戶數(shù)據(jù)),在云端進(jìn)行計(jì)算,整合出一個(gè)通用的模型,再下載到用戶的終端設(shè)備上。 這樣做,用戶即能感受到基于深度學(xué)習(xí)的人工智能技術(shù)帶來的好處,又避免了自己的數(shù)據(jù)被上傳。Google 透露,目前 Gboard 輸入法就在采用 federated learning 技巧。 Live Caption:在聲音嘈雜或情況復(fù)雜的環(huán)境里用手機(jī)看視頻,想要聽清楚聲音是不現(xiàn)實(shí)的,傷耳朵,也容易讓自己失去對(duì)周遭的感知,無法避免危險(xiǎn)情況出現(xiàn)。所以,我們都喜歡開字幕。 但問題是,不是所有視頻網(wǎng)站都有字幕功能,不是所有內(nèi)容提供者都考慮到觀眾的需求添加了字幕。所以 Google 做了這個(gè)功能,基于一個(gè)幾十 kb 大小的模型,完全利用手機(jī)本地的計(jì)算能力,能夠?qū)θ魏问謾C(jī)端播放的視頻媒體(Twitter、Instagram、本地視頻等)生成實(shí)時(shí)的字幕。 Live Caption 的開關(guān)在音量調(diào)節(jié)的界面里,按一下手機(jī)音量+或者-按鈕就可以看到。該功能將隨 Android Q 在今年夏天推出。 多年以來,驅(qū)動(dòng) Google 進(jìn)步的技術(shù),已經(jīng)從搜索變成了 AI。它的用戶群也從北美和全世界的網(wǎng)民,逐漸擴(kuò)展到了更多的人——其中包括其他發(fā)展中國家市場的非網(wǎng)民、文盲和障礙人士——所謂的“下一個(gè)十億”。 與此同時(shí),它的使命卻一直沒有改變:整合全球信息,使人人都能訪問并從中受益。(organize the world’s information and make it universally accessible and useful.) 這意味著,Google 的產(chǎn)品和技術(shù),必須可以被所有人使用,并且對(duì)所有人有用。而 Google 在 I/O 2019 上發(fā)布的諸多功能,在我看來皆是為了兌現(xiàn)這一承諾。 最近兩年來,Google 將“無障礙使用”(accessiblity) 作為技術(shù)創(chuàng)新的重中之重。如果一個(gè)產(chǎn)品無法被所有人所使用,那么它可能不是一個(gè)具備同理心的產(chǎn)品,會(huì)導(dǎo)致用戶的疏遠(yuǎn),進(jìn)而導(dǎo)致社群的隔閡。 科技以人為本,已經(jīng)不只是諾基亞的口號(hào)。包括 Google 在內(nèi),許多頂尖科技公司的使命都和這句話有關(guān)。無論膚色、階層、國籍、身體和認(rèn)知狀態(tài),所有人都可以感受科技帶來的進(jìn)步,我覺得那才是科技進(jìn)步的真正意義。 |
|