Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

黃元章3355 2019-05-08

展開全文

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

無論膚色、階層、國籍、身體和認(rèn)知狀態(tài)，所有人都應(yīng)能夠感受科技帶來的進(jìn)步。

文 | 光譜

去年，Google 在 I/O 大會(huì)上展示了AI 所取得的令人驚訝的能力。而今年，它仍然沒有讓我失望。

2019年5月7日，Google 年度開發(fā)者大會(huì) I/O 2019 在老地點(diǎn)正式召開。從搜索到 Android，從智能助理到深度學(xué)習(xí)，這家地表最強(qiáng)科技公司的眾多部門一展在過去一年時(shí)間里取得的進(jìn)展。

今年的許多新功能、技術(shù)和體驗(yàn)，重點(diǎn)都被放在了“用 AI 為人服務(wù)，降低干擾、去除繁瑣和提高效率”這件事上。

在本屆 I/O 大會(huì)中，我們看到了一個(gè)從未如此強(qiáng)大，甚至接近所謂“通用人工智能”的 Google Assistant 虛擬助理。只需要用自然語言發(fā)布命令，它就可以完成過去從未想過能完成的任務(wù)；

我們還感受到圍繞 Google 搜索的新功能帶來的前所未有的體驗(yàn)創(chuàng)新，讓我們?cè)趪饴眯袝r(shí)再也不用擔(dān)心看不懂菜單、交通指示；

通過新的深度學(xué)習(xí)技巧 federated learning，用戶不需要上傳數(shù)據(jù)，就能感受到 AI 模型所帶來的定制化體驗(yàn)。Google 將它運(yùn)用到了十億級(jí)用戶的產(chǎn)品當(dāng)中，讓我們看到它在 AI 的時(shí)代保護(hù)用戶數(shù)據(jù)隱私，不只是嘴上說，也有切實(shí)的行動(dòng)。

這次 I/O 上，Google 還宣布了許多面向障礙人士設(shè)計(jì)的功能，比如讓為“漸凍人癥”(ALS)患者的面部表情設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)，從而讓機(jī)器可以理解這些障礙人士的“自然語言”……

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

AI 幫你完成重復(fù)工作

在北美工作和生活，經(jīng)常在線上完成訂單的同學(xué)可能經(jīng)常遇到這一情況：每次都要填寫大量的表格，輸入重復(fù)的信息，包括姓名、聯(lián)系方式、機(jī)票時(shí)間班次、車型、賬單地址、送貨地址等，來回在各種網(wǎng)頁跳轉(zhuǎn)，如果在手機(jī)網(wǎng)頁上還要放大縮小頁面點(diǎn)到表格上才能輸入……浪費(fèi)了大量的時(shí)間

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

為什么這類操作，不能像密碼 autofill 那樣自動(dòng)完成？

Duplex on the web 是 Google Assistant 的一個(gè)新能力。它的任務(wù)，就是幫助你在網(wǎng)頁上完成任何任務(wù)。不過目前，它主攻的方向是完成訂單，比如網(wǎng)購、租車和訂票。

比如在下面視頻中，用戶因?yàn)槌霾钚枰廛?。Google Assistant

1）通過日歷提取了用戶的日程、目的地和往返航班信息，

2）自動(dòng)打開租車網(wǎng)站，確認(rèn)上述信息是否正確，

3）再按照用戶以往租車習(xí)慣直接選擇車型，再次跟用戶確認(rèn)，

4）最后確認(rèn)整個(gè)訂單。

如果你仔細(xì)觀察，全程用戶只點(diǎn)了4次屏幕……四次！就下好了訂單，完成了整個(gè)租車的流程。

為什么 Google Assistant 能夠代替用戶完成這些任務(wù)？首先，因?yàn)?Google 內(nèi)部系統(tǒng)打通，Assistant 可以讀取用戶的 Gmail、日歷以及保存好的付款信息，從而免去用戶手動(dòng)輸入。其次，Duplex on the web 本身是一項(xiàng)非常復(fù)雜，但在提升用戶效率上效果拔群的技術(shù)。它的核心是一個(gè)遞歸神經(jīng)網(wǎng)絡(luò) (RNN)，執(zhí)行包括自然語言理解、處理、語音識(shí)別、文字轉(zhuǎn)語音、信息錄入等多種任務(wù)。

去年我們報(bào)道過，Duplex 可以模擬出一個(gè)自然聲音，替用戶給餐館、酒店或理發(fā)店打電話，展現(xiàn)出了強(qiáng)大的自然語言計(jì)算能力。

其實(shí)，Duplex 的本質(zhì)就是一個(gè)專門做“下訂單”這件事的聊天機(jī)器人。不過，去年的 Duplex 和今年的 Duplex on the web 區(qū)別在于：前者的交互就是聊天，基于語音識(shí)別和自然語言處理，后者更強(qiáng)調(diào)讓 AI 完成基于圖形界面的交互工作。

該功能將在今年晚些時(shí)候面向美國和英國市場推出，支持所有內(nèi)置 Google Assistant 的 Android 手機(jī)，可以完成的任務(wù)包括租車和電影票。

無疑，如果你已經(jīng)在使用 Google 產(chǎn)品，Google 就已經(jīng)拿到了你大量的數(shù)據(jù)。在無法離開谷歌全家桶/沒有更好的替代方案前提下，我們自然會(huì)希望 Google 為我們帶來更多的價(jià)值。Duplex on the web 就是這樣一個(gè)功能，它幫助我們完成高重復(fù)性的工作，帶來了效率和體驗(yàn)的提升。

更快、更聰明的虛擬助手

今年，由于在遞歸神經(jīng)網(wǎng)絡(luò)技術(shù)方面的進(jìn)步，Google 將新版 Google Assistant 背后的神經(jīng)網(wǎng)絡(luò)模型大小從數(shù)百 GB 縮小到了不到500MB。這意味著兩件事：

1）Google Assistant 終于可以不需要和云端相連，在本地使用了；

2）正因?yàn)椴恍枰?lián)網(wǎng)，它的語音識(shí)別、響應(yīng)和完成任務(wù)的速度顯著提升了。

現(xiàn)場演示的效果令人震驚。隨著演示者說出命令，句子說完的一秒鐘之內(nèi) Google Assistant 已經(jīng)執(zhí)行完畢：演示者命令手機(jī)打開計(jì)算器、日歷、瀏覽器等軟件，以及約翰·傳奇的 Twitter 頁面，Assistant都迅速完成了任務(wù)。

演示者讓 Assistant 在 Google Photos 里找到所有黃石公園的照片，Assistant 很快就找到了那些照片。演示者又追加了一句“the ones with animal'（完整語境：黃石公園所有照片里有動(dòng)物的照片），雖然命令里沒有任何語境，但是 Assistant 仍然正確找到了響應(yīng)的照片。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

當(dāng)回復(fù)郵件時(shí)，Assistant 還能理解演示者所說的話屬于郵件正文，還是“標(biāo)題：xxx”這樣的命令，并作出對(duì)應(yīng)的操作。

全程，演示者沒有觸碰屏幕哪怕一次，所有的任務(wù)都通過語音完成——虛擬助手的執(zhí)行能力和效率已經(jīng)和鋼鐵俠的賈維斯差不多。而且因?yàn)椴恍枰?lián)網(wǎng)，現(xiàn)場的演示是在飛行模式下進(jìn)行的（視頻僅為示意）：

Google 宣稱，因?yàn)榭梢栽诒镜剡\(yùn)行，新版 Google Assistant 理解和處理請(qǐng)求的速度比當(dāng)前版本快10倍。不僅如此，新版 Google Assistant 的自然語言理解能力比前代有很大增強(qiáng)，現(xiàn)在可以連續(xù)追加請(qǐng)求，不用每次都加一句'Hey Google/Ok Google'，而且還能跨應(yīng)用程序完成任務(wù)。

可能是因?yàn)閷?duì)手機(jī)計(jì)算性能或者特殊硬件有要求，Google 宣布下一代 Pixel 手機(jī)才可以使用新版 Assistant。不過按照慣例，新功能發(fā)布半年到一年之后，因?yàn)?Google 對(duì)神經(jīng)網(wǎng)絡(luò)模型的持續(xù)優(yōu)化，老款設(shè)備應(yīng)該也會(huì)支持。

對(duì)于普通人來說，Google Assistant 的改進(jìn)效果可能并沒有那么顯著，畢竟大部分人都有靈活的雙手，也不一定認(rèn)為語音控制就是最合適的交互方式。但是，對(duì)于雙手行動(dòng)不便的障礙人士，更快的響應(yīng)速度，以及對(duì)語音控制的更好支持，意味著當(dāng)他們使用手機(jī)時(shí)，也可以享受 AI，享受 Google Assistant 對(duì)生活和工作帶來的改善。

讓AI對(duì)障礙人士一視同仁

在本屆 I/O 上，Google 為障礙人士帶來的福利，可不止上面 Google Assistant 這一條。

關(guān)注科技進(jìn)展的朋友可能都聽說過，即便是在基于神經(jīng)網(wǎng)絡(luò)的人工智能中，也存在偏見 (bias)。這偏見可能來自于 AI 的開發(fā)者，但更多時(shí)候原因是結(jié)構(gòu)化的。比方說，作為訓(xùn)練數(shù)據(jù)的有色人種照片太少，訓(xùn)練出的人臉識(shí)別系統(tǒng)對(duì)有色人種的表現(xiàn)就很差。

同樣，當(dāng)訓(xùn)練語音識(shí)別和自然語言理解系統(tǒng)時(shí)，我們需要使用大量中文或者英文的高精度語料。但是，許多開發(fā)者沒有想過的是：發(fā)音障礙人士（比如聾啞人）的口頭表達(dá)能力很差，他們的發(fā)音對(duì)于普通人來說很難理解——那么，他們就不配享受語音識(shí)別和自然語言技術(shù)進(jìn)步帶來的成果嗎？

Google 顯然不這樣認(rèn)為。在 I/O 2019 上，該公司宣布了內(nèi)部正在做的幾個(gè)專門解決此類問題的項(xiàng)目。

Project Euphonia 就是這樣一個(gè)項(xiàng)目。Google AI 的研究人員和世界上致命的“漸凍人癥”（ALS）救助機(jī)構(gòu)合作，了解患者對(duì)于溝通的需求和最大的渴望是什么。研究人員將漸凍人癥患者有限的語句錄下來，轉(zhuǎn)成聲譜圖的視覺形式，將它作為訓(xùn)練數(shù)據(jù)喂給神經(jīng)網(wǎng)絡(luò)。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

訓(xùn)練結(jié)果是顯著的。盡管 Project Euphonia 還在科研階段，強(qiáng)化過的語音識(shí)別系統(tǒng)對(duì)發(fā)音障礙人士的魯棒性已經(jīng)達(dá)到了商業(yè)化產(chǎn)品（比如 YouTube 自動(dòng)生成字幕）的水平。

但是，每一位障礙人士面臨的障礙千差萬別。比如深度漸凍人癥患者和高位截癱患者，往往連說話的能力都被剝奪，有些人只能發(fā)出“無意義”的聲音，有些人還能做面部表情就已經(jīng)是奇跡。在過去，這些人使用互聯(lián)網(wǎng)，只能通過眼球追蹤的鼠標(biāo)/打字板，對(duì)交流形成了巨大阻礙。

針對(duì)不同的身體和認(rèn)知障礙情況，Project Euphonia 的研究人員找到一種定制化 AI 算法的方式，對(duì)聲音、表情進(jìn)行學(xué)習(xí)，現(xiàn)在已經(jīng)能夠準(zhǔn)確地理解并傳遞患者想要表達(dá)的內(nèi)容或者情緒，并控制電腦完成對(duì)應(yīng)的操作。

在一個(gè)演示視頻當(dāng)中，一位十三年深度 ALS 患者 Steve Saling坐在輪椅上看球賽，當(dāng)他支持的隊(duì)伍進(jìn)球時(shí)，系統(tǒng)識(shí)別到了他的表情，并播放了歡呼和喇叭的音效。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

播放完這個(gè)演示視頻，Google CEO 頌達(dá)爾·皮柴回到場上，眼眶帶有一點(diǎn)濕潤。

另一個(gè)名叫 Live Relay 的功能，在某種程度上和去年的 Duplex 電話機(jī)器人非常相似。它的任務(wù)是幫助聾啞人打電話。

Google 遇到的一個(gè)案例是，一位以色列聾啞人怎么都弄不好他的寬帶，但是寬帶公司除了電話之外不支持其他任何客服方式——沒有電郵、短信和打字聊天。而通過 Live Relay，聾啞人獲得了一個(gè)能通過語音和對(duì)方正常交流的“代理人”，而他自己只需要打字或者用 AI 生成的短語控制這個(gè)代理人即可。

有了這個(gè)技術(shù)，聾啞人也能和其他人通過電話交流了。

在這個(gè) AI 驅(qū)動(dòng)技術(shù)進(jìn)步的年代，AI 應(yīng)當(dāng)為了所有人而開發(fā)，它帶來的進(jìn)步不應(yīng)該只被一小部分人所感受到。“我們需要確保在神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中去掉偏見?！逼げ裾f。

如果像 Project Euphonia 這樣的技術(shù)早幾十年誕生，正好趕上霍金的輝煌年代，該有多好？

讓每一位普通人的生活更輕松

所有人，當(dāng)然也包括大部分人。盡管對(duì)障礙人士格外看重，Google 今年也沒有忘掉普通用戶。

前面提到的 Google Assistant 改進(jìn)、Duplex on the web 技術(shù)，其實(shí)對(duì)所有人的生活都能帶來改變。除此之外，橫跨 Google 整個(gè)產(chǎn)品陣列，在今年的 I/O 大會(huì)上都有值得一提的功能更新。

在中國市場上，包括百度在內(nèi)的搜索產(chǎn)品整合相機(jī)拍攝功能已經(jīng)有很長一段時(shí)間了。而 Google 在兩年前才在手機(jī)端搜索/相機(jī) app 里整合了 Google Lens 技術(shù)。不過和同類視覺搜索產(chǎn)品相比，Google Lens 的進(jìn)化速度未免有點(diǎn)快……

I/O 2019 大會(huì)上，Google Lens 獲得了一個(gè)許多用戶可能都用得上的功能：AR 點(diǎn)菜……

聽到名字你可能覺得無聊，點(diǎn)菜就點(diǎn)菜，搞什么 AR？別著急，其實(shí)這個(gè)功能蠻簡單也挺有用：在餐館里，對(duì)著一張全是文字的菜單拍照，手機(jī)會(huì)自動(dòng)告訴你那幾道菜評(píng)價(jià)最好，甚至還能給你調(diào)出幾張照片，方便你點(diǎn)菜。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

這個(gè)功能的背后，生活在西方國家或經(jīng)常出國旅行的中國朋友可能都感同身受：不像中餐館喜歡放圖，很多歐美餐館菜單都是純文字，上面只有菜名和用料，更別提大部分人對(duì)用料的英文也一知半解，經(jīng)常出現(xiàn)點(diǎn)完了還不知道自己在吃什么的情況。

而這次 Google 推出這個(gè)功能，讓我明白了一點(diǎn)：原來不只是中國人，點(diǎn)菜對(duì)全世界人民都是個(gè)難題啊……

Google Lens 的這個(gè)功能，實(shí)現(xiàn)方式其實(shí)很好理解：首先用 GPS 或手機(jī)信號(hào)的地理位置記錄來確認(rèn)用戶所在的餐館，然后用光學(xué)字符識(shí)別之類的技術(shù)對(duì)菜單進(jìn)行索引，再跟 Google Maps/Yelp（美國版大眾點(diǎn)評(píng)）上的熱門菜品和評(píng)價(jià)進(jìn)行比對(duì)，最后再把熱門菜品通過 AR 技術(shù)投射在屏幕上。

以后，出門下館子再也不怕點(diǎn)菜了。

小票識(shí)別：在美國吃飯大家都喜歡各付各的（=中國的 AA 制），但也會(huì)經(jīng)常遇到餐館不收多張卡的情況，再加上小費(fèi)，每個(gè)人該付多少很不好算。而 Google Lens 現(xiàn)在有了一個(gè)新功能，用相機(jī)拍一下小票，Lens 會(huì)自動(dòng)識(shí)別金額，按照用戶希望的比例計(jì)算小費(fèi)，最后再算出分單的金額——一個(gè)挺有用也挺有趣的功能。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

通用隱身模式：當(dāng)大家不想自己的瀏覽記錄被追蹤和記錄，特別是瀏覽某些不可名狀網(wǎng)站的時(shí)候，都會(huì)打開 Chrome 瀏覽器的隱身模式 (incognito mode)。

現(xiàn)在，Google 計(jì)劃更多的產(chǎn)品支持隱身模式。比方說，你臨時(shí)需要查看一個(gè) YouTube 視頻，但是不想今后自己的推薦里出現(xiàn)大量類似的視頻，點(diǎn)一個(gè)按鈕就可以在 YouTube 里打開隱身模式。目前 YouTube 已經(jīng)支持，不久后 Google Maps 和 Google 搜索也將引入隱身模式。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

Federated Learning：簡單來說，用戶的數(shù)據(jù)不上傳，只在本地訓(xùn)練訓(xùn)練一個(gè)簡單的獨(dú)立模型→這個(gè)模型上傳（不攜帶可識(shí)別或不可識(shí)別的用戶數(shù)據(jù)），在云端進(jìn)行計(jì)算，整合出一個(gè)通用的模型，再下載到用戶的終端設(shè)備上。

這樣做，用戶即能感受到基于深度學(xué)習(xí)的人工智能技術(shù)帶來的好處，又避免了自己的數(shù)據(jù)被上傳。Google 透露，目前 Gboard 輸入法就在采用 federated learning 技巧。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

Live Caption：在聲音嘈雜或情況復(fù)雜的環(huán)境里用手機(jī)看視頻，想要聽清楚聲音是不現(xiàn)實(shí)的，傷耳朵，也容易讓自己失去對(duì)周遭的感知，無法避免危險(xiǎn)情況出現(xiàn)。所以，我們都喜歡開字幕。

但問題是，不是所有視頻網(wǎng)站都有字幕功能，不是所有內(nèi)容提供者都考慮到觀眾的需求添加了字幕。所以 Google 做了這個(gè)功能，基于一個(gè)幾十 kb 大小的模型，完全利用手機(jī)本地的計(jì)算能力，能夠?qū)θ魏问謾C(jī)端播放的視頻媒體（Twitter、Instagram、本地視頻等）生成實(shí)時(shí)的字幕。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

Live Caption 的開關(guān)在音量調(diào)節(jié)的界面里，按一下手機(jī)音量+或者-按鈕就可以看到。該功能將隨 Android Q 在今年夏天推出。

多年以來，驅(qū)動(dòng) Google 進(jìn)步的技術(shù)，已經(jīng)從搜索變成了 AI。它的用戶群也從北美和全世界的網(wǎng)民，逐漸擴(kuò)展到了更多的人——其中包括其他發(fā)展中國家市場的非網(wǎng)民、文盲和障礙人士——所謂的“下一個(gè)十億”。

與此同時(shí)，它的使命卻一直沒有改變：整合全球信息，使人人都能訪問并從中受益。(organize the world’s information and make it universally accessible and useful.)

這意味著，Google 的產(chǎn)品和技術(shù)，必須可以被所有人使用，并且對(duì)所有人有用。而 Google 在 I/O 2019 上發(fā)布的諸多功能，在我看來皆是為了兌現(xiàn)這一承諾。

最近兩年來，Google 將“無障礙使用”(accessiblity) 作為技術(shù)創(chuàng)新的重中之重。如果一個(gè)產(chǎn)品無法被所有人所使用，那么它可能不是一個(gè)具備同理心的產(chǎn)品，會(huì)導(dǎo)致用戶的疏遠(yuǎn)，進(jìn)而導(dǎo)致社群的隔閡。

科技以人為本，已經(jīng)不只是諾基亞的口號(hào)。包括 Google 在內(nèi)，許多頂尖科技公司的使命都和這句話有關(guān)。無論膚色、階層、國籍、身體和認(rèn)知狀態(tài)，所有人都可以感受科技帶來的進(jìn)步，我覺得那才是科技進(jìn)步的真正意義。

Google I/O四大新技術(shù)，讓我相信科技公司對(duì)世界還有愛

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：黃元章3355 > 《科技藝術(shù)》

舉報(bào)/認(rèn)領(lǐng)