很多時候,落后與先知的差距,不是購買一些機器或者引進一些技術就能彌補的,落后的最可怕之處在于思維方式的落后。 AI(Artificial Intelligence,人工智能),從某種意義上來說,代表著一種因數(shù)據(jù)驅(qū)動的新思維方式——用不確定性看待世界,再用信息消除不確定性,將智能型的問題轉(zhuǎn)化為信息處理的問題。思維方式的改變意味著,現(xiàn)有的產(chǎn)業(yè)采用了新技術后,將會全面升級,成為全新產(chǎn)業(yè),帶來無限機會。這正是AI創(chuàng)業(yè)公司的先行者——第四范式所堅定的未來,AI是思維方式、是生產(chǎn)工具、是方法論,AI終將For Everyone。 他們選擇了AI 或是AI選擇了他們 “在最好的時光做最重要的事情?!痹诖蠖鄶?shù)人還在面對努力和選擇的兩難時,對自己有著肯定把握的人早就在變與不變之中,規(guī)劃好了一切。 左:第四范式CEO 戴文淵 右:第四范式首席科學家 楊強 第四范式聯(lián)合創(chuàng)始人、首席研究科學家陳雨強就是這樣的少數(shù)派,他在上海交通大學讀本科的時候就選擇了跟隨大神——當時的師兄、ACM國際大學生程序設計競賽世界冠軍戴文淵鉆研理論,在香港科技大學求學期間,師從被授予國際人工智能學會FELLOW的楊強教授,深入當時堪稱冷門的“遷移學習”;也因為對“最重要的事情”的堅持,在畢業(yè)之后,他沒有去Facebook,而是選擇了百度,在百度他才能以剛畢業(yè)的學生身份參與到核心的技術工作中,在核心領域接觸最尖端的研究;更因為對技術的初心,“人工智能這種技術能產(chǎn)生的價值不只是在互聯(lián)網(wǎng)、不只是少數(shù)的公司”,他選擇了AI領域的創(chuàng)業(yè),與師兄也是第四范式的CEO戴文淵等共同為人工智能在工業(yè)界的應用和普及“播種”。 選擇正確的背后并非是一切都順利,這其中發(fā)生過很多故事。陳雨強2012年進入百度的搜索廣告部門,團隊的技術負責人正是戴文淵,百度也是戴文淵、陳雨強畢業(yè)后的第一份工作,他們團隊負責的產(chǎn)品正是后來鼎鼎有名的鳳巢系統(tǒng)。 第四范式聯(lián)合創(chuàng)始人、首席研究科學家陳雨強 百度搜索廣告系統(tǒng)“鳳巢”一直承擔著給百度商業(yè)變現(xiàn)的重要角色,通過使用機器學習技術,從2009年上線起就開始不斷快速提升。然而,到了2012年,傳統(tǒng)技術紅利慢慢消退,鳳巢的機器學習方向一度面對增長乏力的問題。在這個時候,戴文淵單獨安排了幾個先鋒隊員開始新的技術方向的探索,陳雨強就是其中之一,開始深度學習在搜索廣告這個問題上應用的研究。 “這個階段面對的是解決一個公司的一個問題,即‘如何提升搜索廣告的點擊率’這個問題。當時我做的事情比較偏純技術,就是怎么讓深度學習應用到大規(guī)模的機器學習中。有上千億個特征,怎樣設計一個模型應用深度學習。我們當時上線了世界上第一個使用深度學習的商用系統(tǒng)?!?/p> 在全球工業(yè)界,尚沒有深度學習在大規(guī)模商業(yè)基礎上的應用,百度提前做到了,在取得了突破性進展后,整個鳳巢系統(tǒng)的團隊都開始了向深度學習的轉(zhuǎn)向,最終使得百度變現(xiàn)能力提升8倍,而這件事情還發(fā)生在深度學習在方方面面上改變整個世界之前,早于谷歌一年在搜索管應用了這個技術,不僅有效的提高了廣告的相關性與點擊率,更是在商業(yè)中取得了成功。 當戴文淵離開百度到華為,任華為諾亞方舟實驗室主任科學家,而陳雨強仍在繼續(xù)努力提升廣告點擊率,帶領著自己的團隊,改善用戶體驗,直到有一天,今日頭條進入了他的視野。 “從百度離職之后我去了今日頭條。在頭條時面對的產(chǎn)品線更多了,除了主信息流推薦以外,小頻道推薦、視頻推薦,包括信息流廣告、評論排序等等,有非常非常多的應用方向。所以在今日頭條,我面對的是一個公司內(nèi)很多很多的業(yè)務與問題?!睆囊粋€問題——廣告的點擊率到多個問題,陳雨強發(fā)現(xiàn)人工智能在工業(yè)應用上的優(yōu)化與研究更加深入了。 “對當時的頭條來說,時效性是非常重要的。除了在技術上設計一個追求極致的時效性以及極致的性能與規(guī)模的機器學習系統(tǒng)之外,我還做了一件很重要的事情,是設計了很多機制,讓這些人工智能技術能用在頭條的各個產(chǎn)品線之中?!标愑陱娕e了個例子,人工智能或者機器學習的算法其實是一個發(fā)動機引擎,機制是傳動的齒輪,怎樣把引擎的動力以最有效的方式傳動到各個部件,這是機制所做的事情。所以除了需要關心技術之外,還要關心產(chǎn)品與機制創(chuàng)新。 “第四范式”是什么呢? 從今日頭條離開后進入創(chuàng)業(yè)模式,陳雨強面對的不再是一個領域的多個問題,而是更多的業(yè)務、更多的行業(yè)、更多的問題——金融、電信、互聯(lián)網(wǎng)等各行各業(yè)、包含營銷、獲客、風控、推薦、排序等各種各樣的問題。 至此,AI的工業(yè)化之路越來越酷了。從大公司到創(chuàng)業(yè),最大的決定因素在于戴文淵、陳雨強他們都堅信認為自己的專業(yè)——機器學習,是人工智能領域中一個需要更加長期、持續(xù)投入的細分領域。“我當時出來創(chuàng)業(yè)最大的一點決心,是找到了一個不能不去做的事情?!标愑陱娬f。 在人工智能、機器學習領域成為風口之前,在風未起時就進入,現(xiàn)在看來是一個非常對的選擇。2014年,這對于人工智能領域來說,是變化來臨之年,谷歌宣布收購了DeepMind,曾有意收購DeepmMind的Facebook也緊隨谷歌、百度,搭建起人工智能實驗室。 戴文淵迅速組織起團隊,由一群技術理想主義者著手打造“第四范式”。對于陳雨強來說,工作雖曾有變化,但挖掘深度學習在工業(yè)界中的應用潛力,做深做大“做最重要的事”,這樣的方向從來沒有改變過。 不少人,在聽說“第四范式”時都難免好奇,為什么是第四范式,而不是第三或者第五呢?一家公司的名字,就像一個家庭的孩子一樣,起名往往都能透露出愿景和期待。 “第四范式”,得名于圖靈獎得主、關系數(shù)據(jù)庫的鼻祖Jim Gray生前的最后一次演講。他將人類科學的發(fā)展定義成為四個范式:第一范式,以記錄和描述自然現(xiàn)象為主的實驗科學,比如鉆木取火;第二范式,利用模型歸納總結(jié)過去記錄的現(xiàn)象,比如牛頓三定律和麥克斯韋方程等為代表的理論科學;第三范式,科學計算機的出現(xiàn),誕生了模擬復雜現(xiàn)象的計算科學;第四范式則是,通過收集大量的數(shù)據(jù),讓計算機去總結(jié)規(guī)律的數(shù)據(jù)密集型科學。 創(chuàng)業(yè)初期,其實除了少數(shù)大的互聯(lián)網(wǎng)企業(yè)和學院派人士,很少有人了解機器學習或者人工智能為企業(yè)服務之類,但是大家都對“大數(shù)據(jù)”略知一二。“人工智能=大數(shù)據(jù) 機器學習,如果說大數(shù)據(jù)是原材料、是米;機器學習是工具、是電飯煲;那么人工智能就是白米飯?!标愑陱娚钪獢?shù)據(jù)和人工智能的關系,大數(shù)據(jù)挖掘的需求加速了機器智能的技術成熟,第四范式最初都是和客戶介紹如何進行數(shù)據(jù)挖掘、如何通過技術精準匹配。 2015年初,第四范式獲得了來自某全國性股份制商業(yè)銀行的第一筆訂單,一個信用卡交易分期項目。利用數(shù)千萬的信用卡交易分期營銷數(shù)據(jù),他們用AI更精準確定哪些客戶有更大幾率去做分期付款,最終幫助客戶提升了60%?,F(xiàn)在,客戶已經(jīng)把多個業(yè)務都通過AI技術來升級。 可以說,大數(shù)據(jù)與機器智能相伴而生,這是一個計算無處不在,軟件定義一切、數(shù)據(jù)驅(qū)動發(fā)展的新時代。但是,直到AlphaGo打敗李世石這個科技界的“黑天鵝”事件出現(xiàn)以后,人工智能成為了街頭巷尾議論的話題,第四范式才真正被“理解”。這時,在人工智能領域有近十年研究經(jīng)驗的陳雨強對AI的成功也有了更深的理解。 如果一個AI 要成功的話總結(jié)起來三點,要關注技術、要關注業(yè)務、要關注人。一方面是技術,計算資源和大數(shù)據(jù)方面的支持;一方面是業(yè)務,邊界要清晰,業(yè)務有反饋;另一方面是人,包括科學家,包括應用到場景需要和人打交道。 機器學習、強化學習與遷移學習 與其他人工智能相關的創(chuàng)業(yè)公司相比,第四范式似乎光環(huán)更多,有楊強教授為之指導,有紅杉資本的沈南鵬和創(chuàng)新工場的李開復為其投資,還有一群來自百度、華為、今日頭條等巨頭公司的頂尖技術人才。 第四范式首席科學家楊強教授曾說,深度學習是過去,強化學習是現(xiàn)在,而遷移學習是未來。楊強教授本人也致力于RTL(Reinforcement Transfer Learning)的研究,這是一個將深度學習、強化學習和遷移學習有機結(jié)合的機器學習體系。從某種意義上來說,楊強教授是第四范式的精神領袖,2000年著手研究機器學習,5年后就開始深入遷移學習領域的他,在這一領域的貢獻已成為華人榜樣——在遷移學習領域,單篇論文引用數(shù)排名世界第一。而戴文淵,憑借9年前師從楊強教授,發(fā)表的論文Boosting for Transfer Learning單篇論文引用排名世界第三。 談到深度學習,大多數(shù)人并不算陌生。要解釋深度學習之前,我們需要了解什么是機器學習。機器學習是人工智能的一個分支,而在很多時候,幾乎成為人工智能的代名詞。簡單來說,機器學習就是通過算法,使得機器能從大量歷史數(shù)據(jù)中學習規(guī)律,從而對新的樣本做智能識別或?qū)ξ磥碜鲱A測。 2006年,加拿大多倫多大學教授、機器學習領域泰斗——Geoffrey Hinton和他的學生Ruslan Salakhutdinov在頂尖學術刊物《科學》上發(fā)表了一篇文章,開啟了深度學習在學術界和工業(yè)界的浪潮。這篇文章有兩個主要的信息:
為此,谷歌、百度、微軟等知名的擁有大數(shù)據(jù)的高科技公司爭相投入資源,占領深度學習的技術制高點,正是因為它們都看到了在大數(shù)據(jù)時代,更加復雜且更加強大的深度模型能深刻揭示海量數(shù)據(jù)里所承載的復雜而豐富的信息,并對未來或未知事件做更精準的預測。 但是深度學習并不是完美模型,深度學習的局限來自于幾個方面: 1.表達能力的限制。因為一個模型畢竟是一種現(xiàn)實的反映,等于是現(xiàn)實的鏡像,它能夠描述現(xiàn)實的能力越強就越準確,而機器學習都是用變量來描述世界的,它的變量數(shù)是有限的,深度學習的深度也是有限的。另外它對數(shù)據(jù)的需求量隨著模型的增大而增大,但現(xiàn)實中有那么多高質(zhì)量數(shù)據(jù)的情況還不多。所以一方面是數(shù)據(jù)量,一方面是數(shù)據(jù)里面的變量、數(shù)據(jù)的復雜度,深度學習來描述數(shù)據(jù)的復雜度還不夠復雜。 2. 缺乏反饋機制。目前深度學習對圖像識別、語音識別等問題來說是最好的,但是對其他的問題并不是最好的,特別是有延遲反饋的問題,例如機器人的行動,AlphaGo下圍棋也不是深度學習包下所有的,它還有強化學習的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學習任務都不一定是深度學習才能來完成的。 強化學習為什么是現(xiàn)在,AlphaGo下圍棋背后的DeepMind 方法其實就是深度學習和強化學習混合體,被稱為“深度強化學習(deep reinforcement learning)”。簡單來說,在這之中,深度學習是主體,強化學習解決了延時反饋的問題。 強化學習的應用其實很廣,下棋就是一個重要的場景,另外,在機器人的路徑規(guī)劃和任務完成上也應用了強化學習。除了這些之外,強化學習的應用面特別廣,可以用在很多反饋上,但這個反饋并不一定是馬上可以得到的,比如醫(yī)療領域,對藥品和醫(yī)療方案的反饋,就是一個很好的例子。 遷移學習為什么是未來?遷移學習主要是解決模型在適應其他領域或需求時的“冷啟動”(新領域的經(jīng)驗或數(shù)據(jù)不足)問題,即“舉一反三”。 舉個例子來看:陳雨強表示,遷移學習的意義就像是人類語言學習中,如果讓一個零基礎的人學習法語自然很難,但如果讓一個學過英語的人再去學法語就會相對容易很多。它可以利用一個環(huán)境中學到的知識,來幫助新環(huán)境中的學習任務。簡單來說,遷移學習主要解決了目前機器學習中存在的兩個問題:小數(shù)據(jù)的問題和個性化的問題。 科學技術的先知降臨 猶太教的先知是摩西,基督教的先知是耶穌,伊斯蘭教的先知是穆罕默德。對于技術信仰者第四范式來說,先知是AI終將For Everyone,先知更是他們的產(chǎn)品——人工智能應用者開發(fā)平臺。陳雨強看來,“先知提供的是更通用的平臺和技術,是人工智能領域的iOS?!?/strong> 2016年7月,第四范式發(fā)布了這款“先知”平臺,也是AI領域首個面向應用者的開發(fā)平臺。用陳雨強的話說,就是一個完全不懂技術的小白,大概經(jīng)歷2周的時間,就可以成為一個AI專家。為此,第四范式利用“先知”平臺在公司內(nèi)部做了一個叫做“一顆賽艇”的非專業(yè)選手人工智能建模大賽。這場比賽拒絕公司內(nèi)人工智能方向科班人士參加,讓普通人利用“先知”能做出什么可靠模型呢? 結(jié)果大出所料,在沒有經(jīng)過任何專業(yè)培訓的情況下,在由銷售、市場、公關、等非人工智能專業(yè)人士組成的隊伍中,有超過70%的參賽隊伍AUC成績(AUC是衡量模型效果的專業(yè)指標,取值在0到1之間)跨過0.8大關。在實際業(yè)務中,一般AUC高于0.8的模型就已經(jīng)達到工業(yè)水準;而過去,在整個行業(yè)中,只有極少數(shù)深耕機器學習多年、擁有豐富大規(guī)模數(shù)據(jù)處理經(jīng)驗的專家們才能搭建出AUC0.8以上的模型?!暗戎@個平臺,在我們心中還不完美,還有很長的路要走?!边€有30%的人經(jīng)過培訓沒有做到專業(yè)水平,這對技術牛們來說還難以接受。 “先知已經(jīng)供不應求了,”陳雨強說,過去一段時間,第四范式把較多精力都放在了人工智能的算法研究上,“先知”出場后,雖然需要優(yōu)化,但更重要的是將數(shù)據(jù)如何與平臺實現(xiàn)無縫對接。 從行業(yè)應用來說,互聯(lián)網(wǎng)的接受程度比較高其次則是金融等行業(yè),第四范式的愿景是努力通過降門檻、降成本,讓每個人都能用的起AI,讓每個公司都可以實現(xiàn)自己的AI策略。“AI過去是只能服務一家,現(xiàn)在可以服務幾百家,以后可以服務每一家”。這是戴文淵、陳雨強以及楊強教授一致的信仰——讓每個人用上人工智能,AI是真的可以for everyone的。 來源:機器人圈 |
|
來自: CCI16 > 《Technology》