作者|Matt Turck 譯者|大愚若智 數(shù)據(jù)生態(tài)系統(tǒng)在2017年終于實(shí)現(xiàn)了火力全開。本文為大家提供了一個(gè)有關(guān)大數(shù)據(jù)領(lǐng)域詳細(xì)的“國(guó)情咨文”,以及投資機(jī)構(gòu)針對(duì)這一行業(yè)的見解和關(guān)鍵趨勢(shì)。本文最初發(fā)布于Matt Turck博客,經(jīng)原作者授權(quán)由InfoQ中文站翻譯并分享。 寫在前面 身為數(shù)據(jù)極客,在2017年應(yīng)該能感覺很幸福。 去年,我們?cè)?jīng)問過大家“大數(shù)據(jù)還是個(gè)值得關(guān)注的大事嗎?”,并注意到由于大數(shù)據(jù)更像是一種“系統(tǒng)化工程”,因此在企業(yè)的接受速度方面要落后于整個(gè)業(yè)界的炒作。大數(shù)據(jù)技術(shù)用了多年時(shí)間進(jìn)行演化,才從一種看起來很酷的新技術(shù)變成企業(yè)在生產(chǎn)環(huán)境中實(shí)際部署的核心企業(yè)級(jí)系統(tǒng)。 2017年,我們已經(jīng)很適應(yīng)這樣的部署階段。“大數(shù)據(jù)”這個(gè)詞正在逐漸淡出我們的視野,但這種技術(shù)本身還在飛速擴(kuò)張。各行各業(yè)的各種軼事和證據(jù)證明相關(guān)產(chǎn)品越來越成熟,在越來越多的財(cái)富1000強(qiáng)企業(yè)內(nèi)開始投入實(shí)用,很多初創(chuàng)公司借助這些技術(shù)快速實(shí)現(xiàn)了收入增長(zhǎng)。 與此同時(shí),宣傳炒作的泡沫開始毋庸置疑地轉(zhuǎn)向了這個(gè)生態(tài)系統(tǒng)中機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域。過去幾個(gè)月來,人工智能領(lǐng)域涌現(xiàn)出一種“大爆炸”式的集體意識(shí),這一情況與幾年前大數(shù)據(jù)技術(shù)的“遭遇”相差無幾,不過發(fā)展速度更快。 從另一個(gè)角度來看,2017年也是激動(dòng)人心的一年:望穿秋水的IPO。今年頭幾個(gè)月,大數(shù)據(jù)領(lǐng)域的初創(chuàng)公司在這方面活動(dòng)頻頻,并得到了公開市場(chǎng)的熱切歡迎。 總的來說,數(shù)據(jù)生態(tài)系統(tǒng)在2017年終于實(shí)現(xiàn)了火力全開。與以往每年一樣,我們將通過一年一次的大數(shù)據(jù)領(lǐng)域回顧為大家提供一個(gè)詳細(xì)的“國(guó)情咨文”,將我們針對(duì)這一行業(yè)的見解總結(jié)為關(guān)鍵趨勢(shì)奉獻(xiàn)給大家。 開始吧! 上層趨勢(shì) 大數(shù)據(jù) + 人工智能 = 全新技術(shù)棧 任何風(fēng)險(xiǎn)投資機(jī)構(gòu)有幸看到的各種宣傳都能證明,2016年,每家初創(chuàng)公司都在變身成為“機(jī)器學(xué)習(xí)公司”,“.ai”已成為必備的域名,而“等等,我們會(huì)通過機(jī)器學(xué)習(xí)技術(shù)解決這個(gè)問題”已經(jīng)開始普遍出現(xiàn)在各類集資活動(dòng)的演示文稿中。 圍繞人工智能的報(bào)道、座談會(huì)、新聞郵件,以及微博層出不窮,很多早已在關(guān)注機(jī)器學(xué)習(xí)技術(shù)的人,他們的反應(yīng)就好像發(fā)現(xiàn)自己當(dāng)?shù)氐哪硞€(gè)品牌突然開始了全球化擴(kuò)張:一方面,倍感驕傲;但另一方面,就好像面對(duì)派對(duì)上姍姍來遲又裝腔作勢(shì)的人那樣表現(xiàn)出明顯的厭煩之情,同時(shí)做好了不可避免會(huì)感到失望的心理準(zhǔn)備。 雖然很容易認(rèn)為這些趨勢(shì)的發(fā)展非常和緩,但該領(lǐng)域所經(jīng)歷的演變是不可避免,并且影響深遠(yuǎn)的:機(jī)器學(xué)習(xí)正在快速成為很多應(yīng)用程序中最重要的組件。 我們正在見證一個(gè)新技術(shù)棧的涌現(xiàn),在這個(gè)技術(shù)棧中,大數(shù)據(jù)技術(shù)被用于處理數(shù)據(jù)工程方面的核心挑戰(zhàn),而機(jī)器學(xué)習(xí)技術(shù)被用于從數(shù)據(jù)中提取出價(jià)值(以分析見解或操作等形式)。 換句話說:大數(shù)據(jù)提供了渠道,人工智能提供了我們需要的智能。 當(dāng)然,這種共生關(guān)系并不是什么新事物,但只有少數(shù)人有幸能夠真正實(shí)現(xiàn)。 這些技術(shù)正在真正開始變的“民主化”?!按髷?shù)據(jù) + 人工智能”已經(jīng)成為很多現(xiàn)代化應(yīng)用(無論面向普通消費(fèi)者或企業(yè)的應(yīng)用)的默認(rèn)技術(shù)棧。大量初創(chuàng)公司和一些財(cái)富1000強(qiáng)企業(yè)都在使用這種新的技術(shù)棧(例如JP Morgan的“Contract Intelligence”應(yīng)用)。 通常來說,云計(jì)算是這個(gè)“板凳”的第三條腿,但也并非總是如此。這一領(lǐng)域的發(fā)展也受到各大云計(jì)算巨頭的推動(dòng),這些巨頭們正在舉行一場(chǎng)公開的戰(zhàn)爭(zhēng),爭(zhēng)先恐后地開始提供機(jī)器學(xué)習(xí)云(下文將詳細(xì)介紹)。 短期來看,是否可以認(rèn)為民主化會(huì)促進(jìn)人工智能技術(shù)的商品化?實(shí)際上從技術(shù)角度來說,人工智能依然很難。雖然很多工程師正在爭(zhēng)先恐后地培養(yǎng)有關(guān)人工智能技術(shù)的技能,但至少到目前,全球范圍內(nèi)深入鉆研這一領(lǐng)域的專家依然很少。 不過這種民主化的趨勢(shì)至少不會(huì)“開倒車”,機(jī)器學(xué)習(xí)技術(shù)遲早會(huì)從競(jìng)爭(zhēng)優(yōu)勢(shì)“進(jìn)化”成為一必備要素。而這種趨勢(shì)對(duì)初創(chuàng)公司和大企業(yè)都產(chǎn)生了深遠(yuǎn)的影響。對(duì)于初創(chuàng)公司:除非你所開發(fā)的人工智能軟件是最終產(chǎn)品,那么將你自己稱呼為一家“機(jī)器學(xué)習(xí)公司”這樣的做法很快將變的毫無意義。對(duì)于大型企業(yè):如果目前你還沒有積極主動(dòng)地制定“大數(shù)據(jù) + 人工智能”的戰(zhàn)略(自行實(shí)現(xiàn)或與其他供應(yīng)商合作),那么你們很快會(huì)面臨被淘汰的境地。關(guān)于大數(shù)據(jù),這樣的說法已經(jīng)持續(xù)多年了,但隨著以大數(shù)據(jù)技術(shù)為基礎(chǔ)誕生的人工智能技術(shù)飛速發(fā)展,這一天只會(huì)更快速地到來。 企業(yè)的預(yù)算:逐利 過去多年來,在我們與大數(shù)據(jù)技術(shù)的買家和賣家的交談中,我們發(fā)現(xiàn)財(cái)富1000強(qiáng)公司中,越來越多的預(yù)算被用于對(duì)核心基礎(chǔ)架構(gòu)進(jìn)行升級(jí),以及與數(shù)據(jù)分析有關(guān)的技術(shù),大家都對(duì)大數(shù)據(jù)技術(shù)給予極大關(guān)注。很多分析機(jī)構(gòu)也認(rèn)同這一結(jié)論:IDC預(yù)計(jì),到2020年,大數(shù)據(jù)和分析市場(chǎng)將從2016年的1300億美元市場(chǎng)規(guī)模增長(zhǎng)至2030億美元。 在大數(shù)據(jù)技術(shù)方面,財(cái)富1000強(qiáng)公司的很多買家正變的越來越成熟和理智。過去多年來,他們已經(jīng)進(jìn)行了充分的研究調(diào)研,現(xiàn)在已經(jīng)準(zhǔn)備好全面部署了。不僅技術(shù)型行業(yè),目前很多行業(yè)均是如此。這種飛速變化的趨勢(shì)還得到了老技術(shù)自然淘汰周期的進(jìn)一步助推,對(duì)于大型企業(yè),通常每隔幾年就會(huì)這樣做一次。曾經(jīng)逆風(fēng)飛揚(yáng)(難以剔除或取代原有基礎(chǔ)架構(gòu))的大數(shù)據(jù)技術(shù)現(xiàn)在正逐漸變的順勢(shì)而飛(“我們需要替換過時(shí)的技術(shù),市面上最好的同類技術(shù)是啥?”)。 當(dāng)然,很多大企業(yè)(“晚期從眾者”)依然是大數(shù)據(jù)領(lǐng)域的“新手”,但這種情況的變化速度變的越來越快了。 企業(yè)數(shù)據(jù)正在陸續(xù)上云 就在幾年前,如果你建議企業(yè)將數(shù)據(jù)遷移至公有云,大企業(yè)的CIO給你的回應(yīng)大部分只會(huì)是“除非我死了”,當(dāng)時(shí)他們頂多只愿意將開發(fā)環(huán)境,或各種稀奇古怪,非關(guān)鍵的對(duì)外應(yīng)用程序遷移至云端。但現(xiàn)在他們的看法似乎開始產(chǎn)生變化了,去年以來這種變化非常明顯。我們聽到了一種更為開放的心態(tài):大家已經(jīng)逐漸認(rèn)識(shí)到“反正我們的客戶數(shù)據(jù)本來就已經(jīng)保存在Salesforce的云中”,或者“在網(wǎng)絡(luò)安全的預(yù)算方面,我們的投入與AWS壓根兒沒得比”,而諷刺的是,過去多年來,對(duì)安全的顧慮曾是企業(yè)接受云計(jì)算的主要障礙之一,但云供應(yīng)商在安全與合規(guī)(HIPAA)等方面的辛苦努力終于得到了證明和回報(bào)。 毫無疑問,目前離大部分企業(yè)數(shù)據(jù)都保存在公有云中這一目標(biāo)還有一定距離,但部分原因在于遺留系統(tǒng)和管控制度。 然而演變的趨勢(shì)是明顯的,并且越來越快。云供應(yīng)商會(huì)盡一切努力促進(jìn)這一過程,甚至提供搬運(yùn)海量數(shù)據(jù)的卡車。 2017大數(shù)據(jù)全景 言歸正傳,我們想象中2017年大數(shù)據(jù)領(lǐng)域的全景是這樣的。 1 我們放大看看開源技術(shù)部分: 2 當(dāng)然,今年我在FirstMark的同事Jim Hao也對(duì)此圖的制作提供了巨大的幫助。 合并工作開始了嗎? 大數(shù)據(jù)領(lǐng)域每一年都變的更加熱鬧,因此這就造成了一個(gè)顯而易見的問題:這個(gè)行業(yè)是否迎來了大規(guī)模并購(gòu)的風(fēng)潮? 似乎還沒,至少目前還看不出這樣的趨勢(shì)。 首先,風(fēng)投們會(huì)繼續(xù)愉快地注資各家新老公司。2017年頭幾個(gè)月,為成長(zhǎng)階段的大數(shù)據(jù)初創(chuàng)公司注入巨資的消息此起彼伏:Looker(D輪,8100萬美元)、InsideSales(F輪,5千萬美元)、DataRobot(C輪,5400萬美元)、Confluent(C輪,5千萬美元)、Collibra(C輪,5千萬美元)、Uptake(C輪,4千萬美元)、WorkFusion(D輪,3500萬美元),以及MapD(B輪,3500萬美元)。另外DataBricks非常值得注意,他們?cè)?016年12月剛獲得6千萬美元的C輪投資。全球范圍內(nèi),大數(shù)據(jù)初創(chuàng)公司在2016年得到了風(fēng)投機(jī)構(gòu)總計(jì)148億美元的投資,其中10%由全球性的技術(shù)VC提供。 另外需要注意,該領(lǐng)域的相關(guān)投資大多是全球性的,歐洲、以色列(如Voyager Labs)、中國(guó)(iCarbonX)等地均有大量公司成立并獲得注資。 其次,2016年全景中曾經(jīng)提到,并購(gòu)活動(dòng)已在有序進(jìn)行,但沒有特別讓人印象深刻的,也許部分原因在于私營(yíng)公司的估值始終居高不下。我們?cè)?016年大數(shù)據(jù)全景中曾經(jīng)提到,共有41家公司被并購(gòu)(完整清單請(qǐng)參閱文末備注),2017年,并購(gòu)的節(jié)奏大體上會(huì)與去年持平。 另一方面,2017年至今已經(jīng)出現(xiàn)了一些非常大的并購(gòu)活動(dòng),例如Mobileye(被Intel以153億美元收購(gòu))、AppDynamics(思科,37億美元),以及Nimble Storage(HPE,12億美元)。 去年還曾出現(xiàn)過一種較為普遍但并不持久的現(xiàn)象:大型技術(shù)公司瘋狂并吞人工智能領(lǐng)域的初創(chuàng)公司,尤其是專為各種水平問題(Horizontal problem)組建了團(tuán)隊(duì)的公司。例如:Turi(Apple)、Magic Pony(Twitter)、Viv Labs(三星)、MetaMind(Salesforce)、Geometric Intelligence(Uber)、API.ai(Google),以及Wise.io(GE)。雖然這些舉措使得主要針對(duì)水平領(lǐng)域的人工智能初創(chuàng)公司快速成為VC眼中的香餑餑,但這種不假思索的快速收購(gòu)可能也對(duì)應(yīng)著各種炒作,以及人工智能領(lǐng)域工程師的缺乏所造成的特殊時(shí)間段。 第三,一些大型大數(shù)據(jù)初創(chuàng)公司正在變成獨(dú)立的上市公司。SNAP可以說是帶動(dòng)了技術(shù)公司IPO市場(chǎng)的復(fù)蘇,但截至目前,能夠借助該機(jī)會(huì)成功變現(xiàn)的依然只有大數(shù)據(jù)領(lǐng)域的公司。 雖然2016年全年,只有Talend這一家大數(shù)據(jù)公司成功上市,但2017年截至目前這一領(lǐng)域內(nèi)滿是IPO良機(jī)。Mulesoft和Alteryx成功上市并且表現(xiàn)還不錯(cuò),這兩家的發(fā)行價(jià)都超過了IPO價(jià)格。在撰寫本文時(shí),Cloudera也即將上市,該公司最新預(yù)估價(jià)(41億美元)與營(yíng)收(2016年2.61億美元)之間的空缺對(duì)于“獨(dú)角獸”的估價(jià)現(xiàn)象將造成不小的考驗(yàn)。此外MapR以及位置智能公司Yext也正在準(zhǔn)備上市。 接下來會(huì)是誰?多年來,Palantir作為業(yè)內(nèi)最低調(diào)的公司之一,已經(jīng)表達(dá)出想要公開上市的意圖??紤]到Palantir的最新預(yù)估價(jià)為200億美元,如果其公開估價(jià)能夠接近這一數(shù)字,將會(huì)成為IPO領(lǐng)域的一枚重磅炸彈。 打響云端戰(zhàn)役 失敗和收購(gòu)活動(dòng)也許不會(huì)讓這個(gè)行業(yè)立刻得到鞏固,但“功能合并”的情況日漸普遍,尤其是在云計(jì)算領(lǐng)域。該領(lǐng)域內(nèi)一些重量級(jí)選手正在逐漸構(gòu)建整合式的“大數(shù)據(jù) + 人工智能”服務(wù),并且吸引了不少用戶,這些服務(wù)或者使用了自行開發(fā)的產(chǎn)品,或通過流行的開源計(jì)算引擎自行實(shí)現(xiàn),這種服務(wù)距離很多買家所期待的“一站式購(gòu)買”越來越近了。 尤其是Amazon Web Services還在繼續(xù)快速發(fā)布不同類型的產(chǎn)品,讓人獲得了深刻的印象。目前該公司已經(jīng)圍繞大數(shù)據(jù)和人工智能技術(shù)提供了幾乎所有產(chǎn)品,包括分析框架、實(shí)時(shí)分析、數(shù)據(jù)庫(NoSQL、圖形等)、商業(yè)智能,以及日益完善的人工智能能力,并且在深度學(xué)習(xí)方面頗有建樹(完整清單可參閱這里)。按照這樣的速度,AWS很快將具備我們的大數(shù)據(jù)全景中所涉及的幾乎所有基礎(chǔ)架構(gòu)和分析產(chǎn)品。 雖然Google涉足云計(jì)算的時(shí)間較晚,但他們正在圍繞大數(shù)據(jù)積極主動(dòng)地構(gòu)建一系列產(chǎn)品(BigQuery、Dataflow、Dataproc、Datalab、Dataprep等),并且已將人工智能視作超越競(jìng)爭(zhēng)對(duì)手的方法之一。過去一年來,Google在人工智能方面公布了很多消息,例如:一個(gè)新的轉(zhuǎn)換引擎,雇傭了兩名出色的人工智能專家Fei-Fei Li和Jia Li來領(lǐng)導(dǎo)新成立的Cloud AI and Machine Learning部門,針對(duì)視頻識(shí)別提供的全新機(jī)器學(xué)習(xí)API(這里),并且收購(gòu)了數(shù)據(jù)科學(xué)家社區(qū)Kaggle。 更大規(guī)模的企業(yè)級(jí)IT供應(yīng)商 – 尤其是Microsoft、IBM、SAP、Oracle以及Salesforce – 也在努力推出大數(shù)據(jù)(以及人工智能)產(chǎn)品,這些產(chǎn)品都支持云端(最引人注目的是Microsoft)和本地部署。除了通過自行開發(fā),以及收購(gòu)而來的技術(shù)構(gòu)建這些產(chǎn)品,他們的合作意愿也在逐漸加強(qiáng),尤其是與“有數(shù)據(jù)的”公司(數(shù)據(jù)倉(cāng)儲(chǔ))和“有人工智能的”公司進(jìn)行合作。例如IBM和Salesforce以及SAP與Google的合作都是其中的典型。 按照企業(yè)IT行業(yè)的標(biāo)準(zhǔn)來說,云供應(yīng)商的規(guī)模依然不算大,但這些公司的野心(包括在企業(yè)技術(shù)棧中,將自己的地位從IaaS層面上升至應(yīng)用程序?qū)用娴拿鞔_意圖)和穩(wěn)扎穩(wěn)打?qū)⑵髽I(yè)數(shù)據(jù)遷往云端的做法相結(jié)合,意味著與傳統(tǒng)IT供應(yīng)商的全面戰(zhàn)爭(zhēng)已然打響,大家在爭(zhēng)奪龐大的企業(yè)級(jí)技術(shù)市場(chǎng)的控制權(quán),而大數(shù)據(jù)和人工智能將會(huì)是核心戰(zhàn)場(chǎng)。 大數(shù)據(jù)生態(tài)系統(tǒng)全景回顧 基礎(chǔ)架構(gòu) 去年發(fā)生的很多事依舊余波未平,例如流處理的重要性與日俱增,目前Spark已獨(dú)占鰲頭,但人們對(duì)競(jìng)爭(zhēng)產(chǎn)品,例如Flink的關(guān)注也逐漸開始涌現(xiàn)。此外還有一的有趣的話題時(shí)不時(shí)地出現(xiàn)在人們的對(duì)話中: SQL已經(jīng)正式回歸了 過去十多年來一直面對(duì)NoSQL技術(shù)“打壓”的SQL數(shù)據(jù)庫技術(shù)現(xiàn)已正式回歸。Google最近發(fā)布了云服務(wù)版的Spanner數(shù)據(jù)庫。Spanner和CockroachDB(Spanner的開源版本)承諾提供一種高存活性、強(qiáng)一致性,可橫向擴(kuò)展的SQL數(shù)據(jù)庫。Amazon發(fā)布的Athena與諸如Snowflake等產(chǎn)品類似,是一種大型的SQL數(shù)據(jù)引擎,可直接查詢S3 Bucket中存儲(chǔ)的數(shù)據(jù)。Google BigQuery、SparkSQL以及Presto也開始在企業(yè)領(lǐng)域占有了一席之地 – 這些都是SQL產(chǎn)品。 數(shù)據(jù)虛擬化 在公有云的接受度方面有個(gè)有趣的趨勢(shì):數(shù)據(jù)虛擬化產(chǎn)品的使用率正在快速激增。較為古老的ETL流程需要移動(dòng)海量數(shù)據(jù)(并且通常需要為數(shù)據(jù)集創(chuàng)建副本)并創(chuàng)建數(shù)據(jù)倉(cāng)庫,數(shù)據(jù)虛擬化技術(shù)使得企業(yè)可以無需移動(dòng),在原地進(jìn)行數(shù)據(jù)分析,借此提高速度和敏捷性。很多下一代數(shù)據(jù)分析產(chǎn)品供應(yīng)商,現(xiàn)在均已同時(shí)提供數(shù)據(jù)虛擬化和數(shù)據(jù)準(zhǔn)備產(chǎn)品,借此幫助客戶更輕松地訪問云中存儲(chǔ)的數(shù)據(jù)。 數(shù)據(jù)管控和安全性 隨著大數(shù)據(jù)在企業(yè)中的應(yīng)用日益成熟,并且數(shù)據(jù)的種類和數(shù)量依然在與日俱增,有關(guān)數(shù)據(jù)管控之類的話題也變的越來越重要。很多企業(yè)已經(jīng)選擇通過“數(shù)據(jù)湖”的方式創(chuàng)建一個(gè)中央倉(cāng)庫,用于保存自己的所有數(shù)據(jù)。但除非人們知道數(shù)據(jù)湖中到底有什么,并且能按需訪問分析工作所需的恰當(dāng)數(shù)據(jù),否則數(shù)據(jù)湖將全無用處。然而幫助用戶輕松找到自己需要的數(shù)據(jù),同時(shí)妥善地管理數(shù)據(jù)訪問權(quán),這一點(diǎn)并不容易實(shí)現(xiàn)。 不僅需要考慮數(shù)據(jù)湖本身,管控的一個(gè)核心主題在于讓用戶輕松訪問可信賴的數(shù)據(jù),借此滿足企業(yè)中任何人的需求,同時(shí)必須要以安全、可審計(jì)的方式做到這一切?;虼蠡蛐〉墓?yīng)商(Informatica、Collibra、Alation)紛紛提供功了數(shù)據(jù)編錄、參考數(shù)據(jù)管理、數(shù)據(jù)辭典,以及數(shù)據(jù)幫助臺(tái)等產(chǎn)品。 分析 數(shù)據(jù)科學(xué)家是否已經(jīng)成為瀕危物種? 就在幾年前,數(shù)據(jù)科學(xué)家還被視作“21世紀(jì)最性感的職業(yè)”。就算到現(xiàn)在,Glassdoor的“美國(guó)最佳工作”清單中,“數(shù)據(jù)科學(xué)家”依然名列榜首。 但是僅僅在誕生幾年后,這個(gè)職業(yè)就已陷入困頓。部分原因在于其必要性,雖然學(xué)校和程序員課程依然在塑造大量粗制濫造的新手?jǐn)?shù)據(jù)科學(xué)家,但這個(gè)崗位依然有很大空缺,尤其是財(cái)富1000強(qiáng)公司,他們都覺得很難招募到頂尖的技術(shù)人才。在某些組織中,數(shù)據(jù)科學(xué)部門已經(jīng)從原本的促進(jìn)者一舉“墮落”為瓶頸。 與此同時(shí),隨著人工智能技術(shù)的民主化和自服務(wù)工具的飛速涌現(xiàn),現(xiàn)在無論數(shù)據(jù)科學(xué)技能極為有限的數(shù)據(jù)工程師,甚至非技術(shù)型的數(shù)據(jù)分析師,都已經(jīng)可以承擔(dān)原本只能由數(shù)據(jù)科學(xué)家負(fù)責(zé)的基本任務(wù)。企業(yè)中與大數(shù)據(jù)有關(guān)的很多工作,尤其是枯燥乏味的簡(jiǎn)單工作,也許會(huì)越來越多地開始由數(shù)據(jù)工程師和數(shù)據(jù)分析師通過自動(dòng)化工具來執(zhí)行,而不再需要具備嫻熟技能的數(shù)據(jù)科學(xué)家參與。 也就是說,數(shù)據(jù)科學(xué)最終可能會(huì)完全由機(jī)器來處理。一些初創(chuàng)公司已經(jīng)明確將自己的產(chǎn)品定位為“自動(dòng)化的數(shù)據(jù)科學(xué)”,其中最值得一提的是,DataRobot剛剛通過這種想法籌集到5400萬美元投資(數(shù)據(jù)科學(xué)如何實(shí)現(xiàn)自身的自動(dòng)化),Salesforce Einstein也聲稱自己可以提供能自動(dòng)生成的模型。 毫無疑問,這些趨勢(shì)尚未流行起來,目前在數(shù)據(jù)科學(xué)的社區(qū)里依然存在一些爭(zhēng)議。然而數(shù)據(jù)科學(xué)家目前還不需要對(duì)此過于擔(dān)心。在不遠(yuǎn)的將來,自服務(wù)工具和自動(dòng)化模型選擇將成為數(shù)據(jù)科學(xué)家的“左膀右臂”,而非徹底取代他們,他們可以將更多精力用于需要進(jìn)行判斷、創(chuàng)新、社交技能,或需要具備垂直行業(yè)知識(shí)的任務(wù)。 讓一切協(xié)同工作:數(shù)據(jù)工作臺(tái)的崛起 在大部分大型企業(yè)中,大數(shù)據(jù)技術(shù)的運(yùn)用通常都是從少數(shù)相對(duì)獨(dú)立的項(xiàng)目開始的(這里部署個(gè)Hadoop群集,那里部署個(gè)分析工具),并且會(huì)產(chǎn)生一些新的工作崗位(數(shù)據(jù)科學(xué)家、首席數(shù)據(jù)官)。 然而今天的情況截然不同:異構(gòu)的情況愈加普遍,企業(yè)內(nèi)部使用了五花八門的工具。從組織結(jié)構(gòu)方面來看,在大型企業(yè)中,集中化的“數(shù)據(jù)科學(xué)部門”正在逐漸變成更加“分散化的組織”,通常會(huì)有數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師,以及數(shù)據(jù)分析師組成的跨職能群體,并且更加深入地融入到不同業(yè)務(wù)部門中。因此對(duì)于平臺(tái)來說,需求已經(jīng)變的更加明確,需要讓所有人能夠就各種技術(shù)進(jìn)行協(xié)同工作,這一點(diǎn)在我們?nèi)ツ甑奈恼轮芯陀刑峒?,大?shù)據(jù)項(xiàng)目能否成功,主要取決于能否將不同技術(shù)、人員和流程完美融合在一起。 因此協(xié)作平臺(tái)這一領(lǐng)域目前正在經(jīng)歷快速發(fā)展,并催生出一種被部分人稱作DataOps(類似于DevOps)的概念。FirstMark也正是出于這個(gè)原因而投資了Dataiku(可參閱我的上一篇文章:Dataiku,亦或早熟的大數(shù)據(jù))。這一領(lǐng)域其他比較重大的投資包括Knime(A輪,2千萬美元)以及Domino Data Lab(A輪1千萬美元)。Cloudera剛剛發(fā)布了一款基于所收購(gòu)的Sense技術(shù)開發(fā)的工作臺(tái)產(chǎn)品。這一領(lǐng)域的開源活動(dòng)也很活躍,例如Jupyter和Anaconda。 應(yīng)用程序 人工智能驅(qū)動(dòng)的垂直應(yīng)用程序 至少幾年前,我們就開始討論垂直領(lǐng)域人工智能應(yīng)用程序的崛起(x.ai以及人工智能驅(qū)動(dòng)的應(yīng)用程序逐漸涌現(xiàn)),但原本的溪流何時(shí)演變成了現(xiàn)在的滔天巨浪?突然之間,似乎每個(gè)人都開始開發(fā)人工智能應(yīng)用程序了,無論新成立的,或已經(jīng)取得重大進(jìn)展的初創(chuàng)公司,都開始?jí)嘿€于人工智能,認(rèn)為這是下一輪增長(zhǎng)點(diǎn)(例如InsideSales)。 在這種狀況和趨勢(shì)影響下,一些新成立的初創(chuàng)公司提出了很多激動(dòng)人心的技術(shù),雖然其中一些猶如霧里看花,但為了追逐熱點(diǎn)趨勢(shì),也有很多公司在激進(jìn)地進(jìn)行重塑。在某些領(lǐng)域使用了某種機(jī)器學(xué)習(xí)技術(shù)的公司,并不算人工智能公司。 總地來說,人工智能初創(chuàng)公司的創(chuàng)建并不容易。而其中最關(guān)鍵的第一步在于選擇一個(gè)垂直領(lǐng)域所面臨的問題。除了深入的技術(shù)DNA,還需要深思熟慮的定位和策略(構(gòu)建人工智能初創(chuàng)公司:現(xiàn)實(shí)和策略)。 然而要確保自己不被各種可能性看花眼,面對(duì)飛速的發(fā)展保持冷靜,要做到這些其實(shí)很難。 尤其是去年,趨勢(shì)已經(jīng)很明顯了:通過人工智能技術(shù),解決與數(shù)據(jù)有關(guān)的任何問題。無論企業(yè)級(jí)應(yīng)用程序或垂直行業(yè),都采取了這樣的方式。考慮到現(xiàn)實(shí)情況,今年我們?cè)趫D表的應(yīng)用程序分類中添加了多個(gè)類別,包括交通運(yùn)輸、房地產(chǎn)(借助數(shù)據(jù)科學(xué)實(shí)現(xiàn)房地產(chǎn)的現(xiàn)代化),以及保險(xiǎn)業(yè)。同時(shí)我們將一些非常活躍的行業(yè)拆分為兩個(gè)類別,例如營(yíng)銷應(yīng)用(拆分為B2B和B2C)以及生命科學(xué)(拆分為醫(yī)療健康和生命科學(xué))。 除了這些領(lǐng)域外,還有一些非常新潮的應(yīng)用(例如無人駕駛汽車),今天的人工智能技術(shù)正在缺乏想象力的企業(yè)應(yīng)用領(lǐng)域閃爍著耀眼的光輝,從人員流失預(yù)測(cè)到后端辦公室自動(dòng)化,再到安全,以不同形式提供了切實(shí)可行的收效。 人工智能導(dǎo)致人類失業(yè),也許還沒有得到政府部門的重視,但沒有任何一個(gè)職業(yè)是不受影響的,至少需要考慮會(huì)如何受到影響,也許會(huì)通過人工智能得以“增強(qiáng)”。這些問題已得到很多白領(lǐng)職業(yè)的證明,例如醫(yī)生(人工智能 vs 醫(yī)生)或律師(人工智能開始從事法務(wù)工作)。 尤其是金融領(lǐng)域,似乎充分考慮了人工智能的潛力。多年來艱難度日的對(duì)沖基金正在為自己的算法尋找可替代數(shù)據(jù)(全新淘金潮?華爾街想要你的數(shù)據(jù))。由人工智能驅(qū)動(dòng)的全新對(duì)沖基金(Numerai、Data Capital Management等)雖然還不完善,但已經(jīng)實(shí)現(xiàn)了快速發(fā)展。華爾街一些最重要的事務(wù)所均在使用人工智能取代人類(BlackRock、Goldman Sachs)。 機(jī)器人的反擊 無論是愛是恨,2016年都是機(jī)器人的元年。很多消息交流服務(wù)均提供過完全自動(dòng)化,可以實(shí)時(shí)交談的代理程序。雖然曇花一現(xiàn),但這些機(jī)器人程序似乎已經(jīng)全面經(jīng)歷了不同的炒作周期,從一開始的承諾,到Tay所面臨的災(zāi)難(譯注:Tay是微軟提供的一種基于人工智能技術(shù)的聊天機(jī)器人,該機(jī)器人一經(jīng)上線,與眾多網(wǎng)友交流后,變成了“帶有種族歧視傾向并且固執(zhí)的存在”),到微型文藝復(fù)興,再到Facebook相關(guān)研究放緩,有報(bào)告稱聊天平臺(tái)上70%的人工智能聊天機(jī)器人最終都以失敗告終。 對(duì)于機(jī)器人程序的熱情似乎有些早,得出這種結(jié)論的原因有很多,建議參閱Bradford Cross的觀點(diǎn),他在文中非常恰當(dāng)?shù)刂赋?,人們可能因?yàn)闄C(jī)器人程序在亞洲的崛起,或者Slack等底層基礎(chǔ)架構(gòu)的快速增長(zhǎng)而得出了過于樂觀的預(yù)期。我們相信,最終這種機(jī)器人程序有著很大的潛力,但畢竟這一領(lǐng)域還需要更長(zhǎng)的成長(zhǎng)時(shí)間?!吧a(chǎn)商”一端(初創(chuàng)公司需要專注于每個(gè)具體的業(yè)務(wù)領(lǐng)域,少作承諾)和“消費(fèi)方”一端(我們都需要習(xí)慣于機(jī)器人程序可以和不能做到的事情,Alexa正在幫助我們意識(shí)到這些!)都需要進(jìn)行徹底的心態(tài)調(diào)整。 就目前來看,最光明的未來可能屬于重要領(lǐng)域需要人類介入的服務(wù),或者完全采取不同于機(jī)器人程序的定位,使用人工智能技術(shù)擴(kuò)充人類能力的技術(shù)(我們得出這一結(jié)論的依據(jù)來自frame.ai)。 寫在最后 大數(shù)據(jù)與人工智能強(qiáng)強(qiáng)聯(lián)合,我們即將進(jìn)入“收獲”的季節(jié)。忽略各種炒作,我們迎來了數(shù)量眾多的可能性。 隨著核心基礎(chǔ)架構(gòu)以及應(yīng)用程序端日漸成熟,人工智能技術(shù)驅(qū)動(dòng)的應(yīng)用將迎來井噴期,2017年,大數(shù)據(jù)(以及人工智能)生態(tài)幾將火力全開。 |
|