今年 5 月底,MapR被曝融資困難,可能在不久之后關閉,這個曾經(jīng)估值高達 10 億美元的 Hadoop 賽道的有力挑戰(zhàn)者或?qū)⒕痛怂ヂ?。隨后,同樣圍繞 Hadoop 進行商業(yè)化落地的Cloudera股價在 6 月 6 日(美東時間)開盤后暴跌 43%,這些老牌 Hadoop 供應商的落敗一定程度上被認為與云廠商的崛起有關。然而,Hadoop 生態(tài)廠商發(fā)展到這一步到底與哪些因素有關?這是否意味著整體生態(tài)開始走下坡路? 在圍繞Hadoop進行商業(yè)化的廠商中,Cloudera、Hortonworks 和 MapR 曾是最為外界所關注的對象,直到 Cloudera 和 Hortonworks宣布進行全股合并時,業(yè)界大部分聲音是看好的。Syncsort首席技術官指出,雖然 Hortonworks 的產(chǎn)品專注于物聯(lián)網(wǎng)和流數(shù)據(jù)場景,Cloudera 專注于數(shù)據(jù)科學、機器學習和人工智能。但在她看來,這可以使合并取得成功,因為合并后的公司將比二者中的任何一個都發(fā)展得更快,走得更遠。 合并后不久,Cloudera 宣布的收入比分析師預測少了 6900 萬到 8900 萬美元。與此同時,公司首席執(zhí)行官 Tom Reilly、聯(lián)合創(chuàng)始人兼 CSO Mike Olson 雙雙宣布辭職。該公司股價隨即暴跌 40%。 至于 MapR,其商業(yè)化的主要途徑是提供優(yōu)于開源 Hadoop 的特性,比如其創(chuàng)始人 M.C.Srivas 在公司創(chuàng)建伊始就將 Hadoop 文件系統(tǒng) HDFS 進行了重構,兼容 Hadoop 協(xié)議的同時保持閉源,一度給外界造成技術實力優(yōu)于整個 Hadoop 社區(qū)的感覺,可惜的是用戶對此并不買賬,導致其融資困難,甚至開始裁員并計劃關閉硅谷總部。 對此,業(yè)內(nèi)專家在接受 InfoQ 采訪時表示,開源顛覆了傳統(tǒng)軟件,云計算又顛覆了開源廠商。大數(shù)據(jù)的市場空間本身存在,但是隨著云計算廠商的接入,確實削弱了傳統(tǒng)大數(shù)據(jù)廠商的盈利能力。云廠商對傳統(tǒng)大數(shù)據(jù)廠商沖擊太大,因為總體成本更低,可獲得性更容易,而這三家大數(shù)據(jù)廠商并沒有提供相比云計算廠商大數(shù)據(jù)能力的差異化點。 當然,這三家圍繞 Hadoop 進行商業(yè)化的廠商的衰落并不代表整個 Hadoop 生態(tài)的隕落,只能說明這樣的商業(yè)化路徑存在問題(不要將廠商和生態(tài)混為一談)。 專家指出,過去,開源對傳統(tǒng)軟件是一種顛覆式的影響,在開源尤為活躍的大數(shù)據(jù)技術領域采用傳統(tǒng)軟件的商業(yè)化模式是一種逆勢而為,云計算的興起正在對開源產(chǎn)生巨大影響,正如Clint Sharp 所指出的,“Hadoop 的主要應用場景一直是廉價的存儲。然而,有了云之后,存儲變得更廉價,更何況 S3 EMR 和其他服務的用戶體驗還提高了千倍不止?!?br/> 在企業(yè)逐步云化的過程中,云廠商的顛覆者姿態(tài)讓其受到了諸多指責,比如開源殺手等,但這并沒有阻礙企業(yè)云化的進程,大數(shù)據(jù)服務公司也在往云平臺的方向演進,比如 Cloudera 與 Hortonworks 合并被認為是在一定程度上提升云服務的競爭力。但是,本地大數(shù)據(jù)廠商難以獨立提供云大數(shù)據(jù)服務所依賴的全部基礎設施資源,一般會集成到各大公有云平臺,比如 MongoDB 提供的 Atlas 就與眾多公有云廠商合作。因此,在各大公有云平臺上,可以看到越來越多本地大數(shù)據(jù)服務商提供的服務。 那么,云廠商的出現(xiàn)為什么會對這一領域造成如此影響呢?業(yè)內(nèi)專家認為,首先要從大數(shù)據(jù)的本源談起,大數(shù)據(jù)的本源是需要處理的數(shù)據(jù)集遠遠大于單臺物理機能夠存儲和處理的數(shù)據(jù)量。在這種情況下,出現(xiàn)了兩個技術:一是跨服務器存儲的分布式文件系統(tǒng)HDFS(當然,最早來自于谷歌論文);二是多機器處理的計算框架。這種體系在大數(shù)據(jù)發(fā)展的早、中期起到了非常大的作用,就是把大批量中低等級的硬件系統(tǒng)集成起來以處理海量數(shù)據(jù)。 在實踐過程中,這種架構逐漸出現(xiàn)內(nèi)在的不均衡。簡單來說,物理機的計算和存儲比例是固定的,但是從應用視角來看,計算和存儲的比例關系往往是動態(tài)的,有些公司計算過剩,有些公司存儲過剩,這導致硬件選型成為一個很大的挑戰(zhàn)。同時,對于長久存在的大數(shù)據(jù)系統(tǒng)來說,新老硬件組成的非均質(zhì)系統(tǒng)也存在負載均衡等管理上的挑戰(zhàn)。 隨著云架構的發(fā)展,無論是公有云,還是私有云,特別是公有云,可以實現(xiàn)存儲與計算分離。IaaS 層將計算、存儲、網(wǎng)絡作為資源動態(tài)提供給用戶消費,這成為一個最佳實踐,完美消除了計算和存儲的動態(tài)均衡問題。從最優(yōu)化的角度來看,相對于傳統(tǒng)的計算、存儲一體化的大數(shù)據(jù)系統(tǒng),云平臺大數(shù)據(jù)服務無疑存在一些開銷,但是這種形態(tài)讓大數(shù)據(jù)集群建設初期要考慮的計算和存儲匹配,網(wǎng)絡設計等問題都“推遲決策”了,換言之就是不用那么早考慮,在具體業(yè)務使用時隨用隨取,這為業(yè)務帶來了極大的靈活性。 從這個角度看,基于云架構的大數(shù)據(jù)系統(tǒng),本質(zhì)上提供了靈活性,而對數(shù)據(jù)業(yè)務本身而言,靈活性、動態(tài)性恰好是根本,那么基于云架構的大數(shù)據(jù)服務剛好契合了這些特征。大數(shù)據(jù)云服務的本質(zhì)優(yōu)勢是享受更低成本、更快的技術更新。在過往與企業(yè)大數(shù)據(jù)團隊打交道的過程中,專家發(fā)現(xiàn)其自建的大數(shù)據(jù)平臺還在使用兩年以前的開源大數(shù)據(jù)組件,因為人員的不穩(wěn)定造成其不敢輕易進行技術升級,或者說沒有能力升級,維護的包袱就會越來越重。 綜上,業(yè)內(nèi)專家表示,相比于本地大數(shù)據(jù)服務,云大數(shù)據(jù)服務靈活的本質(zhì)是計算和存儲分離,本質(zhì)優(yōu)勢是極大得降低了成本,包括環(huán)境成本,節(jié)省搭建機房,風火水電,網(wǎng)絡,操作系統(tǒng)等的時間;研發(fā)成本,節(jié)省服務搭建,研究周邊依賴,可靠性部署,安全對接等的時間;人力成本,大數(shù)據(jù)運維需要非常專業(yè)的人才能勝任,企業(yè)應該聚焦在業(yè)務上而不是大數(shù)據(jù)平臺的運維上;運行成本,大數(shù)據(jù)云服務廠家和基礎設施的配合可以做到最優(yōu),盡可能減少資源消耗。 在過往與企業(yè)用戶打交道的過程中,完全依靠本地大數(shù)據(jù)服務,選擇部分云供應商的大數(shù)據(jù)服務,在公有云的基礎設施之上自建大數(shù)據(jù)服務的用戶皆而有之。 就此現(xiàn)狀,我們采訪了華為云布道師趙軍。他表示,大數(shù)據(jù)框架中的服務本身對基礎設施并沒有強綁定要求,而當前云端的性能、可靠性、可運維性已經(jīng)足夠高。就服務本身而言,所有大數(shù)據(jù)服務都適合在云端運行,企業(yè)應該根據(jù)業(yè)務類型進行區(qū)分。如果業(yè)務可以上云,則所有都可使用云端大數(shù)據(jù)服務。 在具體選用上,可以結合成本構成分析大數(shù)據(jù)平臺的使用,包括如下幾方面:
其中,大數(shù)據(jù)軟件棧和運維其的成本有些關系,有些用戶完全通過開源軟件實現(xiàn),但是實際上付出了極大的人力成本。無論如何,不管是自建還是基于公有云,以上成本都是顯性存在的,公有云可以省去一些大數(shù)據(jù)軟件棧搭建及運維的成本,前兩項成本則是購買公有云服務和自建的區(qū)別。此外,自建服務的彈性較小,云平臺可以隨時提供彈性能力。 至于云平臺大數(shù)據(jù)服務的價格高昂與否,其實完全取決于公有云服務的定價。對于那些在 IaaS 層面采用自己設計、生產(chǎn)的 CPU、網(wǎng)絡、存儲等基礎設施的公有云廠商來說,往往對于超大客戶有比較大的讓利能力。 對于不同類型的企業(yè),選擇大數(shù)據(jù)平臺服務時關注的點會差異很大。舉例來說,更關注成本且需要削峰的,建議優(yōu)先選擇 Serverless 服務;更關注資源隔離和獨享的,建議選擇包周期的資源類型服務;對于已有大數(shù)據(jù)平臺經(jīng)驗的企業(yè),則優(yōu)選通用開源大數(shù)據(jù)開發(fā)平臺類服務;對接口要求簡單通用的,則優(yōu)選 Serverless 服務。 大數(shù)據(jù)社區(qū)的多樣性,導致了選擇的多樣性。具體原因可能很難一概而論,有的公司想總有一天要建立自己的私有云設施,所以僅希望公有云提供 IaaS;有的公司是因為已經(jīng)在私有云方面具備很長的歷史,團隊、經(jīng)驗等都是現(xiàn)成的,因此在公有云的 IaaS 上自行搭建大數(shù)據(jù)服務。但是,對于絕大部分企業(yè)來講,使用公有云的大數(shù)據(jù)服務會更省心,成本更低。 總體來看,企業(yè)如何選擇取決于公有云運營者能否提供充分的遷移支持,讓大數(shù)據(jù)服務的消費者省心、放心。省心指的是大數(shù)據(jù)服務與 Hadoop 社區(qū)的兼容性,這個兼容性能夠讓遷移的成本最小甚至無感知。放心指的是大數(shù)據(jù)服務有強大的團隊支持,而不是簡單的把 Hadoop 社區(qū)的東西拖來安裝一下售賣。國內(nèi)的公有云廠商在這方面的差別還是比較大的,有的走自研道路,可能存在社區(qū)兼容性跟進慢等情況;有的基本沒有私有云大數(shù)據(jù)服務,導致自己的大數(shù)據(jù)服務沒有充分錘煉。 短期來看,趙軍表示,企業(yè)大數(shù)據(jù)服務的公有云、混合云和多云模式將共同存在。長期來看,公有云和私有云架構將逐漸趨同,甚至提供一致的體驗,隨著可信規(guī)則的建立,公有云可能會慢慢取代私有云,并且是多公有云模式,避免單一廠商鎖定。 |
|
來自: ZZvvh2vjnmrpl4 > 《待分類》