36大數(shù)據(jù)專稿,原文作者:Bernard Marr,本文由36大數(shù)據(jù)翻譯組:# include “cxuan.h”翻譯,轉(zhuǎn)載必須獲得本站及譯者的同意,拒絕任何不表明譯者及來(lái)源的轉(zhuǎn)載! “大數(shù)據(jù)”作為一個(gè)術(shù)語(yǔ)的歷史可能還很短暫,但是它所依賴的很多基礎(chǔ)很久以前就建立了。 在我們今天認(rèn)識(shí)的計(jì)算機(jī)被普及很久以前,學(xué)術(shù)中對(duì)于分析不斷膨脹的知識(shí)體系的理念的建立是很普遍的。 我們不斷增強(qiáng)的存儲(chǔ)和分析信息能力的進(jìn)步有些緩慢,這或許不太容易發(fā)現(xiàn),然而上世紀(jì)末隨著數(shù)字存儲(chǔ)的發(fā)明和計(jì)算機(jī)網(wǎng)絡(luò)的誕生,這種能力才進(jìn)入了飛速發(fā)展的軌道。 在大數(shù)據(jù)逐漸成為主要趨勢(shì)的今天,讓我們簡(jiǎn)要回顧下大數(shù)據(jù)時(shí)代黎明前關(guān)于思考和創(chuàng)新的漫長(zhǎng)歷史吧。 你知道嗎?大數(shù)據(jù)歷史可以追溯到1887年 遠(yuǎn)古時(shí)代的數(shù)據(jù)公元前18000年 最早關(guān)于人類記錄和分析數(shù)據(jù)的例子是 符木(ally sticks)。 伊尚戈骨頭(Ishango Bone) 是1960年在烏干達(dá)發(fā)現(xiàn)的被認(rèn)為是最早的史前記錄數(shù)據(jù)的證明之一。舊石器時(shí)代的部落人民在樹枝或者骨頭上刻下凹痕來(lái)記錄日常的交易活動(dòng)或物品供應(yīng).比較樹枝和凹痕來(lái)進(jìn)行基本的算術(shù)計(jì)算的方法使他們能夠?qū)σ恍┦虑檫M(jìn)行預(yù)測(cè),如食品將維持多久。 公元前2400年 第一個(gè)專門用來(lái)執(zhí)行算術(shù)運(yùn)算的工具是算盤,在巴比倫開始使用。歷史上第一座圖書館大概也是在這個(gè)時(shí)期出現(xiàn)的,這也代表著對(duì)大量數(shù)據(jù)進(jìn)行存儲(chǔ)的首次嘗試。 公元前300年-公元48年 或許亞歷山大圖書館是古代最大的數(shù)據(jù)儲(chǔ)存地了,這里50萬(wàn)卷的藏書幾乎涵蓋了當(dāng)時(shí)我們學(xué)習(xí)的各個(gè)領(lǐng)域。不幸的是,公元48年這座圖書館被認(rèn)為意外地遭到了羅馬人的入侵。與大多數(shù)的神話故事相反,圖書館并未失去所有珍藏,一部分很重要的藏書被轉(zhuǎn)移到了城市里的另一個(gè)建筑里,一些被人偷了然后散布在世界的各個(gè)角落。 公元100年-公200年 安提凱希拉(Antikythera)機(jī)器, 是最早被發(fā)現(xiàn)的機(jī)械計(jì)算機(jī),可能由希臘的科學(xué)家們發(fā)明的。它的”CPU”由30個(gè)環(huán)環(huán)相扣的銅齒輪組成,被設(shè)計(jì)用來(lái)做占卜或者追蹤奧林匹克比賽的周期.它很可能預(yù)示著早期機(jī)器設(shè)備的革新,但到目前為止仍然不得而知. 統(tǒng)計(jì)學(xué)的出現(xiàn)1663年 在倫敦,約翰?葛蘭特(John Graunt)進(jìn)行了第一次有記錄的統(tǒng)計(jì)數(shù)據(jù)分析實(shí)驗(yàn).他用記錄下的當(dāng)時(shí)肆虐歐洲的黑死病死亡人數(shù)信息,建立起了早期預(yù)警系統(tǒng)的理論. 1865年 “商業(yè)智能”這一術(shù)語(yǔ)由理查德?彌勒?文斯(Richard Millar Devens)在他的商業(yè)軼事百科中提出,描述了銀行家亨利?福尼斯(Henry Furnese)怎樣用結(jié)構(gòu)化的方式收集和分析有關(guān)競(jìng)爭(zhēng)對(duì)手的商業(yè)活動(dòng)來(lái)取得競(jìng)爭(zhēng)優(yōu)勢(shì).這被認(rèn)為是第一次將數(shù)據(jù)分析用于商業(yè)目的的研究. 1880年 美國(guó)人口普查局有個(gè)問(wèn)題,預(yù)計(jì)將花費(fèi)8年的時(shí)間去搗弄1880年收集到的人口普查數(shù)據(jù),而1890年的人口普查數(shù)據(jù)的處理將消耗超過(guò)10年的時(shí)間,這意味著到1900年人口普查的時(shí)候,人口普查局也無(wú)法看到那些過(guò)時(shí)的人口數(shù)據(jù)的結(jié)果。在1881年人口普查局聘用了一位年輕的工程師赫爾曼·霍爾瑞斯(Herman Hollerith),發(fā)明了著名的霍勒瑞斯制表機(jī).穿孔卡片的使用讓他將需要耗費(fèi)10年的工作縮短為3個(gè)月,這使他在歷史上取得了現(xiàn)代自動(dòng)化計(jì)算之父的歷史地位.他成立的公司就是日后著名的IBM. 早期的現(xiàn)代數(shù)據(jù)存儲(chǔ)1926年 發(fā)明家尼古拉特斯拉(Nikola Tesla)在接受高力雜志(Colliers magazine)采訪時(shí)說(shuō)道:”當(dāng)無(wú)線電技術(shù)被完美的應(yīng)用的時(shí)候,全球?qū)⒆兂梢粋€(gè)巨大的大腦,實(shí)際上就是這樣,所有的東西成為了實(shí)時(shí)的有節(jié)奏的整體的一部分,我們可以實(shí)現(xiàn)它,使用的工具將非常簡(jiǎn)單,相當(dāng)于我們現(xiàn)在的手機(jī).人們可以將它放在口袋里隨身攜帶.” 1928年 波弗勞姆(Fritz Pfleumer),一位德國(guó)奧地利混血的工程師,發(fā)明了一種用磁帶來(lái)存儲(chǔ)信息的方法.他發(fā)明的這個(gè)原理今天依然在使用,絕大部分的數(shù)據(jù)就是存儲(chǔ)在有磁性介質(zhì)的電腦硬盤上. 1944年 弗里蒙特瑞德(Fremont Rider), 美國(guó)康乃迪克州衛(wèi)斯理大學(xué)的圖書管理員, 發(fā)表了題為 學(xué)者和學(xué)術(shù)圖書館的未來(lái)(The Scholar and the Future of the Research Library)的論文。 他注意到在早期嘗試量化產(chǎn)生的海量數(shù)據(jù)的時(shí)候,為了儲(chǔ)存所有學(xué)術(shù)和普通工作所產(chǎn)生的數(shù)據(jù),美國(guó)的圖書館將不得不每16年將他們的容量翻倍。這使他推測(cè)耶魯大學(xué)圖書館到2040年的時(shí)候?qū)?億冊(cè)圖書,遍布超過(guò)6000英里的書架。 商業(yè)智能的起源1958年 IBM的研究員漢斯 彼得 盧恩(Hans Peter Luhn)將商業(yè)智能定義為“通過(guò)領(lǐng)會(huì)事實(shí)間相互關(guān)系的能力來(lái)引導(dǎo)我們的行為達(dá)到一個(gè)渴望的目標(biāo)”。 1962年 邁出的第一步是在語(yǔ)音識(shí)別領(lǐng)域,1962年的世界博覽會(huì)上IBM的工程師威廉姆(William C Dersch)展示了一臺(tái)鞋盒式的機(jī)器.它可以將數(shù)字和16詞的英文翻譯成數(shù)字信息. 1964年 新政治家雜志(New Statesman)上的一篇文章指出處理不斷增長(zhǎng)的海量數(shù)據(jù)信息將不再是困難的。 海量數(shù)據(jù)中心的開端1965年 美國(guó)政府計(jì)劃在世界首個(gè)數(shù)據(jù)中心的磁盤上存儲(chǔ)7.42億的納稅申報(bào)單和1.75億的指紋信息。 1970年 IBM的數(shù)學(xué)家埃德加(Edgar F Codd)展示了他的關(guān)系型數(shù)據(jù)庫(kù)的模型框架.這個(gè)模型提出的框架在現(xiàn)代的很多數(shù)據(jù)庫(kù)中使用,把信息存儲(chǔ)在層次化的結(jié)構(gòu)中使得每一個(gè)知道自己想找什么的人都可以獲取需要的信息.從電腦存儲(chǔ)中獲得數(shù)據(jù)之前通常都要請(qǐng)來(lái)一位專家. 1976年 商業(yè)上使用MRP系統(tǒng)變得越來(lái)越普遍,這代表著使用電腦加速每一天的商業(yè)運(yùn)作效率第一次成為主流.直到現(xiàn)在,大多數(shù)人只是在研究調(diào)查或者學(xué)術(shù)文獻(xiàn)中看到過(guò). 1989年 也許是第一次像今天使用大數(shù)據(jù)那樣使用”大數(shù)據(jù)”這個(gè)術(shù)語(yǔ).國(guó)際暢銷書作者埃里克·拉森(Erik Larson)為哈珀斯雜志寫了一篇他推測(cè)是首個(gè)收到垃圾郵件的文章.他寫到:”大數(shù)據(jù)的守護(hù)者說(shuō)他們這么做是為了消費(fèi)者的利益.但是有一種使用數(shù)據(jù)為了其他目的和意圖的方式.” 另外,隨著為分析商業(yè)及運(yùn)算性能開發(fā)的新興軟件和系統(tǒng)的普及,上世紀(jì)50年代已經(jīng)很流行的概念”商業(yè)智能”看到了未來(lái)的大潮. 互聯(lián)網(wǎng)的推動(dòng)1991年 計(jì)算機(jī)科學(xué)家蒂姆伯納斯李宣告了我們今天所熟知的萬(wàn)維網(wǎng)的誕生.在一個(gè)網(wǎng)站上,他制定了世界網(wǎng)絡(luò)的協(xié)議書,使互聯(lián)網(wǎng)的數(shù)據(jù)聯(lián)通起來(lái),讓任何人可以在任何地方進(jìn)行通信. 1996年 根據(jù) R J T Morris 和 B J Truskowski 在2003年出版的圖書 存儲(chǔ)系統(tǒng)的革命中, 提出了數(shù)字存儲(chǔ)比紙質(zhì)存儲(chǔ)更劃算的觀點(diǎn)。 1997年 邁克來(lái)斯克(Michael Lesk)在他的論文世界上有多少信息? 理論地給出12,000PB這一可能不是很合理的猜想。他也在早期的發(fā)展中指出,網(wǎng)絡(luò)數(shù)據(jù)正以每年10倍的速度增長(zhǎng)。他說(shuō)任何人從未看過(guò)其中的大部分?jǐn)?shù)據(jù),所以這個(gè)變化很難被察覺。 這一年,谷歌搜索也首次亮相,至少在未來(lái)的20年,它的名字將成為網(wǎng)絡(luò)數(shù)據(jù)搜索的代名詞。 大數(shù)據(jù)初探1999年 兩年后大數(shù)據(jù)這一術(shù)語(yǔ)出現(xiàn)在美國(guó)計(jì)算機(jī)協(xié)會(huì)發(fā)表的可視化實(shí)時(shí)探索G比特?cái)?shù)據(jù)集中.傾向于存儲(chǔ)海量數(shù)據(jù)而無(wú)法充分對(duì)他們進(jìn)行分析再一次成為遺憾。論文接著引用了信息處理先驅(qū)理查德·衛(wèi)斯里·漢明(Richard W Hamming)的話:”信息處理的目的是洞察內(nèi)在的關(guān)系,而不是表面的數(shù)字?!?/p> “物聯(lián)網(wǎng)”這一術(shù)語(yǔ)可能也在這個(gè)時(shí)候被首次使用,意味著網(wǎng)絡(luò)上不斷增長(zhǎng)的設(shè)備有可能在沒有中間人的前提下相互進(jìn)行通信。它在無(wú)線射頻技術(shù)先驅(qū)凱文·艾什頓(Kevin Ashton)給保潔公司做的演講中被用來(lái)作為標(biāo)題。 2000年 彼得萊曼(Peter Lyman)和哈爾·范里安(現(xiàn)在是谷歌首席經(jīng)濟(jì)學(xué)家)在他們的題為有多少信息?的文章中首次嘗試計(jì)算世界上有多少數(shù)字信息以及增長(zhǎng)率。他們總結(jié)道:世界上每年印刷品,電影,光學(xué)和磁性等內(nèi)容將需要大概15億GB來(lái)存儲(chǔ)。這相當(dāng)于地球上每個(gè)人都占有250MB的信息。 2001年 高德納公司分析師道格·萊尼(Doug Laney)在他的論文3D 數(shù)據(jù)管理:控制好數(shù)據(jù)容量,處理速度和多樣性中定義了將被普遍認(rèn)同的三個(gè)大數(shù)據(jù)特征. 在這一年,軟件與信息產(chǎn)業(yè)協(xié)會(huì)發(fā)表的戰(zhàn)略背景:軟件即服務(wù)的文章中也出現(xiàn)了一個(gè)新的術(shù)語(yǔ)”軟件即服務(wù)”,它是一種許多基于云計(jì)算應(yīng)用的概念基礎(chǔ),而今天已經(jīng)是行業(yè)標(biāo)準(zhǔn)了. 網(wǎng)絡(luò)2.0時(shí)代助漲了數(shù)據(jù)大爆發(fā)2005年 評(píng)論員說(shuō)我們正在見證網(wǎng)絡(luò)2.0的誕生,大多數(shù)的網(wǎng)絡(luò)內(nèi)容將由用戶產(chǎn)生而不是網(wǎng)絡(luò)服務(wù)提供商給出的。通過(guò)整合HTML樣式的網(wǎng)頁(yè)和基于SQL的后臺(tái)數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)了這一目標(biāo)。一年前出現(xiàn)的Facebook已經(jīng)有550萬(wàn)人通過(guò)它來(lái)上傳自己的數(shù)據(jù)并與朋友分享。 Hadoop也在這一年誕生,它是專門為存儲(chǔ)及分析大數(shù)據(jù)的開源框架。它的靈活性使得管理我們不斷產(chǎn)生和采集的非結(jié)構(gòu)化數(shù)據(jù)(語(yǔ)音,視頻,文檔等)的時(shí)候特別有用。 ‘大數(shù)據(jù)’在今天大量涌現(xiàn)2007年 連線雜志在文章理論的終結(jié):海量數(shù)據(jù)讓科學(xué)模型變得過(guò)時(shí) 中將大數(shù)據(jù)的概念引進(jìn)大眾的視野。 2008年 據(jù)有多少信息?2010年報(bào)告中提到,世界上的服務(wù)器處理了9.57ZB(95700億GB)的數(shù)據(jù),這相當(dāng)于每個(gè)人每天產(chǎn)生12G的數(shù)據(jù)量。在全球產(chǎn)品和信息的傳播中, 在這一年大概產(chǎn)生了14.7艾字節(jié)的信息量。 2009年 麥肯錫全球研究所在一篇報(bào)告大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)、生產(chǎn)力的前沿 中指出美國(guó)平均每一家擁有1000名以上雇員的公司都存儲(chǔ)了超過(guò)200TB的數(shù)據(jù)。 2010年 Google執(zhí)行主席埃里克·施密特(Eric Schmidt)在會(huì)議上說(shuō)現(xiàn)在兩天所產(chǎn)生的數(shù)據(jù)量是人類文明開始到2003年的總和。 2011年 麥肯錫公司報(bào)告指出到2018年,美國(guó)將面臨140000到190000名數(shù)據(jù)科學(xué)家的人才缺口,該報(bào)告也指出在實(shí)現(xiàn)大數(shù)據(jù)的所有價(jià)值之前需要解決一些問(wèn)題,包括個(gè)人隱私,安全,知識(shí)產(chǎn)權(quán)等。 2014年 移動(dòng)終端的增長(zhǎng)第一次指出越來(lái)越多的人通過(guò)移動(dòng)設(shè)備來(lái)獲取數(shù)字信息,相比之前的在辦公室或者家用電腦上。美國(guó)通用和埃森哲咨詢公司合作調(diào)查了88%的企業(yè)主管后得出大數(shù)據(jù)分析師是企業(yè)中急需的人才。 總結(jié)我們需要知道的是大數(shù)據(jù)并不是一個(gè)新的或者孤立的現(xiàn)象,而是人類長(zhǎng)期采集和使用數(shù)據(jù)的結(jié)果。就像其他關(guān)鍵性的發(fā)展如數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理,因特網(wǎng)一樣,大數(shù)據(jù)將更進(jìn)一步地改變我們社會(huì)和企業(yè)的運(yùn)作。同時(shí)它也將為許多變革奠定基礎(chǔ)。 原文標(biāo)題:Big Data: A Brief(ish) History Everyone Should Read |
|
來(lái)自: 昵稱22551567 > 《歷史》