日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

未知的“I”,已知的“T”-寫給未來的范式,讀《大數(shù)據(jù)時代》

 聯(lián)合參謀學院 2013-02-16

未知的“I”,已知的“T”-寫給未來的范式,讀《大數(shù)據(jù)時代》 來源: 俞立穎的日志

書籍簡介:

 

作者:

《大數(shù)據(jù)時代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托?邁爾?舍恩伯格被譽為“大數(shù)據(jù)商業(yè)應用第一人”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯(lián)網(wǎng)研究重鎮(zhèn)任教的經(jīng)歷,早在2010年就在《經(jīng)濟學人》上發(fā)布了長達14頁對大數(shù)據(jù)應用的前瞻性研究。

 

兩年前,還是社會學專業(yè)的我最喜歡翹的課叫做”社會統(tǒng)計學”,與其聽著傳統(tǒng)死板的抽樣調(diào)查與回歸分析,我更喜歡和一個做數(shù)據(jù)挖掘的數(shù)學系同學四處溜達?!皵?shù)據(jù)挖掘(Data mining)是什么?”她跟我舉了一個最簡單的例子:“沃爾瑪通過對超市里人們購買行為的大量數(shù)據(jù)分析,發(fā)現(xiàn)男人們來買啤酒的時候,通常也會買尿布。這樣的發(fā)現(xiàn)就讓超市將尿布和啤酒擺放在一起出售,從而提高利潤?!?br>“嚴謹?shù)纳鐣W訓練”讓我?guī)缀踉诋敃r就開始思考“為什么?”“尿布和啤酒的銷售量為什么會有關聯(lián)呢?是因為男人們買啤酒的時候,會‘順便’購買尿布?還是因為買“尿布”的時候會聯(lián)想到‘’啤酒’?”——這使我立刻意識到在社會科學的學習中,因果關系已經(jīng)成為了一種極其普遍的范式——甚至夸張一點說,所有社會科學的研究都只是為了解答一個問題——“為什么?”它面向過去,面向所有已經(jīng)發(fā)生的事實,試圖通過信息收集和邏輯假設來說明一個道理:”人類社會中**事情的發(fā)生,是因為**及**因素的作用?!?br>我意識到,這與《大數(shù)據(jù)時代》中所提出的”大數(shù)據(jù)思維“的三個層面正好截然相反:

1、不是因果關系,而是相關性。大數(shù)據(jù)思維只關注”相關性“,而不再關注因果關系。也就是說,沃爾瑪知道尿布和啤酒、手電筒與pop-tarts蛋撻的銷量具有正相關性,就足夠做出將兩個物品擺放在一起銷售的決策了。它并不需要去分析原因,因為只要知道這件事情”正在發(fā)生“或者”即將發(fā)生“,企業(yè)就完全能夠做出正確的決定。

2、“樣本=全部”——不是隨即樣本,而是全部數(shù)據(jù)。《大數(shù)據(jù)時代》也對傳統(tǒng)意義上的統(tǒng)計學構成了沖擊。在這樣一個我們有足夠強大的數(shù)據(jù)搜集和數(shù)據(jù)處理能力的時代,樣本不再是萬分之一,而轉變成了”樣本=全部“,樣本,就是萬分之一萬。傳統(tǒng)意義上的統(tǒng)計學的隨機抽樣方法中有一條極其明智的真理:”采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數(shù)量的增加關系不大。”可以說,“樣本分析”奠定了絕大多數(shù)科學研究的基礎。而大數(shù)據(jù)時代,全數(shù)據(jù)分析的模式將全面替代“樣本分析方式”。正如《魔鬼經(jīng)濟學》(Freakonomics)中,作者關于相撲運動員的研究,其創(chuàng)造性的觀點正式通過使用了11年中超過64000場摔跤比賽的全數(shù)據(jù)記錄來尋找到了異常性。這樣的洞見,恰恰是樣本分析所無法提供的。

3、不是精確性——而是混雜性。數(shù)據(jù)量的顯著增大也必然會讓我們付出一些代價——一些不準確的數(shù)據(jù)會混入數(shù)據(jù)庫,結果也可能不準確。這就是大數(shù)據(jù)時代的另一種思維——“不是精確性,而是混雜性”。 對“小數(shù)據(jù)”而言,最重要的要求就是減少錯誤。而在大數(shù)據(jù)的采集里,在技術尚未達到完美無缺之前,混亂是無可避的。雖然我們得到的信息不再那么準確,但收集到的數(shù)量龐大的信息讓我們放棄嚴格精確的選擇變的更為劃算。從谷歌翻譯系統(tǒng)中可以看到,它收集了上萬億的語料庫,來自未經(jīng)過濾的網(wǎng)頁內(nèi)容,可能會含有不準確的用法、語病,未必每一條語料庫都非?!熬_”,然而這個語料庫是布朗語料庫的幾百萬倍大,這樣的龐大規(guī)模優(yōu)勢完全掩蓋了它的缺點。也就是“大數(shù)據(jù)的簡單算法,比小數(shù)據(jù)的復雜算法,更加有效”。

總體而言,大數(shù)據(jù)時代透露出三個特征——更多、更雜與更好。它面向未來,要做的事情是關于“預測”。正如作者所說"大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,就像我們常說的‘釘是釘,鉚是鉚’,但認為每個問題只有一個答案的想法是站不住腳的,不管我們承不承認。一旦我們承認了這個事實,甚至擁護這個事實的話,我們離真相又近了一步?!?br>
當我們用”物聯(lián)網(wǎng)“去開始測量、記錄、分析,世界,并將我們的世界”數(shù)字化“的時候,Information Technology,信息技術的變革,就將聚光燈轉向了Information的身上。
從三千多年前會計學的誕生開始,人們將大量的經(jīng)濟活動”數(shù)字化“。然而,”數(shù)字化“只是為”數(shù)據(jù)化”拉開序幕。
在google的數(shù)字圖書館中,”文字“也已經(jīng)被“數(shù)據(jù)化”,人們可以檢索、對比、發(fā)現(xiàn)不同的詞組在幾十年來中含義和運用的沿革。人可以閱讀,機器也可以分析。
在Foursquare和街旁網(wǎng)中,“方位”也已經(jīng)被“數(shù)據(jù)化”,在我們喜愛的地方”check-in“,我們通過忠誠度計劃、酒店推薦和其他計劃得到好處。
在Facebook或twitter的里,"溝通"也已經(jīng)被“數(shù)據(jù)化”,倫敦的金融公司通過分析每天的Twitter的大量數(shù)據(jù),以作為股市的投資信號。

而更令人興奮的是,”數(shù)據(jù)"作為一種資源,本身是一種非競爭性的資源,它的價值并不會因為被使用而減少,相反,它可能被通過不斷地重復使用而產(chǎn)生出更高的價值。數(shù)據(jù)本身的價值,是它所有能夠產(chǎn)生的可能選擇的價值的總和。書中提到了幾種數(shù)據(jù)創(chuàng)新:
1、數(shù)據(jù)再利用。數(shù)據(jù)的運用者常常不是那些擁有大量數(shù)據(jù)的機構,卻是那些恰好可以用這些數(shù)據(jù)來支持其商業(yè)模式的機構,這就是“再利用”
2、重組數(shù)據(jù):將多個數(shù)據(jù)集的總和重組在一起時,充足總和本身的價值也比單個的總更大。丹麥的癌癥研究就是將所有的癌癥患者和手機用戶的數(shù)據(jù)結合起來,從而揭示兩者是否有關聯(lián)性——幸運的是,全數(shù)據(jù)顯示并無關聯(lián)。
3、可擴展數(shù)據(jù)。譬如,零售在店內(nèi)安裝的監(jiān)控攝像頭,不僅能認出把手,也能跟蹤經(jīng)過商店的客戶流和他們停留的位置。
4、數(shù)據(jù)的折舊值:隨著時間的退役,大部分的數(shù)據(jù)都會失去一部分基本用途。然而,即使數(shù)據(jù)用于基本用途的價值會減少,但選擇的價值卻依然強大。從這個角度,組織機構應收集盡可能多的使用數(shù)據(jù),并保存盡可能長的時間,同時也應當與第三方分享數(shù)據(jù),保留所謂的“延展性”權利。
5、數(shù)據(jù)廢氣:在拼寫檢查中,用戶會有大量的錯誤拼寫。這些數(shù)據(jù)看起來是廢品,但收集在一起卻能夠鍛造成一塊閃亮的金元寶。例如,當couresa這樣的網(wǎng)絡平臺中一個班級數(shù)量超過萬人時,教授發(fā)現(xiàn)2000個學生在作業(yè)中犯了同樣的一個錯誤。修正后,系統(tǒng)將會提醒以后犯同樣錯誤的學生。通過這些’錯誤“,我們改變了教育的方式。
6、開放數(shù)據(jù):政府只是收集信息的托管人,而數(shù)據(jù)應當對全球開放。

在大數(shù)據(jù)價值鏈上,會有三種不同的大數(shù)據(jù)公司,第一種是基于數(shù)據(jù)本身的公司,第二種是基于技能,第三種則是基于思維。從我的理解來看,第一種人,擁有金礦的礦山。第二種就是數(shù)據(jù)分析師,也可以說,擁有開采、提煉金礦的技術。第三種則是加工金礦的人,把金礦做成金元寶、首飾,通過創(chuàng)新思維讓數(shù)據(jù)具有商業(yè)價值。在大數(shù)據(jù)時代的早期,思維和技能是最有價值的,但作者認為,最終,大部分的價值還是必須從數(shù)據(jù)本身來挖掘,也就是說——金礦本身才是最值錢的。

然而,大數(shù)據(jù)背后帶來的也是重重隱憂——從我們的隱私不斷暴露,個人在網(wǎng)絡上留下的千絲萬縷的蹤跡似乎讓人們又回到了”老大哥在看著你“的那種擔憂?!薄皵?shù)據(jù)統(tǒng)治”的登峰造極從哲學上會抹殺人的自由意志和選擇的可能性,正如,基于你以前的各類數(shù)據(jù)分析,陪審團斷定你以后將會犯罪。那將是人性面對技術的一次潰敗。

閱讀《大數(shù)據(jù)時代》的過程,總是讓我不斷地想起庫恩《科學革命的結構和范式》。毫無疑問,大數(shù)據(jù)帶來的是思維范式的根本性變革——我們將不再沉湎于歷史和過去,試圖解釋某種聯(lián)系,而是更好地覺知當下,與正在發(fā)生的未來。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多