大數(shù)據(jù)的概念、技術(shù)應(yīng)用與分析及數(shù)據(jù)的處理

高山仙人掌 2014-03-31

展開全文

數(shù)據(jù)的征服：讀《大數(shù)據(jù)時代》

　　谷歌有一個名為"谷歌流感趨勢"的工具，它通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況（比如患者會搜索流感兩個字）。近日，這個工具發(fā)出警告，全美的流感已經(jīng)進(jìn)入"緊張"級別。它對于健康服務(wù)產(chǎn)業(yè)和流行病專家來說是非常有用的，因?yàn)樗臅r效性極強(qiáng)，能夠很好地幫助到疾病暴發(fā)的跟蹤和處理。事實(shí)也證明，通過海量搜索詞的跟蹤獲得的趨勢報(bào)告是很有說服力的，僅波士頓地區(qū)，就有700例流感得到確認(rèn)，該地區(qū)目前已宣布進(jìn)入公共健康緊急狀態(tài)…點(diǎn)擊查看>>

大數(shù)據(jù)時代BI王者之劍——SAS企業(yè)挖掘系統(tǒng)

　　大數(shù)據(jù)的爆炸式增長在大容量、多樣性和高增速方面，全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力；同時，也為企業(yè)帶來了獲取更豐富、更深入和更準(zhǔn)確地洞察市場行為的大量機(jī)會。對企業(yè)而言，能夠從大數(shù)據(jù)中獲得全新價值的消息是令人振奮的。然而，如何從大數(shù)據(jù)中發(fā)掘出"真金白銀"則是一個現(xiàn)實(shí)的挑戰(zhàn)。這就要求采用一套全新的、對企業(yè)決策具有深遠(yuǎn)影響的解決方案…點(diǎn)擊查看>>

大數(shù)據(jù)概念

　　"大數(shù)據(jù)"是一個體量特別大，數(shù)據(jù)類別特別大的數(shù)據(jù)集，并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大，指代大型數(shù)據(jù)集，一般在10TB?規(guī)模左右，但在實(shí)際應(yīng)用中，很多企業(yè)用戶把多個數(shù)據(jù)集放在一起，已經(jīng)形成了PB級的數(shù)據(jù)量；其次是指數(shù)據(jù)類別(variety)大，數(shù)據(jù)來自多種數(shù)據(jù)源，數(shù)據(jù)種類和格式日漸豐富，已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇，囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度（Velocity）快，在數(shù)據(jù)量非常龐大的情況下，也能夠做到數(shù)據(jù)的實(shí)時處理。最后一個特點(diǎn)是指數(shù)據(jù)真實(shí)性（Veracity）高，隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣，傳統(tǒng)數(shù)據(jù)源的局限被打破，企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。

百度知道—大數(shù)據(jù)概念

　　大數(shù)據(jù)(bigdata)，或稱巨量資料，指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具，在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)的4V特點(diǎn)：Volume、Velocity、Variety、Veracity。

互聯(lián)網(wǎng)周刊—大數(shù)據(jù)概念

　　"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)（TB）和處理大量數(shù)據(jù)的技術(shù)，或者所謂的"4個V"之類的簡單概念，而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情，而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實(shí)現(xiàn)的。換句話說，大數(shù)據(jù)讓我們以一種前所未有的方式，通過對海量數(shù)據(jù)進(jìn)行分析，獲得有巨大價值的產(chǎn)品和服務(wù)，或深刻的洞見，最終形成變革之力

研究機(jī)構(gòu)Gartner—大數(shù)據(jù)概念

　　"大數(shù)據(jù)"是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看，"大數(shù)據(jù)"指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。
亞馬遜網(wǎng)絡(luò)服務(wù)（AWS）、大數(shù)據(jù)科學(xué)家JohnRauser提到一個簡單的定義：大數(shù)據(jù)就是任何超過了一臺計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。
研發(fā)小組對大數(shù)據(jù)的定義："大數(shù)據(jù)是最大的宣傳技術(shù)、是最時髦的技術(shù)，當(dāng)這種現(xiàn)象出現(xiàn)時，定義就變得很混亂。"
Kelly說："大數(shù)據(jù)是可能不包含所有的信息，但我覺得大部分是正確的。對大數(shù)據(jù)的一部分認(rèn)知在于，它是如此之大，分析它需要多個工作負(fù)載，這是AWS的定義。當(dāng)你的技術(shù)達(dá)到極限時，也就是數(shù)據(jù)的極限"。
大數(shù)據(jù)不是關(guān)于如何定義，最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫相比，開源的大數(shù)據(jù)分析工具的如Hadoop的崛起，這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價值在哪里。

大數(shù)據(jù)分析

　　從所周知，大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實(shí)了，而最重要的現(xiàn)實(shí)是對大數(shù)據(jù)進(jìn)行分析，只有通過分析才能獲取很多智能的，深入的，有價值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù)，而這些大數(shù)據(jù)的屬性，包括數(shù)量，速度，多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性，所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要，可以說是決定最終信息是否有價值的決定性因素。基于如此的認(rèn)識，大數(shù)據(jù)分析普遍存在的方法理論有哪些呢？

　　大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家，同時還有普通用戶，但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析，因?yàn)榭梢暬治瞿軌蛑庇^的呈現(xiàn)大數(shù)據(jù)特點(diǎn)，同時能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了。

　　大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法，各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn)，也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家所公認(rèn)的各種統(tǒng)計(jì)方法（可以稱之為真理）才能深入數(shù)據(jù)內(nèi)部，挖掘出公認(rèn)的價值。另外一個方面也是因?yàn)橛羞@些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù)，如果一個算法得花上好幾年才能得出結(jié)論，那大數(shù)據(jù)的價值也就無從說起了。

　　大數(shù)據(jù)分析最終要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析，從大數(shù)據(jù)中挖掘出特點(diǎn)，通過科學(xué)的建立模型，之后便可以通過模型帶入新的數(shù)據(jù)，從而預(yù)測未來的數(shù)據(jù)。

　　大數(shù)據(jù)分析廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)挖掘，可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞、或其他輸入語義，分析，判斷用戶需求，從而實(shí)現(xiàn)更好的用戶體驗(yàn)和廣告匹配。

　　大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理，高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理，無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域，都能夠保證分析結(jié)果的真實(shí)和有價值。
大數(shù)據(jù)分析的基礎(chǔ)就是以上五個方面，當(dāng)然更加深入大數(shù)據(jù)分析的話，還有很多很多更加有特點(diǎn)的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。

大數(shù)據(jù)技術(shù)

　　數(shù)據(jù)采集：ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成，最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中，成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。

　　數(shù)據(jù)存?。?/b>關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。

　　基礎(chǔ)架構(gòu)：云存儲、分布式文件存儲等。

　　數(shù)據(jù)處理：自然語言處理(NLP，NaturalLanguageProcessing)是研究人與計(jì)算機(jī)交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語言，所以自然語言處理又叫做自然語言理解(NLU，NaturalLanguage Understanding)，也稱為計(jì)算語言學(xué)(Computational Linguistics。一方面它是語言信息處理的一個分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。

　　統(tǒng)計(jì)分析：假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析（最優(yōu)尺度分析）、bootstrap技術(shù)等等。

　　數(shù)據(jù)挖掘：分類（Classification）、估計(jì)（Estimation）、預(yù)測（Prediction）、相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)

　　模型預(yù)測：預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。

　　結(jié)果呈現(xiàn)：云計(jì)算、標(biāo)簽云、關(guān)系圖等。

大數(shù)據(jù)特點(diǎn)


　　要理解大數(shù)據(jù)這一概念，首先要從"大"入手，"大"是指數(shù)據(jù)規(guī)模，大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別，其基本特征可以用4個V來總結(jié)(Vol-ume、Variety、Value和Veloc-ity)，即體量大、多樣性、價值密度低、速度快。

　　第一，數(shù)據(jù)體量巨大。從TB級別，躍升到PB級別。

　　第二，數(shù)據(jù)類型繁多，如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息，等等。

　　第三，價值密度低。以視頻為例，連續(xù)不間斷監(jiān)控過程中，可能有用的數(shù)據(jù)僅僅有一兩秒。

　　第四，處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器，無一不是數(shù)據(jù)來源或者承載的方式。

　　大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中，快速獲得有價值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模，也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域，通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。因此，大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價值的信息，也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā)，搶占時代發(fā)展的前沿。









當(dāng)下我國大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個方面著力


　　一是建立一套運(yùn)行機(jī)制。大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程，必須建立良好的運(yùn)行機(jī)制，以促進(jìn)建設(shè)過程中各個環(huán)節(jié)的正規(guī)有序，實(shí)現(xiàn)統(tǒng)合，搞好頂層設(shè)計(jì)。

　　二是規(guī)范一套建設(shè)標(biāo)準(zhǔn)。沒有標(biāo)準(zhǔn)就沒有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個領(lǐng)域、不斷動態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn)，為實(shí)現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。

　　三是搭建一個共享平臺。數(shù)據(jù)只有不斷流動和充分共享，才有生命力。應(yīng)在各專用數(shù)據(jù)庫建設(shè)的基礎(chǔ)上，通過數(shù)據(jù)集成，實(shí)現(xiàn)各級各類指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。

　　四是培養(yǎng)一支專業(yè)隊(duì)伍。大數(shù)據(jù)建設(shè)的每個環(huán)節(jié)都需要依靠專業(yè)人員完成，因此，必須培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊(duì)伍。









大數(shù)據(jù)作用













　　大數(shù)據(jù)時代到來，認(rèn)同這一判斷的人越來越多。那么大數(shù)據(jù)意味著什么，他到底會改變什么？僅僅從技術(shù)角度回答，已不足以解惑。大數(shù)據(jù)只是賓語，離開了人這個主語，它再大也沒有意義。我們需要把大數(shù)據(jù)放在人的背景中加以透視，理解它作為時代變革力量的所以然。








變革價值的力量


　　未來十年，決定中國是不是有大智慧的核心意義標(biāo)準(zhǔn)（那個"思想者"），就是國民幸福。一體現(xiàn)在民生上，通過大數(shù)據(jù)讓有意義的事變得澄明，看我們在人與人關(guān)系上，做得是否比以前更有意義；二體現(xiàn)在生態(tài)上，通過大數(shù)據(jù)讓有意義的事變得澄明，看我們在天與人關(guān)系上，做得是否比以前更有意義。總之，讓我們從前10年的意義混沌時代，進(jìn)入未來10年意義澄明時代。






變革經(jīng)濟(jì)的力量


　　生產(chǎn)者是有價值的，消費(fèi)者是價值的意義所在。有意義的才有價值，消費(fèi)者不認(rèn)同的，就賣不出去，就實(shí)現(xiàn)不了價值；只有消費(fèi)者認(rèn)同的，才賣得出去，才實(shí)現(xiàn)得了價值。大數(shù)據(jù)幫助我們從消費(fèi)者這個源頭識別意義，從而幫助生產(chǎn)者實(shí)現(xiàn)價值。這就是啟動內(nèi)需的原理。






變革組織的力量


　　隨著具有語義網(wǎng)特征的數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)資源發(fā)展起來，組織的變革就越來越顯得不可避免。大數(shù)據(jù)將推動網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生無組織的組織力量。最先反映這種結(jié)構(gòu)特點(diǎn)的，是各種各樣去中心化的WEB2.0應(yīng)用，如RSS、維基、博客等。
大數(shù)據(jù)之所以成為時代變革力量，在于它通過追隨意義而獲得智慧。














大數(shù)據(jù)處理









　　周濤：大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉(zhuǎn)變：要全體不要抽樣，要效率不要絕對精確，要相關(guān)不要因果。

大數(shù)據(jù)處理的流程
　　具體的大數(shù)據(jù)處理方法確實(shí)有很多，但是根據(jù)筆者長時間的實(shí)踐，總結(jié)了一個普遍適用的大數(shù)據(jù)處理流程，并且這個流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個處理流程可以概括為四步，分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析，最后是數(shù)據(jù)挖掘。












大數(shù)據(jù)處理之一：采集


　　大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端（Web、App或者傳感器形式等）的數(shù)據(jù)，并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如，電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù)，除此之外，Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。

　　在大數(shù)據(jù)的采集過程中，其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高，因?yàn)橥瑫r有可能會有成千上萬的用戶來進(jìn)行訪問和操作，比如火車票售票網(wǎng)站和淘寶，它們并發(fā)的訪問量在峰值時達(dá)到上百萬，所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。






大數(shù)據(jù)處理之二：導(dǎo)入/預(yù)處理


　　雖然采集端本身會有很多數(shù)據(jù)庫，但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析，還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫，或者分布式存儲集群，并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計(jì)算，來滿足部分業(yè)務(wù)的實(shí)時計(jì)算需求。

　　導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大，每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆，甚至千兆級別。






大數(shù)據(jù)處理之三：統(tǒng)計(jì)/分析


　　統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫，或者分布式計(jì)算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等，以滿足大多數(shù)常見的分析需求，在這方面，一些實(shí)時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存儲Infobright等，而一些批處理，或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。

　　統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大，其對系統(tǒng)資源，特別是I/O會有極大的占用。






大數(shù)據(jù)處理之四：挖掘


　　與前面統(tǒng)計(jì)和分析過程不同的是，數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題，主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算，從而起到預(yù)測（Predict）的效果，從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜，并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大，常用數(shù)據(jù)挖掘算法都以單線程為主。

　　整個大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個方面的步驟，才能算得上是一個比較完整的大數(shù)據(jù)處理











大數(shù)據(jù)應(yīng)用與案例分析


　　大數(shù)據(jù)應(yīng)用的關(guān)鍵，也是其必要條件，就在于"IT"與"經(jīng)營"的融合，當(dāng)然，這里的經(jīng)營的內(nèi)涵可以非常廣泛，小至一個零售門店的經(jīng)營，大至一個城市的經(jīng)營。以下是我整理的關(guān)于各行各業(yè)，不同的組織機(jī)構(gòu)在大數(shù)據(jù)方面的應(yīng)用的案例，在此申明，以下案例均來源于網(wǎng)絡(luò)，本文僅作引用，并在此基礎(chǔ)上作簡單的梳理和分類。








大數(shù)據(jù)應(yīng)用案例之：醫(yī)療行業(yè)


　　[1] Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的首個客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息，通過大數(shù)據(jù)處理，更好地分析病人的信息。

　　[2] 在加拿大多倫多的一家醫(yī)院，針對早產(chǎn)嬰兒，每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析，醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施，避免早產(chǎn)嬰兒夭折。

　　[3] 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品，比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后，它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確，比方說不是通用的成人每日三次一次一片，而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動提醒你再次服藥。






大數(shù)據(jù)應(yīng)用案例之：能源行業(yè)


　　[1]　智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端，也就是所謂的智能電表。在德國，為了鼓勵利用太陽能，會在家庭安裝太陽能，除了賣電給你，當(dāng)你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù)，收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等，從而推斷出在未來2~3個月時間里，整個電網(wǎng)大概需要多少電。有了這個預(yù)測后，就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣，如果提前買就會比較便宜，買現(xiàn)貨就比較貴。通過這個預(yù)測后，可以降低采購成本。

　　[2]　維斯塔斯風(fēng)力系統(tǒng)，依靠的是BigInsights軟件和IBM超級計(jì)算機(jī)，然后對氣象數(shù)據(jù)進(jìn)行分析，找出安裝風(fēng)力渦輪機(jī)和整個風(fēng)電場最佳的地點(diǎn)。利用大數(shù)據(jù)，以往需要數(shù)周的分析工作，現(xiàn)在僅需要不足1小時便可完成。






大數(shù)據(jù)應(yīng)用案例之：通信行業(yè)


　　[1] XO Communications通過使用IBM SPSS預(yù)測分析軟件，減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測客戶的行為，發(fā)現(xiàn)行為趨勢，并找出存在缺陷的環(huán)節(jié)，從而幫助公司及時采取措施，保留客戶。此外，IBM新的Netezza網(wǎng)絡(luò)分析加速器，將通過提供單個端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺，幫助通信企業(yè)制定更科學(xué)、合理決策。

　　[2] 電信業(yè)者透過數(shù)以千萬計(jì)的客戶資料，能分析出多種使用者行為和趨勢，賣給需要的企業(yè)，這是全新的資料經(jīng)濟(jì)。

　　[3] 中國移動通過大數(shù)據(jù)分析，對企業(yè)運(yùn)營的全業(yè)務(wù)進(jìn)行針對性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化，再以最快捷的方式推送給指定負(fù)責(zé)人，使他在最短時間內(nèi)獲知市場行情。

　　[4] NTT docomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來，為顧客提供附近的餐飲店信息，接近末班車時間時，提供末班車信息服務(wù)。






大數(shù)據(jù)應(yīng)用案例之：零售業(yè)


　　[1] "我們的某個客戶，是一家領(lǐng)先的專業(yè)時裝零售商，通過當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)及其郵購目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù)，如何定位公司的差異化，他們通過從 Twitter 和 Facebook 上收集社交信息，更深入的理解化妝品的營銷模式，隨后他們認(rèn)識到必須保留兩類有價值的客戶：高消費(fèi)者和高影響者。希望通過接受免費(fèi)化妝服務(wù)，讓用戶進(jìn)行口碑宣傳，這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合，為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù)，使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。

　　[2] 零售企業(yè)也監(jiān)控客戶的店內(nèi)走動情況以及與商品的互動。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來展開分析，從而在銷售哪些商品、如何擺放貨品以及何時調(diào)整售價上給出意見，此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨，同時在保持市場份額的前提下，增加了高利潤率自有品牌商品的比例。










大數(shù)據(jù)時代相關(guān)帖子查看更多






1、
圖書館如何迎接大數(shù)據(jù)時代


2、
【獨(dú)家發(fā)布】Google 引爆大數(shù)據(jù)時代的三篇論文--中文版 ...


3、
《大數(shù)據(jù)時代：生活、工作與思維的大變革》.掃描版.pd ...


4、
華彩集團(tuán)戰(zhàn)略與管控問答之329：大數(shù)據(jù)時代的來臨，如何 ...


5、
【書評140320】《大數(shù)據(jù)時代》維克托·邁爾-舍恩伯格 ...


6、
深度研究【投資人】天璣科技(300245)數(shù)據(jù)庫一體機(jī)決勝 ...


7、
華彩集團(tuán)戰(zhàn)略與管控問答之298：華彩咨詢怎么去認(rèn)識大數(shù) ...


8、
在大數(shù)據(jù)時代下：數(shù)據(jù)讓你歡喜讓你憂


9、
求：《大數(shù)據(jù)云圖:如何在大數(shù)據(jù)時代尋找下一個大機(jī)遇 ...


10、
致危機(jī)中變革的自主品牌（三）：“大數(shù)據(jù)時代”下的體 ...







11、
大數(shù)據(jù)時代


12、
麥肯錫咨詢：當(dāng)大數(shù)據(jù)時代進(jìn)入精益化（1幣英文版）


13、
求：《大數(shù)據(jù)時代:推開財(cái)政數(shù)據(jù)挖掘之門》


14、
大數(shù)據(jù)時代的營銷方式討論貼


15、
求《量化:大數(shù)據(jù)時代的企業(yè)管理》


16、
大數(shù)據(jù)時代——未來十年的金礦屬于你嗎？


17、
【獨(dú)家發(fā)布】【大數(shù)據(jù)時代對審計(jì)信息化的新思考】


18、
網(wǎng)絡(luò)實(shí)時監(jiān)控大數(shù)據(jù)時代的安全信息管理


19、
質(zhì)疑所謂大數(shù)據(jù)時代


20、
求《大數(shù)據(jù)時代的金融業(yè) 》















大數(shù)據(jù)


關(guān)于我們


廣告服務(wù)


版權(quán)聲明


招聘英才


網(wǎng)站地圖




京ICP備11001960號   京ICP證090565號      京公網(wǎng)安備1101084107號

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：高山仙人掌 > 《基本概念》

舉報(bào)/認(rèn)領(lǐng)