日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

關(guān)于大數(shù)據(jù),你應(yīng)該知道的75個(gè)專業(yè)術(shù)語(yǔ)

 weiwarm 2017-08-06
Ramesh Dontha  機(jī)器之心  2017-08-04

大數(shù)據(jù)

上篇(25 個(gè)術(shù)語(yǔ))

如果你剛接觸大數(shù)據(jù),你可能會(huì)覺(jué)得這個(gè)領(lǐng)域很難以理解,無(wú)從下手。不過(guò),你可以從下面這份包含了 25 個(gè)大數(shù)據(jù)術(shù)語(yǔ)的清單入手,那么我們開(kāi)始吧。

算法(Algorithm):算法可以理解成一種數(shù)學(xué)公式或用于進(jìn)行數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)過(guò)程。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道,盡管算法這個(gè)詞是一個(gè)統(tǒng)稱,但是在這個(gè)流行大數(shù)據(jù)分析的時(shí)代,算法也經(jīng)常被提及且變得越發(fā)流行。

分析(Analytics):讓我們?cè)囅胍粋€(gè)很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個(gè)時(shí)候你拿著這張單子,開(kāi)始認(rèn)真研究你在食品、衣物、娛樂(lè)等方面消費(fèi)情況的百分比會(huì)怎樣?你正在進(jìn)行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來(lái)年自己的消費(fèi)情況作出決定)中挖掘有用的信息。那么,如果你以類似的方法在推特和臉書上對(duì)整個(gè)城市人們發(fā)的帖子進(jìn)行處理會(huì)如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對(duì)大量數(shù)據(jù)進(jìn)行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來(lái)對(duì)它們分別進(jìn)行梳理。

描述性分析法(Descriptive Analytics):如果你只說(shuō)出自己去年信用卡消費(fèi)情況為:食品方面 25%、衣物方面 35%、娛樂(lè)方面 20%、剩下 20% 為雜項(xiàng)開(kāi)支,那么這種分析方法被稱為描述性分析法。當(dāng)然,你也可以找出更多細(xì)節(jié)。

預(yù)測(cè)性分析法(Predictive Analytics):如果你對(duì)過(guò)去 5 年信用卡消費(fèi)的歷史進(jìn)行了分析,發(fā)現(xiàn)每年的消費(fèi)情況基本上呈現(xiàn)一個(gè)連續(xù)變化的趨勢(shì),那么在這種情況下你就可以高概率預(yù)測(cè)出:來(lái)年的消費(fèi)狀態(tài)應(yīng)該和以往是類似的。這不是說(shuō)我們?cè)陬A(yù)測(cè)未來(lái),而是應(yīng)該理解為,我們?cè)凇赣酶怕暑A(yù)測(cè)」可能發(fā)生什么事情。在大數(shù)據(jù)的預(yù)測(cè)分析中,數(shù)據(jù)科學(xué)家可能會(huì)使用先進(jìn)的技術(shù),如機(jī)器學(xué)習(xí),和先進(jìn)的統(tǒng)計(jì)學(xué)處理方法(這部分后面我們會(huì)談到)來(lái)預(yù)測(cè)天氣情況、經(jīng)濟(jì)變化等等。

規(guī)范性分析(Prescriptive Analytics):這里我們還是用信用卡轉(zhuǎn)賬的例子來(lái)理解。假如你想找出自己的哪類消費(fèi)(如食品、娛樂(lè)、衣物等等)可以對(duì)整體消費(fèi)產(chǎn)生巨大影響,那么基于預(yù)測(cè)性分析(Predictive Analytics)的規(guī)范性分析法通過(guò)引入「動(dòng)態(tài)指標(biāo)(action)」(如減少食品或衣物或娛樂(lè))以及對(duì)由此產(chǎn)生的結(jié)果進(jìn)行分析來(lái)規(guī)定一個(gè)可以降低你整體開(kāi)銷的最佳消費(fèi)項(xiàng)。你可以將它延伸到大數(shù)據(jù)領(lǐng)域,并想象一個(gè)負(fù)責(zé)人是如何通過(guò)觀察他面前多種動(dòng)態(tài)指標(biāo)的影響,進(jìn)而作出所謂由「數(shù)據(jù)驅(qū)動(dòng)」的決策的。

批處理(Batch processing):盡管批量數(shù)據(jù)處理從大型機(jī)(mainframe)時(shí)代就已經(jīng)存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時(shí)代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時(shí)間內(nèi)收集到的一堆交易數(shù)據(jù))的有效方法。分布式計(jì)算(Hadoop),后面會(huì)討論,就是一種專門處理批量數(shù)據(jù)的方法。

Cassandra 是一個(gè)很流行的開(kāi)源數(shù)據(jù)管理系統(tǒng),由 Apache Software Foundation 開(kāi)發(fā)并運(yùn)營(yíng)。Apache 掌握了很多大數(shù)據(jù)處理技術(shù),Cassandra 就是他們專門設(shè)計(jì)用于在分布式服務(wù)器之間處理大量數(shù)據(jù)的系統(tǒng)。

云計(jì)算(Cloud computing):雖然云計(jì)算這個(gè)詞現(xiàn)在已經(jīng)家喻戶曉,這里大可不必贅述,但是為了全篇內(nèi)容完整性的考慮,筆者還是在這里加入了云計(jì)算詞條。本質(zhì)上講,軟件或數(shù)據(jù)在遠(yuǎn)程服務(wù)器上進(jìn)行處理,并且這些資源可以在網(wǎng)絡(luò)上任何地方被訪問(wèn),那么它就可被稱為云計(jì)算。

集群計(jì)算(Cluster computing):這是一個(gè)來(lái)描述使用多個(gè)服務(wù)器豐富資源的一個(gè)集群(cluster)的計(jì)算的形象化術(shù)語(yǔ)。更技術(shù)層面的理解是,在集群處理的語(yǔ)境下,我們可能會(huì)討論節(jié)點(diǎn)(node)、集群管理層(cluster management layer)、負(fù)載平衡(load balancing)和并行處理(parallel processing)等等。

暗數(shù)據(jù)(Dark data):這是一個(gè)生造詞,在筆者看來(lái),它是用來(lái)嚇唬人,讓高級(jí)管理聽(tīng)上去晦澀難懂的?;径裕^暗數(shù)據(jù)指的是,那些公司積累和處理的實(shí)際上完全用不到的所有數(shù)據(jù),從這個(gè)意義上來(lái)說(shuō)我們稱它們?yōu)椤赴怠沟臄?shù)據(jù),它們有可能根本不會(huì)被分析。這些數(shù)據(jù)可以是社交網(wǎng)絡(luò)中的信息,電話中心的記錄,會(huì)議記錄等等。很多估計(jì)認(rèn)為所有公司的數(shù)據(jù)中有 60% 到 90% 不等可能是暗數(shù)據(jù),但實(shí)際上沒(méi)人知道。

數(shù)據(jù)湖(Data lake):當(dāng)筆者第一次聽(tīng)到這個(gè)詞時(shí),真的以為這是個(gè)愚人節(jié)笑話。但是它真的是一個(gè)術(shù)語(yǔ)。所以一個(gè)數(shù)據(jù)湖(data lake)即一個(gè)以大量原始格式保存了公司級(jí)別的數(shù)據(jù)知識(shí)庫(kù)。這里我們介紹一下數(shù)據(jù)倉(cāng)庫(kù)(Data warehouse)。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經(jīng)過(guò)清理和并且其它資源整合后的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)經(jīng)常被用于通用數(shù)據(jù)(但不一定如此)。一般認(rèn)為,一個(gè)數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。

數(shù)據(jù)挖掘(Data mining):數(shù)據(jù)挖掘關(guān)乎如下過(guò)程,從一大群數(shù)據(jù)中以復(fù)雜的模式識(shí)別技巧找出有意義的模式,并且得到相關(guān)洞見(jiàn)。它與前文所述的「分析」息息相關(guān),在數(shù)據(jù)挖掘中,你將會(huì)先對(duì)數(shù)據(jù)進(jìn)行挖掘,然后對(duì)這些得到的結(jié)果進(jìn)行分析。為了得到有意義的模式(pattern),數(shù)據(jù)挖掘人員會(huì)使用到統(tǒng)計(jì)學(xué)(一種經(jīng)典的舊方法)、機(jī)器學(xué)習(xí)算法和人工智能。

數(shù)據(jù)科學(xué)家:數(shù)據(jù)科學(xué)家是時(shí)下非常性感的一門行業(yè)。它指那些可以通過(guò)提取原始數(shù)據(jù)(這就是我們前面所謂的數(shù)據(jù)湖)進(jìn)而理解、處理并得出洞見(jiàn)的這樣一批人。部分?jǐn)?shù)據(jù)科學(xué)家必備的技能可以說(shuō)只有超人才有:分析能力、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、講故事能力以及理解商業(yè)背景的能力。難怪這幫人工資很高。

分布式文件系統(tǒng)(Distributed File System):大數(shù)據(jù)數(shù)量太大,不能存儲(chǔ)在一個(gè)單獨(dú)的系統(tǒng)中,分布式文件系統(tǒng)是一個(gè)能夠把大量數(shù)據(jù)存儲(chǔ)在多個(gè)存儲(chǔ)設(shè)備上的文件系統(tǒng),它能夠減少存儲(chǔ)大量數(shù)據(jù)的成本和復(fù)雜度。

ETL:ETL 代表提取、轉(zhuǎn)換和加載。它指的是這一個(gè)過(guò)程:「提取」原始數(shù)據(jù),通過(guò)清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫(kù)中供系統(tǒng)使用。即使 ETL 源自數(shù)據(jù)倉(cāng)庫(kù),但是這個(gè)過(guò)程在獲取數(shù)據(jù)的時(shí)候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。

Hadoop:當(dāng)人們思考大數(shù)據(jù)的時(shí)候,他們會(huì)立即想到 Hadoop。Hadoop 是一個(gè)開(kāi)源軟件架構(gòu)(logo 是一頭可愛(ài)的大象),它由 Hadoop 分布式文件系統(tǒng)(HDFS)構(gòu)成,它允許使用分布式硬件對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、抽象和分析。如果你真的想讓某人對(duì)這個(gè)東西印象深刻,你可以跟他說(shuō) YARN(Yet Another Resource Scheduler),顧名思義,就是另一個(gè)資源調(diào)度器。我確實(shí)被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會(huì),還負(fù)責(zé) Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒(méi)有被這些名字驚艷到嗎?

內(nèi)存計(jì)算(In-memory computing):通常認(rèn)為,任何不涉及到 I/O 訪問(wèn)的計(jì)算都會(huì)更快一些。內(nèi)存計(jì)算就是這樣的技術(shù),它把所有的工作數(shù)據(jù)集都移動(dòng)到集群的集體內(nèi)存中,避免了在計(jì)算過(guò)程中向磁盤寫入中間結(jié)果。Apache Spark 就是一個(gè)內(nèi)存計(jì)算的系統(tǒng),它相對(duì) Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢(shì)。

物聯(lián)網(wǎng)(IoT):最新的流行語(yǔ)就是物聯(lián)網(wǎng)(IoT)。IoT 是嵌入式對(duì)象中(如傳感器、可穿戴設(shè)備、車、冰箱等等)的計(jì)算設(shè)備通過(guò)英特網(wǎng)的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網(wǎng)生成了海量的數(shù)據(jù),帶來(lái)了很多大數(shù)據(jù)分析的機(jī)遇。

機(jī)器學(xué)習(xí)(Machine Learning):機(jī)器學(xué)習(xí)是基于喂入的數(shù)據(jù)去設(shè)計(jì)能夠?qū)W習(xí)、調(diào)整和提升的系統(tǒng)的一種方法。使用設(shè)定的預(yù)測(cè)和統(tǒng)計(jì)算法,它們持續(xù)地逼近「正確的」行為和想法,隨著更多的數(shù)據(jù)被輸入到系統(tǒng),它們能夠進(jìn)一步提升。

MapReduce:MapReduce 可能有點(diǎn)難以理解,我試著解釋一下吧。MapReduceMapReduce 是一個(gè)編程模型,最好的理解就是要注意到 Map 和 Reduce 是兩個(gè)不同的過(guò)程。在 MapReduce 中,程序模型首先將大數(shù)據(jù)集分割成一些小塊(這些小塊拿技術(shù)術(shù)語(yǔ)來(lái)講叫做「元組」,但是我描述的時(shí)候會(huì)盡量避免晦澀的技術(shù)術(shù)語(yǔ)),然后這些小塊會(huì)被分發(fā)給不同位置上的不同計(jì)算機(jī)(也就是說(shuō)之前描述過(guò)的集群),這在 Map 過(guò)程是必須的。然后模型會(huì)收集每個(gè)計(jì)算結(jié)果,并且將它們「reduce」成一個(gè)部分。MapReduce 的數(shù)據(jù)處理模型和 Hadoop 分布式文件系統(tǒng)是分不開(kāi)的。

非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL):這個(gè)詞聽(tīng)起來(lái)幾乎就是「SQL,結(jié)構(gòu)化查詢語(yǔ)言」的反義詞,SQL 是傳統(tǒng)的關(guān)系型數(shù)據(jù)管理系統(tǒng)(RDBMS)必需的,但是 NOSQL 實(shí)際上指的是「不止 SQL」。NoSQL 實(shí)際上指的是那些被設(shè)計(jì)來(lái)處理沒(méi)有結(jié)構(gòu)(或者沒(méi)有「schema」,綱要)的大量數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)。NoSQL 適合大數(shù)據(jù)系統(tǒng),因?yàn)榇笠?guī)模的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)需要 NoSQL 的這種靈活性和分布式優(yōu)先的特點(diǎn)。

R 語(yǔ)言:這還有人能給一個(gè)編程語(yǔ)言起一個(gè)更加糟糕的名字嗎?R 語(yǔ)言就是這樣的語(yǔ)言。不過(guò),R 語(yǔ)言是一個(gè)在統(tǒng)計(jì)工作中工作得很好的語(yǔ)言。如果你不知道 R 語(yǔ)言,別說(shuō)你是數(shù)據(jù)科學(xué)家。因?yàn)?nbsp;R 語(yǔ)言是數(shù)據(jù)科學(xué)中最流行的編程語(yǔ)言之一。

Spark(Apache Spark):Apache Spark 是一個(gè)快速的內(nèi)存數(shù)據(jù)處理引擎,它能夠有效地執(zhí)行那些需要迭代訪問(wèn)數(shù)據(jù)庫(kù)的流處理、機(jī)器學(xué)習(xí)以及 SQL 負(fù)載。Spark 通常會(huì)比我們前面討論過(guò)的 MapReduce 快好多。

流處理(Stream processing):流處理被設(shè)計(jì)來(lái)用于持續(xù)地進(jìn)行流數(shù)據(jù)的處理。與流分析技術(shù)(指的是能夠持續(xù)地計(jì)算數(shù)值和統(tǒng)計(jì)分析的能力)結(jié)合起來(lái),流處理方法特別能夠針對(duì)大規(guī)模數(shù)據(jù)的實(shí)時(shí)處理。

結(jié)構(gòu)化 vs 非結(jié)構(gòu)化數(shù)據(jù)(Structured v Unstructured Data):這是大數(shù)據(jù)中的對(duì)比之一。結(jié)構(gòu)化數(shù)據(jù)基本上是那些能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的任何數(shù)據(jù),以這種方式組織的數(shù)據(jù)可以與其他數(shù)據(jù)通過(guò)表格來(lái)關(guān)聯(lián)。非結(jié)構(gòu)化數(shù)據(jù)是指任何不能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如郵件信息、社交媒體上的狀態(tài),以及人類語(yǔ)音等等。

下篇(50 個(gè)術(shù)語(yǔ))

這篇文章是上篇文章的延續(xù),由于上篇反響熱烈,我決定多介紹 50 個(gè)相關(guān)術(shù)語(yǔ)。下面來(lái)對(duì)上篇文章涵蓋的術(shù)語(yǔ)做個(gè)簡(jiǎn)短的回顧:算法,分析,描述性分析,預(yù)處理分析,預(yù)測(cè)分析,批處理,Cassandra(一個(gè)大規(guī)模分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)),云計(jì)算,集群計(jì)算,暗數(shù)據(jù),數(shù)據(jù)湖,數(shù)據(jù)挖掘,數(shù)據(jù)科學(xué)家,分布式文件系統(tǒng),ETL,Hadoop(一個(gè)開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)),內(nèi)存計(jì)算,物聯(lián)網(wǎng),機(jī)器學(xué)習(xí),Mapreduce(hadoop 的核心組件之一),NoSQL(非關(guān)系型的數(shù)據(jù)庫(kù)),R,Spark(計(jì)算引擎),流處理,結(jié)構(gòu)化 vs 非結(jié)構(gòu)化數(shù)據(jù)。

我們接下來(lái)繼續(xù)了解另外 50 個(gè)大數(shù)據(jù)術(shù)語(yǔ)。

Apache 軟件基金會(huì)(ASF)提供了許多大數(shù)據(jù)的開(kāi)源項(xiàng)目,目前有 350 多個(gè)。解釋完這些項(xiàng)目需要耗費(fèi)大量時(shí)間,所以我只挑選解釋了一些流行術(shù)語(yǔ)。

 Apache Kafka:命名于捷克作家卡夫卡,用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流媒體應(yīng)用。它如此流行的原因在于能夠以容錯(cuò)的方式存儲(chǔ)、管理和處理數(shù)據(jù)流,據(jù)說(shuō)還非?!缚焖佟埂hb于社交網(wǎng)絡(luò)環(huán)境大量涉及數(shù)據(jù)流的處理,卡夫卡目前非常受歡迎。

Apache Mahout:Mahout 提供了一個(gè)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的預(yù)制算法庫(kù),也可用作創(chuàng)建更多算法的環(huán)境。換句話說(shuō),機(jī)器學(xué)習(xí)極客的最佳環(huán)境。

Apache Oozie:在任何編程環(huán)境中,你都需要一些工作流系統(tǒng)通過(guò)預(yù)定義的方式和定義的依賴關(guān)系,安排和運(yùn)行工作。Oozie 為 pig、MapReduce 以及 Hive 等語(yǔ)言編寫的大數(shù)據(jù)工作所提供正是這個(gè)。

Apache Drill, Apache Impala, Apache Spark SQL:這三個(gè)開(kāi)源項(xiàng)目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互。如果你已經(jīng)知道 SQL 并處理以大數(shù)據(jù)格式存儲(chǔ)的數(shù)據(jù)(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說(shuō)的有點(diǎn)奇怪。

Apache Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲(chǔ)中的大型數(shù)據(jù)集。

Apache Pig:Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢、執(zhí)行例程的平臺(tái)。所使用的腳本語(yǔ)言叫做 Pig Latin(我絕對(duì)不是瞎說(shuō),相信我)。據(jù)說(shuō) Pig 很容易理解和學(xué)習(xí)。但是我很懷疑有多少是可以學(xué)習(xí)的?

Apache Sqoop:一個(gè)用于將數(shù)據(jù)從 Hadoop 轉(zhuǎn)移到非 Hadoop 數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系數(shù)據(jù)庫(kù))的工具。

Apache Storm:一個(gè)免費(fèi)開(kāi)源的實(shí)時(shí)分布式計(jì)算系統(tǒng)。它使得使用 Hadoop 進(jìn)行批處理的同時(shí)可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。

人工智能(AI):為什么 AI 出現(xiàn)在這里?你可能會(huì)問(wèn),這不是一個(gè)單獨(dú)的領(lǐng)域嗎?所有這些技術(shù)發(fā)展趨勢(shì)緊密相連,所以我們最好靜下心來(lái)繼續(xù)學(xué)習(xí),對(duì)吧?AI 以軟硬件結(jié)合的方式開(kāi)發(fā)智能機(jī)器和軟件,這種硬件和軟件的結(jié)合能夠感知環(huán)境并在需要時(shí)采取必要的行動(dòng),不斷從這些行動(dòng)中學(xué)習(xí)。是不是聽(tīng)起來(lái)很像機(jī)器學(xué)習(xí)?跟我一起「困惑」吧。

行為分析(Behavioral Analytics):你有沒(méi)有想過(guò)谷歌是如何為你需要的產(chǎn)品/服務(wù)提供廣告的?行為分析側(cè)重于理解消費(fèi)者和應(yīng)用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網(wǎng)模式,社交媒體互動(dòng)行為,以及我們的網(wǎng)上購(gòu)物活動(dòng)(購(gòu)物車等),連接這些無(wú)關(guān)的數(shù)據(jù)點(diǎn),并試圖預(yù)測(cè)結(jié)果。舉一個(gè)例子,在我找到一家酒店并清空購(gòu)物車后,我收到了度假村假期線路的電話。我還要說(shuō)多點(diǎn)嗎?

Brontobytes:1 后面 27 個(gè)零,這是未來(lái)數(shù)字世界存儲(chǔ)單位的大小。而我們?cè)谶@里,來(lái)談?wù)?nbsp;Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要讀這篇文章才能深入了解這些術(shù)語(yǔ)。

商業(yè)智能(Business Intelligence):我將重用 Gartner 對(duì) BI 的定義,因?yàn)樗忉尩暮芎?。商業(yè)智能是一個(gè)總稱,包括應(yīng)用程序、基礎(chǔ)設(shè)施、工具以及最佳實(shí)踐,它可以訪問(wèn)和分析信息,從而改善和優(yōu)化決策及績(jī)效。

生物測(cè)定學(xué)(Biometrics):這是一項(xiàng) James Bondish 技術(shù)與分析技術(shù)相結(jié)合的通過(guò)人體的一種或多種物理特征來(lái)識(shí)別人的技術(shù),如面部識(shí)別,虹膜識(shí)別,指紋識(shí)別等。

點(diǎn)擊流分析(Clickstream analytics):用于分析用戶在網(wǎng)絡(luò)上瀏覽時(shí)的在線點(diǎn)擊數(shù)據(jù)。有沒(méi)有想過(guò)即使在切換網(wǎng)站時(shí),為什么某些谷歌廣告還是陰魂不散?因?yàn)楣雀璐罄兄滥阍邳c(diǎn)擊什么。

 聚類分析(Cluster Analysis)是一個(gè)試圖識(shí)別數(shù)據(jù)結(jié)構(gòu)的探索性分析,也稱為分割分析或分類分析。更具體地說(shuō),它試圖確定案例的同質(zhì)組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來(lái)識(shí)別案例組。因?yàn)樗翘剿餍缘模_實(shí)對(duì)依賴變量和獨(dú)立變量進(jìn)行了區(qū)分。SPSS 提供的不同的聚類分析方法可以處理二進(jìn)制、標(biāo)稱、序數(shù)和規(guī)模(區(qū)間或比率)數(shù)據(jù)。

比較分析(Comparative Analytics):因?yàn)榇髷?shù)據(jù)的關(guān)鍵就在于分析,所以本文中我將深入講解分析的意義。顧名思義,比較分析是使用諸如模式分析、過(guò)濾和決策樹(shù)分析等統(tǒng)計(jì)技術(shù)來(lái)比較多個(gè)進(jìn)程、數(shù)據(jù)集或其他對(duì)象。我知道它涉及的技術(shù)越來(lái)越少,但是我仍無(wú)法完全避免使用術(shù)語(yǔ)。比較分析可用于醫(yī)療保健領(lǐng)域,通過(guò)比較大量的醫(yī)療記錄、文件、圖像等,給出更有效和更準(zhǔn)確的醫(yī)療診斷。

關(guān)聯(lián)分析(Connection Analytics):你一定看到了像圖表一樣的蜘蛛網(wǎng)將人與主題連接起來(lái),從而確定特定主題的影響者。關(guān)聯(lián)分析分析可以幫助發(fā)現(xiàn)人們、產(chǎn)品、網(wǎng)絡(luò)之中的系統(tǒng),甚至是數(shù)據(jù)與多個(gè)網(wǎng)絡(luò)結(jié)合之間的相關(guān)連接和影響。

數(shù)據(jù)分析師(Data Analyst):數(shù)據(jù)分析師是一個(gè)非常重要和受歡迎的工作,除了準(zhǔn)備報(bào)告之外,它還負(fù)責(zé)收集、編輯和分析數(shù)據(jù)。我會(huì)寫一篇更詳細(xì)的關(guān)于數(shù)據(jù)分析師的文章。

數(shù)據(jù)清洗(Data Cleansing):顧名思義,數(shù)據(jù)清洗涉及到檢測(cè)并更正或者刪除數(shù)據(jù)庫(kù)中不準(zhǔn)確的數(shù)據(jù)或記錄,然后記住「臟數(shù)據(jù)」。借助于自動(dòng)化或者人工工具和算法,數(shù)據(jù)分析師能夠更正并進(jìn)一步豐富數(shù)據(jù),以提高數(shù)據(jù)質(zhì)量。請(qǐng)記住,臟數(shù)據(jù)會(huì)導(dǎo)致錯(cuò)誤的分析和糟糕的決策。

數(shù)據(jù)即服務(wù)(DaaS):我們有軟件即服務(wù)(SaaS), 平臺(tái)即服務(wù)(PaaS),現(xiàn)在我們又有 DaaS,它的意思是:數(shù)據(jù)即服務(wù)。通過(guò)給用戶提供按需訪問(wèn)的云端數(shù)據(jù),DaaS 提供商能夠幫助我們快速地得到高質(zhì)量的數(shù)據(jù)。

數(shù)據(jù)虛擬化(Data virtualization):這是一種數(shù)據(jù)管理方法,它允許某個(gè)應(yīng)用在不知道技術(shù)細(xì)節(jié)(如數(shù)據(jù)存放在何處,以什么格式)的情況下能夠抽取并操作數(shù)據(jù)。例如,社交網(wǎng)絡(luò)利用這個(gè)方法來(lái)存儲(chǔ)我們的照片。

臟數(shù)據(jù)(Dirty Data):既然大數(shù)據(jù)這么吸引人,那么人們也開(kāi)始給數(shù)據(jù)加上其他的形容詞來(lái)形成新的術(shù)語(yǔ),例如黑數(shù)據(jù)(dark data)、臟數(shù)據(jù)(dirty data)、小數(shù)據(jù)(small data),以及現(xiàn)在的智能數(shù)據(jù)(smart data)。臟數(shù)據(jù)就是不干凈的數(shù)據(jù),換言之,就是不準(zhǔn)確的、重復(fù)的以及不一致的數(shù)據(jù)。顯然,你不會(huì)想著和臟數(shù)據(jù)攪在一起。所以,盡快地修正它。

模糊邏輯(Fuzzy logic):我們有多少次對(duì)一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數(shù)據(jù)聚合成部分的事實(shí),這些事實(shí)進(jìn)一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計(jì)算方式,與像布爾代數(shù)等等中的「0」和「1」相反,它旨在通過(guò)漸漸消除部分事實(shí)來(lái)模仿人腦。

游戲化(Gamification):在一個(gè)典型的游戲中,你會(huì)有一個(gè)類似于分?jǐn)?shù)一樣的元素與別人競(jìng)爭(zhēng),并且還有明確的游戲規(guī)則。大數(shù)據(jù)中的游戲化就是使用這些概念來(lái)收集、分析數(shù)據(jù)或者激發(fā)玩家。

圖數(shù)據(jù)庫(kù)(Graph Databases):圖數(shù)據(jù)使用節(jié)點(diǎn)和邊這樣的概念來(lái)代表人和業(yè)務(wù)以及他們之間的關(guān)系,以挖掘社交媒體中的數(shù)據(jù)。是否曾經(jīng)驚嘆過(guò)亞馬遜在你買一件產(chǎn)品的時(shí)候告訴你的關(guān)于別人在買什么的信息?對(duì),這就是圖數(shù)據(jù)庫(kù)。

Hadoop 用戶體驗(yàn)(Hadoop User Experience /Hue):Hue 是一個(gè)能夠讓使用 Apache Hadoop 變得更加容易的開(kāi)源接口。它是一款基于 web 的應(yīng)用;它有一款分布式文件系統(tǒng)的文件瀏覽器;它有用于 MapReduce 的任務(wù)設(shè)計(jì);它有能夠調(diào)度工作流的框架 Oozie;它有一個(gè) shell、一個(gè) Impala、一個(gè) Hive UI 以及一組 Hadoop API。

高性能分析應(yīng)用(HANA):這是 SAP 公司為大數(shù)據(jù)傳輸和分析設(shè)計(jì)的一個(gè)軟硬件內(nèi)存平臺(tái)。

HBase: 一個(gè)分布式的面向列的數(shù)據(jù)庫(kù)。它使用 HDFS 作為其底層存儲(chǔ),既支持利用 MapReduce 進(jìn)行的批量計(jì)算,也支持利用事物交互的批量計(jì)算。

負(fù)載均衡(Load balancing):為了實(shí)現(xiàn)最佳的結(jié)果和對(duì)系統(tǒng)的利用,將負(fù)載分發(fā)給多個(gè)計(jì)算機(jī)或者服務(wù)器。

元數(shù)據(jù)(Metadata):元數(shù)據(jù)就是能夠描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了數(shù)據(jù)的基本信息,這使得查找和使用特定的數(shù)據(jù)實(shí)例變得更加容易。例如,作者、數(shù)據(jù)的創(chuàng)建日期、修改日期以及大小,這幾項(xiàng)是基本的文檔元數(shù)據(jù)。除了文檔文件之外,元數(shù)據(jù)還被用于圖像、視頻、電子表格和網(wǎng)頁(yè)。

MongoDB:MongoDB 是一個(gè)面向文本數(shù)據(jù)模型的跨平臺(tái)開(kāi)源數(shù)據(jù)庫(kù),而不是傳統(tǒng)的基于表格的關(guān)系數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)結(jié)構(gòu)的主要設(shè)計(jì)目的是讓結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在特定類型應(yīng)用的整合更快、更容易。

Mashup:幸運(yùn)的是,這個(gè)術(shù)語(yǔ)和我們?cè)谌粘I钪惺褂玫摹竚ashup」一詞有著相近的含義,就是混搭的意思。實(shí)質(zhì)上,mashup 是一個(gè)將不同的數(shù)據(jù)集合并到一個(gè)單獨(dú)應(yīng)用中的方法(例如:將房地產(chǎn)數(shù)據(jù)與地理位置數(shù)據(jù)、人口數(shù)據(jù)結(jié)合起來(lái))。這確實(shí)能夠讓可視化變得很酷。

多維數(shù)據(jù)庫(kù)(Multi-Dimensional Databases):這是一個(gè)為了數(shù)據(jù)在線分析處理(OLAP)和數(shù)據(jù)倉(cāng)庫(kù)優(yōu)化而來(lái)的數(shù)據(jù)庫(kù)。如果你不知道數(shù)據(jù)倉(cāng)庫(kù)是什么,我可以解釋一下,數(shù)據(jù)倉(cāng)庫(kù)不是別的什么東西,它只是對(duì)多個(gè)數(shù)據(jù)源的數(shù)據(jù)做了集中存儲(chǔ)。

多值數(shù)據(jù)庫(kù)(MultiValue Databases):多值數(shù)據(jù)庫(kù)是一種非關(guān)系型數(shù)據(jù)庫(kù),它能夠直接理解三維數(shù)據(jù),這對(duì)直接操作 HTML 和 XML 字符串是很好的。

自然語(yǔ)言處理(Natural Language Processing):自然語(yǔ)言處理是被設(shè)計(jì)來(lái)讓計(jì)算機(jī)更加準(zhǔn)確地理解人類日常語(yǔ)言的軟件算法,能夠讓人類更加自然、更加有效地和計(jì)算機(jī)交互。

神經(jīng)網(wǎng)絡(luò)(Neural Network):根據(jù)這個(gè)描述(http:///),神經(jīng)網(wǎng)絡(luò)是一個(gè)受生物學(xué)啟發(fā)的非常漂亮的編程范式,它能夠讓計(jì)算機(jī)從觀察到的數(shù)據(jù)中學(xué)習(xí)。已經(jīng)好久沒(méi)有一個(gè)人會(huì)說(shuō)一個(gè)編程范式很漂亮了。實(shí)際上,神經(jīng)網(wǎng)絡(luò)就是受現(xiàn)實(shí)生活中腦生物學(xué)啟發(fā)的模型....... 與神經(jīng)網(wǎng)絡(luò)緊密關(guān)聯(lián)的一個(gè)術(shù)語(yǔ)就是深度學(xué)習(xí)。深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一系列學(xué)習(xí)技術(shù)的集合。

模式識(shí)別(Pattern Recognition):當(dāng)算法需要在大規(guī)模數(shù)據(jù)集或者在不同的數(shù)據(jù)集上確定回歸或者規(guī)律的時(shí)候,就出現(xiàn)了模式識(shí)別。它與機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘緊密相連,甚至被認(rèn)為是后兩者的代名詞。這種可見(jiàn)性可以幫助研究者發(fā)現(xiàn)一些深刻的規(guī)律或者得到一些可能被認(rèn)為很荒謬的結(jié)論。

射頻識(shí)別(Radio Frequency Identification/RFID):射頻識(shí)別是一類使用非接觸性無(wú)線射頻電磁場(chǎng)來(lái)傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)的發(fā)展,RFID 標(biāo)簽?zāi)軌虮磺度氲饺魏慰赡艿摹笘|西里面」,這能夠生成很多需要被分析的數(shù)據(jù)。歡迎來(lái)到數(shù)據(jù)世界。

軟件即服務(wù)(SaaS):軟件即服務(wù)讓服務(wù)提供商把應(yīng)用托管在互聯(lián)網(wǎng)上。SaaS 提供商在云端提供服務(wù)。

半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured data):半結(jié)構(gòu)化數(shù)據(jù)指的是那些沒(méi)有以傳統(tǒng)的方法進(jìn)行格式化的數(shù)據(jù),例如那些與傳統(tǒng)數(shù)據(jù)庫(kù)相關(guān)的數(shù)據(jù)域或者常用的數(shù)據(jù)模型。半結(jié)構(gòu)化數(shù)據(jù)也不是完全原始的數(shù)據(jù)或者完全非結(jié)構(gòu)化的數(shù)據(jù),它可能會(huì)包含一些數(shù)據(jù)表、標(biāo)簽或者其他的結(jié)構(gòu)元素。半結(jié)構(gòu)化數(shù)據(jù)的例子有圖、表、XML 文檔以及電子郵件。半結(jié)構(gòu)化數(shù)據(jù)在萬(wàn)維網(wǎng)上十分流行,在面向?qū)ο髷?shù)據(jù)庫(kù)中經(jīng)常能夠被找到。

情感分析(Sentiment Analysis):情感分析涉及到了對(duì)消費(fèi)者在社交媒體、顧客代表電話訪談和調(diào)查中存在的多種類型的交互和文檔中所表達(dá)的情感、情緒和意見(jiàn)的捕捉、追蹤和分析。文本分析和自然語(yǔ)言處理是情感分析過(guò)程中的典型技術(shù)。情感分析的目標(biāo)就是要辨別或評(píng)價(jià)針對(duì)一個(gè)公司、產(chǎn)品、服務(wù)、人或者時(shí)間所持有的態(tài)度或者情感。

空間分析(Spatial analysis):空間分析指的是對(duì)空間數(shù)據(jù)作出分析,以識(shí)別或者理解分布在幾何空間中的數(shù)據(jù)的模式和規(guī)律,這類數(shù)據(jù)有幾何數(shù)據(jù)和拓?fù)鋽?shù)據(jù)。

流處理(Stream processing):流處理被設(shè)計(jì)用來(lái)對(duì)「流數(shù)據(jù)」進(jìn)行實(shí)時(shí)的「連續(xù)」查詢和處理。為了對(duì)大量的流數(shù)據(jù)以很快的速度持續(xù)地進(jìn)行實(shí)時(shí)的數(shù)值計(jì)算和統(tǒng)計(jì)分析,社交網(wǎng)絡(luò)上的流數(shù)據(jù)對(duì)流處理的需求很明確。

智能數(shù)據(jù)(Smart Data)是經(jīng)過(guò)一些算法處理之后有用并且可操作的數(shù)據(jù)。

Terabyte:這是一個(gè)相對(duì)大的數(shù)字?jǐn)?shù)據(jù)單位,1TB 等于 1000GB。據(jù)估計(jì),10TB 能夠容納美國(guó)國(guó)會(huì)圖書館的所有印刷品,而 1TB 則能夠容納整個(gè)百科全書 Encyclopedia Brittanica。

可視化(Visualization):有了合理的可視化之后,原始數(shù)據(jù)就能夠使用了。當(dāng)然這里的可視化并不止簡(jiǎn)單的圖表。而是能夠包含數(shù)據(jù)的很多變量的同時(shí)還具有可讀性和可理解性的復(fù)雜圖表。

Yottabytes:接近 1000 Zettabytes,或者 2500 萬(wàn)億張 DVD?,F(xiàn)在所有的數(shù)字存儲(chǔ)大概是 1 Yottabyte,而且這個(gè)數(shù)字每 18 個(gè)月會(huì)翻一番。

Zettabytes:接近 1000 Exabytes,或者 10 億 Terabytes。

原文鏈接:http:///2017/02/25-big-data-terms/

http:///2017/07/75-big-data-terms-everyone-know/

【編輯推薦】

【責(zé)任編輯:張子龍 TEL:(010)68476606】

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多