日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)科學(xué)簡化講解:原理和過程

 東西二王 2019-08-27

2006年,英國數(shù)學(xué)家Clive Humbly和Tesco俱樂部卡的設(shè)計師創(chuàng)造了“數(shù)據(jù)就是新油(Data is the new oil)”這句話。他說:

“數(shù)據(jù)是新的石油。它很有價值,但如果未經(jīng)提煉就不能使用。它必須轉(zhuǎn)變?yōu)樘烊粴?,塑料,化學(xué)品等,以創(chuàng)造一個有價值的實體驅(qū)動盈利的活動; 所以,必須對數(shù)據(jù)進行分解和分析,才能使其具有價值?!?/em>

在本文中,我將首先介紹數(shù)據(jù)科學(xué)中的基本原理,一般過程和問題類型。

數(shù)據(jù)科學(xué)是一個多學(xué)科領(lǐng)域。它是以下領(lǐng)域之間的交集:

  • 商業(yè)知識
  • 機器學(xué)習(xí)
  • 計算機編程

我們的重點將是簡化數(shù)據(jù)科學(xué)的機器學(xué)習(xí)方面。在本文中,我將首先介紹數(shù)據(jù)科學(xué)中的原理,一般過程和問題類型。

關(guān)鍵原理

數(shù)據(jù)科學(xué)簡化講解:原理和過程

  • 數(shù)據(jù)是一項戰(zhàn)略資產(chǎn):這一概念是一種組織心態(tài)。要問的問題是:“我們是否正在使用我們收集和存儲的所有數(shù)據(jù)資產(chǎn)?我們能從中獲取有意義的見解嗎?“ 我確信這些問題的答案都是“不”。云計算的公司本質(zhì)上是數(shù)據(jù)驅(qū)動的,將數(shù)據(jù)視為戰(zhàn)略資產(chǎn)是他們的心理,這種心態(tài)對大多數(shù)組織都無效。
  • 信息提取的系統(tǒng)過程:需要有一個有條理的過程來從數(shù)據(jù)中提取見解。這個過程應(yīng)該有清晰明確的階段,并有明確的可交付成果??缧袠I(yè)標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程(CRISP-DM)就是這樣一個過程。
  • 沉浸在數(shù)據(jù)中:組織需要投資于對數(shù)據(jù)充滿熱情的人。將數(shù)據(jù)轉(zhuǎn)化為見解并不是魔法,他們需要了解數(shù)據(jù)所產(chǎn)生的價值,他們需要能夠連接數(shù)據(jù),技術(shù)和業(yè)務(wù)的人員。
  • 不確定性因素:數(shù)據(jù)科學(xué)不是靈丹妙藥,它不是一個水晶球。與報告和KPI一樣,它是決策促成因素。數(shù)據(jù)科學(xué)是一種工具,而不是結(jié)束的手段,它不屬于絕對領(lǐng)域,它屬于概率領(lǐng)域,管理者和決策者需要接受這一事實。他們需要在決策過程中接受量化的不確定性,如果組織采用失敗的快速學(xué)習(xí)方法,這種不確定性只能根深蒂固。只有組織選擇實驗文化,它才會蓬勃發(fā)展。
  • BAB原則:我認為這是最重要的原則。許多數(shù)據(jù)科學(xué)文獻的重點是模型和算法,這個等式?jīng)]有商業(yè)背景。業(yè)務(wù)分析 - 業(yè)務(wù)(BAB)是強調(diào)業(yè)務(wù)部分的原則,將它們置于業(yè)務(wù)環(huán)境中是至關(guān)重要的。定義業(yè)務(wù)問題,使用分析來解決它。將輸出集成到業(yè)務(wù)流程中。BAB。

處理

數(shù)據(jù)科學(xué)簡化講解:原理和過程

根據(jù)第二條原則,現(xiàn)在讓我強調(diào)一下數(shù)據(jù)科學(xué)的過程部分。以下是一個典型的數(shù)據(jù)科學(xué)項目的階段:

1.定義業(yè)務(wù)問題

阿爾伯特愛因斯坦曾引用“每件事都應(yīng)該盡可能地簡單,但不能越簡單越好”。這句話是定義業(yè)務(wù)問題的關(guān)鍵。需要開發(fā)和構(gòu)建問題陳述,需要建立明確的成功標(biāo)準(zhǔn)。根據(jù)我的經(jīng)驗,業(yè)務(wù)團隊忙于處理他們的操作任務(wù)。這并不意味著他們沒有需要解決的挑戰(zhàn)。頭腦風(fēng)暴會議,研討會和訪談可以幫助發(fā)現(xiàn)這些挑戰(zhàn)并提出假設(shè)。讓我用一個例子來說明這一點。讓我們假設(shè)一家電信公司由于客戶群減少而導(dǎo)致其同比收入下降。在這種情況下,業(yè)務(wù)問題可能定義為:

  • 該公司需要通過定位新的細分市場和減少客戶流失來擴大客戶群。

2.分解為機器學(xué)習(xí)任務(wù)

業(yè)務(wù)問題一旦定義,就需要分解為機器學(xué)習(xí)任務(wù)。讓我們詳細說明我們在上面設(shè)置的示例。如果組織需要通過定位新的細分市場并減少客戶流失來擴大客戶群,那么我們?nèi)绾螌⑵浞纸鉃闄C器學(xué)習(xí)問題?以下是分解的示例:

  • 將客戶流失率降低x%。
  • 為目標(biāo)市場確定新的客戶群。

3.數(shù)據(jù)準(zhǔn)備

一旦我們定義了業(yè)務(wù)問題并將其分解為機器學(xué)習(xí)問題,我們就需要深入研究數(shù)據(jù)。數(shù)據(jù)理解應(yīng)該明確手頭的問題。它應(yīng)該有助于我們制定正確的分析策略。需要注意的關(guān)鍵事項是數(shù)據(jù)來源,數(shù)據(jù)質(zhì)量,數(shù)據(jù)偏差等。

4.探索性數(shù)據(jù)分析

宇航員穿越宇宙的未知。同樣,數(shù)據(jù)科學(xué)家遍歷數(shù)據(jù)模式的未知,窺探其特征的奧秘并制定出未被探索的內(nèi)容。探索性數(shù)據(jù)分析(EDA)是一項令人興奮的任務(wù)。我們可以更好地理解數(shù)據(jù),研究其中的細微差別,發(fā)現(xiàn)隱藏的模式,開發(fā)新特性并制定建模策略。

5.建模

在EDA之后,我們進入建模階段。在這里,我們根據(jù)具體的機器學(xué)習(xí)問題,我們應(yīng)用有用的算法,如回歸,決策樹,隨機森林等。

6.部署和評估

最后,對所開發(fā)的模型進行了部署。它們被持續(xù)監(jiān)測,以觀察它們在現(xiàn)實世界中的行為,并據(jù)此進行校準(zhǔn)。

通常,建模和部署部分僅占工作量的20%。80%的工作是接觸數(shù)據(jù),探索數(shù)據(jù)并理解數(shù)據(jù)。

機器學(xué)習(xí)問題類型

數(shù)據(jù)科學(xué)簡化講解:原理和過程

一般來說,機器學(xué)習(xí)有兩種任務(wù):

監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)是一種機器學(xué)習(xí)任務(wù),其中存在已定義的目標(biāo)。從概念上講,建模者將監(jiān)督機器學(xué)習(xí)模型以實現(xiàn)特定目標(biāo)。監(jiān)督學(xué)習(xí)可以進一步分為兩類:

回歸

回歸是機器學(xué)習(xí)任務(wù)的主力。它們用于估計或預(yù)測數(shù)值變量?;貧w模型的幾個例子可以是:

  • 下個季度潛在收入的預(yù)測?
  • 明年能夠完成多少筆交易?

分類

顧名思義,分類模型對某些事物進行了分類。估計哪個最合適。分類模型經(jīng)常用于所有類型的應(yīng)用程序。分類模型的例子很少:

  • 垃圾郵件過濾是分類模型的流行實現(xiàn)。在這里,根據(jù)特定特征,每個傳入的電子郵件都被歸類為垃圾郵件或非垃圾郵件。
  • 客戶流失預(yù)測是分類模型的另一個重要應(yīng)用。在電信公司中廣泛使用的流失模型可以對給定客戶是否會流失(即停止使用服務(wù))進行分類。

無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)是一類沒有目標(biāo)的機器學(xué)習(xí)任務(wù)。由于無監(jiān)督學(xué)習(xí)沒有任何特定目標(biāo),因此有時難以解釋其產(chǎn)生的結(jié)果。有許多類型的無監(jiān)督學(xué)習(xí)任務(wù)。關(guān)鍵是:

  • 聚類:聚類是將類似事物組合在一起的過程??蛻艏毞质褂镁垲惙椒?。
  • 關(guān)聯(lián):關(guān)聯(lián)是一種尋找經(jīng)常相互匹配的產(chǎn)品的方法。零售市場分析使用關(guān)聯(lián)方法將產(chǎn)品捆綁在一起。
  • 預(yù)測:預(yù)測用于發(fā)現(xiàn)數(shù)據(jù)項之間的連接。Facebook,亞馬遜和Netflix采用的推薦引擎大量使用鏈接預(yù)測算法來分別向我們推薦朋友、要購買的商品和電影。
  • 數(shù)據(jù)簡化:數(shù)據(jù)簡化方法用于簡化從許多特征到少數(shù)特征的數(shù)據(jù)集。它使用具有許多屬性的大型數(shù)據(jù)集,并找到用更少的屬性表示它們的方法。

機器學(xué)習(xí)任務(wù)從模型到算法

一旦我們將業(yè)務(wù)問題分解為機器學(xué)習(xí)任務(wù),一個或多個算法就可以解決給定的機器學(xué)習(xí)任務(wù)。通常,模型是在多種算法上訓(xùn)練的。選擇提供最佳結(jié)果的算法或算法集用于部署。

Azure Machine Learning具有30多種預(yù)先構(gòu)建的算法,可用于訓(xùn)練機器學(xué)習(xí)模型。

數(shù)據(jù)科學(xué)簡化講解:原理和過程

Azure Machine Learning備忘錄將有助于瀏覽它。

結(jié)論

數(shù)據(jù)科學(xué)是一個廣闊的領(lǐng)域。這是一個令人興奮的領(lǐng)域。這是一門藝術(shù),這是一門科學(xué)。在本文中,我們剛剛探討了冰山的表面。如果不知道“為什么”,那么“如何”將是徒勞的。在隨后的文章中,我們將探討機器學(xué)習(xí)的“原理”。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多