日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

 taotao_2016 2020-07-11

正如愛(ài)因斯坦所說(shuō):'從希臘哲學(xué)到現(xiàn)代物理學(xué)的整個(gè)科學(xué)史中,不斷有人試圖把表面上極為復(fù)雜的自然現(xiàn)象歸結(jié)為幾個(gè)簡(jiǎn)單的基本概念和關(guān)系,這就是整個(gè)自然哲學(xué)的基本原理。'人類進(jìn)化的發(fā)展史,從某種意義上來(lái)講就是不斷歸納經(jīng)驗(yàn)進(jìn)而演繹的過(guò)程。從刀耕火種的新石器時(shí)代到近代的工業(yè)革命以及現(xiàn)代科技的發(fā)展,人類已經(jīng)積累了大量的經(jīng)驗(yàn)。這些經(jīng)驗(yàn)既是'種瓜得瓜,種豆得豆”這樣的常識(shí),也是例如相對(duì)論這樣的定理公式。人類文明正沿著時(shí)間這條坐標(biāo)軸不斷前進(jìn),如何利用過(guò)往的經(jīng)驗(yàn)來(lái)推動(dòng)人類社會(huì)的再一次飛躍,人工智能或許是我們需要的答案

人工智能的起源應(yīng)該可以追溯到17世紀(jì)甚至更早,當(dāng)時(shí)人們對(duì)于人工智能的定義是基于推理的。人們暢想著如果兩個(gè)哲學(xué)家或者歷史學(xué)家的觀點(diǎn)出現(xiàn)矛盾,兩個(gè)人不必再進(jìn)行無(wú)休止的爭(zhēng)吵,世界上的所有理論會(huì)抽象成類似于數(shù)學(xué)符號(hào)的語(yǔ)言,人們只需要拿出筆來(lái)計(jì)算就可以解決矛盾。這種抽象邏輯給了后人引導(dǎo),如今,機(jī)器學(xué)習(xí)在行業(yè)上的應(yīng)用也是將業(yè)務(wù)邏輯抽象成數(shù)字來(lái)進(jìn)行計(jì)算,從而解決業(yè)務(wù)問(wèn)題。但是在遠(yuǎn)古時(shí)代,這些邏輯還只是科學(xué)家腦中的想法。實(shí)際上,直到有機(jī)器的出現(xiàn),人工智能才真正作為一門(mén)學(xué)科而受到廣泛關(guān)注

談到近代人工智能的起源就不得不提到一個(gè)名字-圖靈(見(jiàn)圖1-1)。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-1阿蘭圖靈

隨著第二次世界大戰(zhàn)的爆發(fā),越來(lái)越多的機(jī)械開(kāi)始替代手工,人們開(kāi)始幻想什么時(shí)候機(jī)器能代替人類來(lái)進(jìn)行思考。在20世紀(jì)40年代,關(guān)于人工智能的討論開(kāi)始興起。但是,機(jī)器做到什么程度才算人工智能,這需要一個(gè)標(biāo)準(zhǔn)來(lái)判定。圖靈用了最直白的話語(yǔ)描述了人工智能,這就是圖靈測(cè)試(見(jiàn)圖1-2)。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-2圖靈測(cè)試

1950年,計(jì)算機(jī)科學(xué)和密碼學(xué)的先驅(qū)阿蘭·麥席森圖靈發(fā)表了一篇名為《計(jì)算機(jī)器與智能》的論文,文中定義了人工智能測(cè)試的方法,讓被測(cè)試人和一個(gè)聲稱自己有人類智力的機(jī)器在一起做一個(gè)實(shí)驗(yàn)。測(cè)試時(shí),測(cè)試人與被測(cè)試人是分開(kāi)的,測(cè)試人只有通過(guò)一些裝置(如鍵盤(pán))向被測(cè)試人問(wèn)一些問(wèn)題,隨便是什么問(wèn)題都可以。問(wèn)過(guò)一些問(wèn)題后,如果測(cè)試人能夠正確地分出誰(shuí)是人、誰(shuí)是機(jī)器,那機(jī)器就沒(méi)有通過(guò)圖靈測(cè)試,如果測(cè)試人沒(méi)有分出誰(shuí)是機(jī)器、誰(shuí)是人,那這個(gè)機(jī)器就是有人類智能的。

人工智能的另一個(gè)重要標(biāo)志是人工智能這一學(xué)科的誕生,故事發(fā)生在1956年達(dá)特茅斯會(huì)議。會(huì)議上提出了這樣的理論:'學(xué)習(xí)或者智能的任何其他特性都能被精確地描述,使得機(jī)器可以對(duì)其進(jìn)行模擬。'這個(gè)論調(diào)很像機(jī)器學(xué)習(xí)算法在今日的應(yīng)用,我們需要提取可以表示業(yè)務(wù)的特征,然后通過(guò)算法來(lái)訓(xùn)練模型,用這些模型對(duì)于未知結(jié)果的預(yù)測(cè)集進(jìn)行預(yù)測(cè)。這次會(huì)議對(duì)于人工智能在更廣闊的領(lǐng)域發(fā)展起到了推動(dòng)作用。在之后的20年里,人類在人工智能,特別是相關(guān)的一些統(tǒng)計(jì)學(xué)算法的研究上取得了突破進(jìn)展,比較有代表性的如神經(jīng)網(wǎng)絡(luò)算法,就是在這個(gè)時(shí)期誕生的。有了這些智能算法作支撐,更多的真實(shí)場(chǎng)景才可以在數(shù)學(xué)層面進(jìn)行模擬,人類慢慢學(xué)會(huì)通過(guò)數(shù)據(jù)和算法的結(jié)合來(lái)進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)某種程度上的智能化應(yīng)用。

人工智能在發(fā)展過(guò)程中也遇到過(guò)非常多的挑戰(zhàn)。20世紀(jì)70年代,隨著理論算法的逐步成熟,人工智能的發(fā)展遇到了計(jì)算資源上的瓶頸。隨著計(jì)算復(fù)雜度的指數(shù)性增長(zhǎng), 20世紀(jì)70年代的大型機(jī)器無(wú)法負(fù)擔(dān)這一切。同時(shí),當(dāng)時(shí)的互聯(lián)網(wǎng)還處于發(fā)展初期,在數(shù)據(jù)積累方面也才剛剛起步??茖W(xué)家往往沒(méi)有足夠的數(shù)據(jù)去訓(xùn)練模型,以圖像印刷文字識(shí)別(Optical Character Recognition , OCR)為例。如果想針對(duì)某一場(chǎng)景訓(xùn)練一套精度較高的OCR模型,需要千萬(wàn)級(jí)的數(shù)據(jù)樣本,這樣的數(shù)據(jù)無(wú)論從數(shù)據(jù)獲取、存儲(chǔ)和計(jì)算成本來(lái)看,在當(dāng)時(shí)都是不可能實(shí)現(xiàn)的。所以人工智能在之后很長(zhǎng)的一段時(shí)間內(nèi)都受限于計(jì)算能力以及數(shù)據(jù)量的不足

雖然經(jīng)歷了近20年的消沉?xí)r期,但是數(shù)據(jù)科學(xué)家對(duì)于人工智能的探索從未停止過(guò)。在21世紀(jì),隨著互聯(lián)網(wǎng)的井噴式發(fā)展,越來(lái)越多的圖像和文本數(shù)據(jù)被分享到網(wǎng)頁(yè)上,停留在互聯(lián)網(wǎng)巨頭的服務(wù)器中,隨之而來(lái)的是用戶在網(wǎng)上的瀏覽記錄和購(gòu)物記錄的收集?;ヂ?lián)網(wǎng)已經(jīng)變成了一個(gè)大數(shù)據(jù)倉(cāng)庫(kù),許多網(wǎng)絡(luò)大咖們紛紛將注意力投向數(shù)據(jù)挖掘領(lǐng)域,數(shù)據(jù)庫(kù)成為了一座座金礦,數(shù)據(jù)科學(xué)家們開(kāi)始用一行行公式和代碼挖掘數(shù)據(jù)背后的價(jià)值,越來(lái)越多的公司做起了數(shù)據(jù)買賣。這些代碼和公式就是本書(shū)的主角-機(jī)器學(xué)習(xí)算法。馬云先生在很多年前的公開(kāi)演講上就已經(jīng)明確表示過(guò)'阿里巴巴是一家數(shù)據(jù)公司'。數(shù)據(jù)的積累就像是一塊塊肥沃的土地,需要機(jī)器學(xué)習(xí)算法來(lái)在上面耕種,云計(jì)算就是揮舞在土地上的“鋤頭'.PB級(jí)數(shù)據(jù)的積累使得人們不得不將單機(jī)計(jì)算遷移到多機(jī),并行計(jì)算理論開(kāi)始得到了廣泛的應(yīng)用,這就催生了云計(jì)算的概念。云計(jì)算,就是分布式計(jì)算,簡(jiǎn)單來(lái)講就是將一個(gè)很復(fù)雜的任務(wù)進(jìn)行拆解,由成百上千的機(jī)器各自執(zhí)行任務(wù)的一個(gè)小模塊,然后將結(jié)果匯總。

以Hadoop為代表的開(kāi)源分布式計(jì)算架構(gòu)為更多的企業(yè)提供了分布式計(jì)算的技術(shù)支持。隨著Caffe和Tensorflow等高效率的深度學(xué)習(xí)架構(gòu)被開(kāi)源,許多小型企業(yè)也具備了自主研發(fā)改進(jìn)算法模型的能力。人工智能的應(yīng)用開(kāi)始普及,并且逐漸融入我們的生活當(dāng)中。人們開(kāi)始習(xí)慣了在Google上輸入一個(gè)詞條馬上就能返回上千萬(wàn)條信息,通過(guò)刷臉或者指紋識(shí)別來(lái)進(jìn)行支付,在淘寶購(gòu)物時(shí)獲得智能商品推薦。圖像識(shí)別、文本識(shí)別和語(yǔ)音識(shí)別的發(fā)展給我們的生活帶來(lái)了顛覆式的影響。2016年, Google關(guān)于人工智能的一場(chǎng)秀將人工智能產(chǎn)業(yè)帶到了一個(gè)新高度。機(jī)器智能戰(zhàn)勝人類圍棋選手一直以來(lái)被認(rèn)為是不可能實(shí)現(xiàn)的任務(wù),但是AlphaGo成功地實(shí)現(xiàn)了這一點(diǎn)。AlphaGo的成功不僅僅驗(yàn)證了深度學(xué)習(xí)和蒙特卡洛搜索算法的實(shí)踐性,更加再一次印證了這樣的事實(shí),即人類不再是產(chǎn)生智能的唯一載體。任何機(jī)器,只要能夠進(jìn)行信息的接收、存儲(chǔ)和分析,都是可以產(chǎn)生智能的。而這里面的關(guān)鍵因素是信息的量級(jí)以及算法的深度。

人工智能的發(fā)展史,就是對(duì)于過(guò)往經(jīng)驗(yàn)的收集和分析方法不斷演繹的歷史。在機(jī)器出現(xiàn)之前,人類只能通過(guò)別人的分享和自己的實(shí)踐在很小的信息量級(jí)上來(lái)對(duì)事物進(jìn)行判斷,這種對(duì)于外界事物的認(rèn)知受限于人的腦力和知識(shí)量。不同于人類的腦力,抽象意義上的機(jī)器可以被當(dāng)成一個(gè)信息黑洞,吸收所有的信息,而且可以不分晝夜地對(duì)這些數(shù)據(jù)進(jìn)行大維度的分析、歸納以及演繹,如果人類將這些機(jī)器學(xué)習(xí)后得到的認(rèn)知進(jìn)行分享,就形成了人工智能。于是,隨著人類社會(huì)的發(fā)展,數(shù)據(jù)的積累以及算法的迭代將進(jìn)一步推動(dòng)整個(gè)人工智能的發(fā)展

正如前面所提到的,人工智能的發(fā)展體現(xiàn)在機(jī)器帶動(dòng)人類進(jìn)行經(jīng)驗(yàn)歸納以及思考,那么人工智能背后的引擎就是本書(shū)要介紹的重點(diǎn)-機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)是一種多學(xué)科交織的研究型學(xué)科,涉及生物學(xué)、統(tǒng)計(jì)和計(jì)算機(jī)等多個(gè)學(xué)科。機(jī)器學(xué)習(xí)算法發(fā)展到目前階段,做的事情主要是將生活中的場(chǎng)景抽象成為數(shù)學(xué)公式,并且依靠機(jī)器的超強(qiáng)計(jì)算能力,通過(guò)迭代和演繹生成模型,對(duì)于新的社會(huì)問(wèn)題進(jìn)行預(yù)測(cè)或者分類操作。人工智能的發(fā)展史其實(shí)伴隨著機(jī)器學(xué)習(xí)算法的進(jìn)化史,正是隨著機(jī)器學(xué)習(xí)算法的不斷發(fā)展以及計(jì)算能力的提升,人工智能產(chǎn)業(yè)才得到了發(fā)展,進(jìn)而達(dá)到了目前這種火熱的局面。下面將對(duì)于機(jī)器學(xué)習(xí)算法在目前階段所取得的一些成就進(jìn)行一個(gè)介紹,方便大家了解機(jī)器學(xué)習(xí)算法的用途。

1.2發(fā)展現(xiàn)狀

上一節(jié)中回顧了人工智能的發(fā)展歷程,不考慮計(jì)算能力等硬件條件的限制,當(dāng)今世界的人工智能可以總結(jié)為數(shù)據(jù)和智能算法的結(jié)合。通過(guò)對(duì)過(guò)往經(jīng)驗(yàn)的分析得到實(shí)驗(yàn)?zāi)P?并且利用這種模型指導(dǎo)實(shí)際的業(yè)務(wù)。把人工智能看作一個(gè)人類大腦的話,里面的血液就是數(shù)據(jù),而大腦里面的血管承載著數(shù)據(jù)的流轉(zhuǎn),可以看作是相關(guān)的機(jī)器學(xué)習(xí)算法。所以在介紹機(jī)器學(xué)習(xí)算法之前,大家不得不先了解一下大數(shù)據(jù)時(shí)代的特性,然后再針對(duì)當(dāng)前數(shù)據(jù)爆炸的這種情況介紹機(jī)器學(xué)習(xí)算法的一些用途。

1.2.1 數(shù)據(jù)現(xiàn)狀

21世紀(jì)注定是屬于互聯(lián)網(wǎng)的,在這個(gè)數(shù)字時(shí)代產(chǎn)生了很多新名詞,這里邊有云計(jì)算、電子商務(wù)和有共享經(jīng)濟(jì)。大數(shù)據(jù)也是互聯(lián)網(wǎng)時(shí)代的產(chǎn)物,出現(xiàn)在報(bào)紙中、電視上、網(wǎng)頁(yè)里。'大數(shù)據(jù)'已經(jīng)成為信息時(shí)代的代名詞,乃至于好多人還來(lái)不及認(rèn)識(shí)它,就已經(jīng)開(kāi)始被它支配。什么是數(shù)據(jù)?客觀世界存在的那一刻開(kāi)始,數(shù)據(jù)就已經(jīng)出現(xiàn)了,從宇宙中天體運(yùn)動(dòng)的速度、角度及天體的質(zhì)量,到人類文明的產(chǎn)生、更迭和演進(jìn)。數(shù)據(jù)無(wú)處不在,但是數(shù)據(jù)的價(jià)值在于如何采集和利用。

正是受到互聯(lián)網(wǎng)的驅(qū)動(dòng),人類開(kāi)始采集和利用數(shù)據(jù)。對(duì)于大數(shù)據(jù)時(shí)代,我最深切的感觸是大數(shù)據(jù)未來(lái)的版圖清晰又模糊。清晰的是人們已經(jīng)開(kāi)始意識(shí)到數(shù)據(jù)是有價(jià)值的,并且已經(jīng)開(kāi)始采集數(shù)據(jù),看看人們都做了什么?根據(jù)存儲(chǔ)市場(chǎng)調(diào)研的最新報(bào)告,目前世界全年的數(shù)據(jù)保存量約合50EB ,這些數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)、醫(yī)療健康、通信、公共安全以及軍工等行業(yè)。接下來(lái),我們來(lái)看看這些數(shù)據(jù)是如何產(chǎn)生的。

以全球最大的SNS服務(wù)商Facebook為例。Facebook現(xiàn)在的用戶數(shù)達(dá)到9.5億,這些用戶的每一個(gè)行為,包括每一次通知、頁(yè)面訪問(wèn)、查看朋友的頁(yè)面,都會(huì)被Facebook的服務(wù)器追蹤,并且產(chǎn)生歷史行為數(shù)據(jù)。而全世界9.5億用戶平均每個(gè)月在Facebook上花費(fèi)的時(shí)間超過(guò)6.5個(gè)小時(shí),產(chǎn)生的數(shù)據(jù)量大小超出人們的想象。Facebook上每天可以產(chǎn)生500TB左右的數(shù)據(jù)量,我們來(lái)看看這些數(shù)據(jù)具體包括什么。人們每天分享25億個(gè)內(nèi)容條目,包括狀態(tài)更新、墻上的帖子、圖片、視頻和評(píng)論,每天有27億個(gè)'like'操作,人們每天上傳3億張圖片。

雖然諸如Facebook, Google和Alibaba這樣的國(guó)際互聯(lián)網(wǎng)巨頭已經(jīng)開(kāi)始積累數(shù)據(jù),并且將數(shù)據(jù)進(jìn)行分析來(lái)反哺業(yè)務(wù)。但是截止到今天,全世界每年保存下來(lái)的數(shù)據(jù)只占到數(shù)據(jù)產(chǎn)生總量的百分之一不到,其中可以被標(biāo)記并且分析的數(shù)據(jù)更是連百分之十都不到。這種現(xiàn)狀造成了兩方面的瓶頸,一方面是數(shù)據(jù)產(chǎn)生和數(shù)據(jù)收集的瓶頸,另一方面是采集到的數(shù)據(jù)和能被分析的數(shù)據(jù)之間的瓶頸。

針對(duì)數(shù)據(jù)產(chǎn)生和數(shù)據(jù)采集的瓶頸,其原因一方面是硬件存儲(chǔ)成本的限制,但是隨著硬盤(pán)技術(shù)的發(fā)展和產(chǎn)能的提升,這方面的缺陷正逐漸弱化。筆者認(rèn)為,造成目前數(shù)據(jù)采集與數(shù)據(jù)生成失衡的主要原因是數(shù)據(jù)的采集缺乏標(biāo)準(zhǔn)。雖然,互聯(lián)網(wǎng)公司對(duì)數(shù)據(jù)采集和標(biāo)準(zhǔn)制定方面已經(jīng)形成了一套成熟的體系,如網(wǎng)站的點(diǎn)擊行為、日志的收集等。但是對(duì)于更多行業(yè),特別是傳統(tǒng)行業(yè)來(lái)說(shuō),數(shù)據(jù)的采集方式還處于摸索當(dāng)中,而且從目前來(lái)看,這樣的摸索還將持續(xù)相當(dāng)長(zhǎng)的時(shí)間。盡管現(xiàn)在提倡互聯(lián)網(wǎng)思維以及世界萬(wàn)物聯(lián)網(wǎng)的思想,但是互聯(lián)網(wǎng)對(duì)于采集數(shù)據(jù)的經(jīng)驗(yàn)恐怕很難復(fù)制到傳統(tǒng)行業(yè)。因?yàn)榛ヂ?lián)網(wǎng)行業(yè)對(duì)于數(shù)據(jù)采集存在天然的優(yōu)勢(shì),互聯(lián)網(wǎng)的數(shù)據(jù)都是托管在數(shù)據(jù)庫(kù)里,以二進(jìn)制的方式記錄在硬盤(pán)中,只要稍作處理就可以形成一份質(zhì)量較高的結(jié)構(gòu)化數(shù)據(jù)。但是在傳統(tǒng)行業(yè),以建筑行業(yè)為例,數(shù)據(jù)產(chǎn)生于工地上一磚一瓦的堆砌,產(chǎn)生于工地的施工建設(shè),這樣的數(shù)據(jù)如何轉(zhuǎn)成二進(jìn)制來(lái)存儲(chǔ)需要由新的標(biāo)準(zhǔn)來(lái)指定,而這種標(biāo)準(zhǔn)更多地受限于技術(shù)手段。如果我們的圖像識(shí)別做得足夠智能,拍一張照片就可以將工地的數(shù)據(jù)量化,這樣可能就可以解決這種問(wèn)題。對(duì)于傳統(tǒng)行業(yè)的數(shù)據(jù)智能化進(jìn)程可能還需要耐心的等待。

數(shù)據(jù)采集方面還需要制定更多的標(biāo)準(zhǔn)以及技術(shù)的支持,但是數(shù)據(jù)的應(yīng)用方面也存在不小的缺陷。如果目前世界上采集到的數(shù)據(jù)能被充分利用是足夠顛覆生活的,可惜的是目前可以供分析的數(shù)據(jù)還只占很小的比例。造成這樣的困境主要有兩方面因素,一個(gè)是目前比較主流的機(jī)器學(xué)習(xí)算法都是監(jiān)督學(xué)習(xí)算法,監(jiān)督學(xué)習(xí)需要的數(shù)據(jù)源是打標(biāo)過(guò)的數(shù)據(jù),打標(biāo)數(shù)據(jù)很多時(shí)候是依賴于人工標(biāo)記。比如我們需要一份數(shù)據(jù)來(lái)訓(xùn)練模型進(jìn)行電影推薦,除了已知的電影的特征數(shù)據(jù)以外,還需要一份打標(biāo)的數(shù)據(jù)來(lái)表示電影的好看程度,有點(diǎn)像豆瓣的電影分?jǐn)?shù),這種數(shù)據(jù)很難通過(guò)計(jì)算機(jī)的計(jì)算直接生成,需要依賴于人工打標(biāo)。人工打標(biāo)的影響就是,一方面很難生成大量的標(biāo)本(上千萬(wàn)樣本的數(shù)據(jù)) ,設(shè)想一下1000萬(wàn)人坐到一個(gè)地方一起看一部電影再進(jìn)行評(píng)分是多么浩大的一項(xiàng)工程。另一方面,人工打標(biāo)的成本太高,目前有很多負(fù)責(zé)打標(biāo)的第三方公司,打標(biāo)服務(wù)往往在市場(chǎng)上可以賣到很高的價(jià)格

另一個(gè)導(dǎo)致可分析數(shù)據(jù)比例較低的因素是對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)處理能力較低。非結(jié)構(gòu)化數(shù)據(jù)指的是文本或者圖片、語(yǔ)音、視頻這樣的數(shù)據(jù)。這部分?jǐn)?shù)據(jù)來(lái)自于用戶在貼吧的評(píng)論、社交軟件上的頭像、直播平臺(tái)上的視頻展現(xiàn)等。雖然目前的科技水平已經(jīng)具備了文本和圖像方面的分析能力,但是在大批量處理和特征提取方面依然處于相對(duì)基礎(chǔ)的階段。以圖像識(shí)別為例,目前比較成熟的包括人臉識(shí)別和指紋識(shí)別等,圖像識(shí)別的特點(diǎn)是每種事物的識(shí)別需要訓(xùn)練相對(duì)應(yīng)的模型,而這種模型需要大量的訓(xùn)練樣本來(lái)提高精確率,一個(gè)成熟的模型通常需要千萬(wàn)級(jí)別的訓(xùn)練樣例。人臉的數(shù)據(jù)是比較容易獲取的,所以相應(yīng)的模型比較容易訓(xùn)練,但是假如我們需要訓(xùn)練一個(gè)模型來(lái)識(shí)別某一款杯子,針對(duì)這一款杯子的訓(xùn)練數(shù)據(jù)是很難達(dá)到理想量級(jí)的,這也提高了特定場(chǎng)景下圖像識(shí)別的門(mén)檻

互聯(lián)網(wǎng)在不斷發(fā)展,數(shù)據(jù)的生成也不會(huì)停下腳步。目前被廣泛引用的互聯(lián)網(wǎng)數(shù)據(jù)中心( InternationalData Corporation, IDC )和EMC聯(lián)合發(fā)布的'2020年的數(shù)字宇宙”報(bào)告顯示,到2020年全球數(shù)字宇宙將會(huì)膨脹到40000EB ,均攤每個(gè)人身上是5200GB以上,這個(gè)數(shù)據(jù)量的數(shù)據(jù)將會(huì)如何被有效存儲(chǔ)和應(yīng)用,目前我們還不敢想象。不過(guò)可以肯定的是,數(shù)據(jù)會(huì)成為重要的資源,就像是水電煤一樣,在大數(shù)據(jù)時(shí)代,特別是未來(lái)的數(shù)據(jù)爆發(fā)時(shí)代,數(shù)據(jù)一定會(huì)展現(xiàn)出更大的潛能,人類社會(huì)也會(huì)進(jìn)入數(shù)據(jù)處理技術(shù)( Data Technology,DT )時(shí)代。

1.2.2 機(jī)器學(xué)習(xí)算法現(xiàn)狀

之前講了大數(shù)據(jù),這里再講機(jī)器學(xué)習(xí)就變得容易理解了。傳統(tǒng)的機(jī)器工作模式是程序員向機(jī)器輸入一連串的指令,可以理解為是代碼,然后機(jī)器按照這些指令一步一步執(zhí)行下去,結(jié)果通常是我們可以事先預(yù)料的。這種邏輯在機(jī)器學(xué)習(xí)里是走不通的,機(jī)器學(xué)習(xí)是指我們向機(jī)器(更準(zhǔn)確地說(shuō)是機(jī)器學(xué)習(xí)算法)中輸入數(shù)據(jù),然后機(jī)器會(huì)根據(jù)數(shù)據(jù)返回結(jié)果,這些結(jié)果是通過(guò)數(shù)據(jù)自我學(xué)習(xí)得到的,學(xué)習(xí)的過(guò)程通過(guò)算法來(lái)完成。我們可以這樣來(lái)定義,機(jī)器學(xué)習(xí)方法是計(jì)算機(jī)利用已有的數(shù)據(jù)(經(jīng)驗(yàn))得出了某種模型,并利用這些模型預(yù)測(cè)未來(lái)的一種方法。這個(gè)過(guò)程其實(shí)與人的學(xué)習(xí)過(guò)程極為相似,只不過(guò)機(jī)器是一個(gè)可以進(jìn)行大維度數(shù)據(jù)分析而且可以不知疲倦地學(xué)習(xí)的“怪獸”而已(見(jiàn)圖1-3)。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-3機(jī)器學(xué)習(xí)與人的不同

機(jī)器學(xué)習(xí)跟模式識(shí)別、統(tǒng)計(jì)學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等領(lǐng)域都有著很深的聯(lián)系。如今生活在這樣的DT時(shí)代,隨時(shí)隨地都是機(jī)器學(xué)習(xí)的影子,通過(guò)機(jī)器對(duì)大數(shù)據(jù)進(jìn)行分析而帶來(lái)的人工智能應(yīng)用,正在一點(diǎn)一點(diǎn)地改變?nèi)藗兊纳罘绞胶退季S方式??吹竭@里很多人都會(huì)發(fā)問(wèn):機(jī)器學(xué)習(xí)究竟能做什么?其實(shí)機(jī)器學(xué)習(xí)已經(jīng)服務(wù)了我們生活的各個(gè)方面,下面以一個(gè)簡(jiǎn)單的購(gòu)物場(chǎng)景來(lái)介紹機(jī)器學(xué)習(xí)是如何應(yīng)用在我們的日常生活中的。

現(xiàn)在是2016年,如果你還沒(méi)有嘗試過(guò)網(wǎng)上購(gòu)物,那真的是落伍了。網(wǎng)上購(gòu)物目前已經(jīng)成了人們的生活方式。下面就簡(jiǎn)單地聊聊機(jī)器學(xué)習(xí)算法在購(gòu)物行為中的應(yīng)用。假設(shè)我們?cè)诓蛷d吃飯,看到一個(gè)人的短袖體恤很漂亮,我們想買同款,但是又不好意思開(kāi)口去問(wèn)。那么我們可以先偷拍一張這個(gè)人的T恤的照片,然后拍立淘(見(jiàn)圖1-4)就會(huì)顯示出這件衣服的同款。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-4拍立淘

這里就用到了機(jī)器學(xué)習(xí)中的圖像識(shí)別技術(shù)。但是往往與這件衣服相近的款式又非常的多,因此我們需要把這些款式按照一定的規(guī)則進(jìn)行排序,這就涉及了機(jī)器學(xué)習(xí)算法模型的訓(xùn)練,通過(guò)這個(gè)模型,我們把所有的類似款式進(jìn)行一個(gè)排名,最后就得出了最終的展示順序。

當(dāng)然,更多的時(shí)候我們是通過(guò)鍵盤(pán)的輸入來(lái)搜索商品的,但是如果犯懶,還可以選擇通過(guò)語(yǔ)音的方式輸入內(nèi)容,這就是語(yǔ)音轉(zhuǎn)文本的運(yùn)用。在我們搜索一款產(chǎn)品之后,網(wǎng)頁(yè)的邊欄上會(huì)出現(xiàn)一些推薦列表,而且每個(gè)用戶的推薦列表都是不同的,這就是所謂的千人千面。這個(gè)場(chǎng)景的實(shí)現(xiàn)依賴的是推薦系統(tǒng)后臺(tái)的用戶畫(huà)像,而用戶畫(huà)像就是大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法的典型應(yīng)用,通過(guò)挖掘用戶的特征,如性別、年齡、收入情況和愛(ài)好等特征,推薦用戶可能購(gòu)買的商品,做到個(gè)性化推薦。

到了這一步,我們終于把商品放到了購(gòu)物車?yán)?開(kāi)始下單。下單之前我們發(fā)現(xiàn)網(wǎng)銀賬戶中的錢不夠用了,想申請(qǐng)一些貸款。這個(gè)時(shí)候,我們發(fā)現(xiàn)有一個(gè)貸款額度,這個(gè)額度是如何計(jì)算的呢?這里面涉及金融風(fēng)控的問(wèn)題,而金融風(fēng)控也是根據(jù)機(jī)器學(xué)習(xí)的算法來(lái)訓(xùn)練模型并且計(jì)算出來(lái)的。

下單之后我們的商品就被安排配送了,目前除了少數(shù)邊遠(yuǎn)地區(qū),基本上5天之內(nèi)就可以收到商品。這段時(shí)間包含了商品的包裝、從庫(kù)存發(fā)貨到中轉(zhuǎn)庫(kù)存、從低級(jí)倉(cāng)庫(kù)到高級(jí)倉(cāng)庫(kù)配送、向下分發(fā)。這么多工序之所以能夠在短時(shí)間內(nèi)完成,是因?yàn)閭}(cāng)儲(chǔ)在庫(kù)存方面已經(jīng)提前做了需求量預(yù)測(cè),提前在可能的需求地附近備貨,這套預(yù)測(cè)算法也是建立在機(jī)器學(xué)習(xí)算法基礎(chǔ)之上的。

我們的快遞員拿到貨物,打開(kāi)地圖導(dǎo)航,系統(tǒng)已經(jīng)為他設(shè)計(jì)了配送的路徑,這個(gè)路徑避免了擁堵而且盡量把路線設(shè)計(jì)到最短距離,這也是通過(guò)機(jī)器學(xué)習(xí)算法來(lái)計(jì)算的??爝f員走進(jìn)門(mén),我們拿到貨物后,發(fā)現(xiàn)衣服的尺碼不合適怎么辦?打開(kāi)客服,輸入問(wèn)題,然后我們發(fā)現(xiàn)可以瞬間得到回復(fù),因?yàn)檫@名客服人員可能并不是真的'客服人員',只是一個(gè)客服機(jī)器人而已。智能客服系統(tǒng)利用文本的語(yǔ)意分析算法,可以精準(zhǔn)地確定用戶的問(wèn)題,并且給予相應(yīng)問(wèn)題的解答。同時(shí),智能客服還可以對(duì)用戶問(wèn)題的語(yǔ)境進(jìn)行分析,如果問(wèn)題很嚴(yán)重需要賠償,如:'你的產(chǎn)品害我壞肚子了'這樣的問(wèn)題會(huì)由客服機(jī)器人通過(guò)情感分析挑出來(lái),交給專人處理。

如上所述,筆者簡(jiǎn)單列舉了機(jī)器學(xué)習(xí)在網(wǎng)上購(gòu)物中的幾大應(yīng)用,這里面涉及了很多智能算法,包括模型的訓(xùn)練和預(yù)測(cè)、語(yǔ)義分析、文本情感分析、圖像識(shí)別技術(shù)以及語(yǔ)音識(shí)別技術(shù)。我們可以看到,在網(wǎng)購(gòu)這種最常見(jiàn)的場(chǎng)景下,機(jī)器學(xué)習(xí)算法幾乎貫穿了全部流程,

當(dāng)然,我們還可以列舉出非常多諸如上述例子,因?yàn)閳?chǎng)景實(shí)在太多了,沒(méi)有辦法全部窮舉出來(lái),這里通過(guò)場(chǎng)景來(lái)切分把機(jī)器學(xué)習(xí)的一些高頻場(chǎng)景列舉如下。

聚類場(chǎng)景:人群劃分和產(chǎn)品種類劃分等。

分類場(chǎng)景:廣告投放預(yù)測(cè)和網(wǎng)站用戶點(diǎn)擊預(yù)測(cè)等?;貧w場(chǎng)景:降雨量預(yù)測(cè)、商品購(gòu)買量預(yù)測(cè)和股票成交額預(yù)測(cè)等。文本分析場(chǎng)景:新聞的標(biāo)簽提取、文本自動(dòng)分類和文本關(guān)鍵信息抽取等。關(guān)系圖算法:社交網(wǎng)絡(luò)關(guān)系( Social Network Site , SNS )網(wǎng)絡(luò)關(guān)系挖掘和金融風(fēng)險(xiǎn)控制等。模式識(shí)別:語(yǔ)音識(shí)別、圖像識(shí)別和手寫(xiě)字識(shí)別等。

上面列舉的應(yīng)用只是機(jī)器學(xué)習(xí)算法應(yīng)用場(chǎng)景中的一小部分,其實(shí)隨著數(shù)據(jù)的積累,機(jī)器學(xué)習(xí)算法是可以滲透到各行各業(yè)當(dāng)中,并且在行業(yè)中發(fā)生巨大的作用。隨著數(shù)據(jù)智能、數(shù)據(jù)驅(qū)動(dòng)等思想的傳播,機(jī)器學(xué)習(xí)算法正在成為一種普世的基礎(chǔ)能力向外輸出。我們可以預(yù)見(jiàn)未來(lái)隨著算法和計(jì)算能力的發(fā)展,機(jī)器學(xué)習(xí)應(yīng)該會(huì)在金融、醫(yī)療、教育、安全等各個(gè)領(lǐng)域有更深層次的應(yīng)用。筆者特別期待機(jī)器學(xué)習(xí)算法在破解基因密碼以及癌癥攻破方面可以取得突破,同時(shí)無(wú)人車、增強(qiáng)現(xiàn)實(shí)(Augmented Reality , AR )等新概念、新技術(shù)的發(fā)展也需要依賴于機(jī)器學(xué)習(xí)算法的發(fā)展。相信未來(lái),機(jī)器學(xué)習(xí)算法會(huì)真正做到顛覆生活改變?nèi)祟惷\(yùn)。

1.3機(jī)器學(xué)習(xí)基本概念

在開(kāi)始機(jī)器學(xué)習(xí)的算法流程介紹之前,因?yàn)闄C(jī)器學(xué)習(xí)是一個(gè)多學(xué)科交叉的學(xué)科,有很多類似于統(tǒng)計(jì)學(xué)的概念,但是在叫法上與傳統(tǒng)的統(tǒng)計(jì)學(xué)又有一定的區(qū)別,我們需要了解一些機(jī)器學(xué)習(xí)相關(guān)的基本概念,因?yàn)槿绻幻鞔_這些概念的話,對(duì)于一些文獻(xiàn)的閱讀和理解會(huì)構(gòu)成障礙。下面通過(guò)這一節(jié)的介紹幫助大家對(duì)于基礎(chǔ)的機(jī)器學(xué)習(xí)名詞和概念進(jìn)行了解,首先介紹一下機(jī)器學(xué)習(xí)的基本流程,然后針對(duì)機(jī)器學(xué)習(xí)涉及的數(shù)據(jù)、算法和評(píng)估這3個(gè)方面用到的基礎(chǔ)概念進(jìn)行介紹。

1.3.1機(jī)器學(xué)習(xí)流程

機(jī)器學(xué)習(xí)的過(guò)程就是一個(gè)數(shù)據(jù)流轉(zhuǎn)、分析以及得到結(jié)果的過(guò)程,在使用的過(guò)程中很多人花了很多時(shí)間在算法的選擇或者調(diào)優(yōu)上,但其實(shí)機(jī)器學(xué)習(xí)的每一個(gè)步驟都是至關(guān)重要的,介紹算法的具體實(shí)現(xiàn)的資料已經(jīng)比較豐富了,筆者希望花更多的篇幅來(lái)介紹數(shù)據(jù)的處理和整個(gè)機(jī)器學(xué)習(xí)流程的串聯(lián)。

機(jī)器學(xué)習(xí)的整個(gè)流程大致可以分為6個(gè)步驟,整個(gè)流程按照數(shù)據(jù)流自上而下的順序排列,分別是場(chǎng)景解析、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練、模型評(píng)估、離線在線服務(wù)(見(jiàn)圖1-5) ,下面來(lái)逐一介紹下這些步驟的基本功能。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-5數(shù)據(jù)挖掘流程

(1)場(chǎng)景解析。場(chǎng)景解析就是先把整個(gè)業(yè)務(wù)邏輯想清楚,把自己的業(yè)務(wù)場(chǎng)景進(jìn)行一個(gè)抽象,例如我們做一個(gè)廣告點(diǎn)擊預(yù)測(cè),其實(shí)是判斷一個(gè)用戶看到廣告是點(diǎn)擊還是不點(diǎn)擊,這就可以抽象成二分類問(wèn)題。然后我們根據(jù)是不是監(jiān)督學(xué)習(xí)以及二分類場(chǎng)景,就可以進(jìn)行算法的選擇??偟膩?lái)說(shuō),場(chǎng)景抽象就是把業(yè)務(wù)邏輯和算法進(jìn)行匹配。

(2)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要進(jìn)行數(shù)據(jù)的清洗工作,針對(duì)數(shù)據(jù)矩陣中的空值和亂碼進(jìn)行處理,同時(shí)也可以對(duì)整體數(shù)據(jù)進(jìn)行拆分和采樣等操作,也可以對(duì)單字段或者多字段進(jìn)行歸一化或者標(biāo)準(zhǔn)化的處理。數(shù)據(jù)預(yù)處理階段的主要目標(biāo)就是減少量綱和噪音數(shù)據(jù)對(duì)于訓(xùn)練數(shù)據(jù)集的影響。

(3)特征工程。特征工程是機(jī)器學(xué)習(xí)中最重要的一個(gè)步驟,這句話一點(diǎn)都沒(méi)有錯(cuò)。特別是目前隨著開(kāi)源算法庫(kù)的普及以及算法的不斷成熟,算法質(zhì)量并不一定是決定結(jié)果的最關(guān)鍵因素,特征工程的效果從某種意義上決定了最終模型的優(yōu)劣。通過(guò)一個(gè)例子說(shuō)明一下特征工程的作用, 2014年某互聯(lián)網(wǎng)巨頭舉辦了一場(chǎng)大數(shù)據(jù)競(jìng)賽,參賽隊(duì)伍在1000個(gè)以上,到最后,這里面幾乎所有的參賽隊(duì)伍都用了相同的一套算法,因?yàn)樗惴ǖ膬?yōu)劣是比較容易評(píng)判的,不同算法的特性是不一樣的,而且可供選擇的算法種類是有限的。但是特征的選取和衍生卻有極大的不定性,100個(gè)人眼中可能有100種不同的特征,所以這種大賽到了后期,往往大家比拼的就是特征選取的好壞。在算法相對(duì)固定的情況下,可以說(shuō)好特征決定了好結(jié)果。

(4)模型訓(xùn)練。如圖1-6所示的'邏輯回歸二分類'組件表示的是算法訓(xùn)練過(guò)程,訓(xùn)練數(shù)據(jù)經(jīng)過(guò)了數(shù)據(jù)預(yù)處理和特征工程之后進(jìn)入算法訓(xùn)練模塊,并且生成模型。在'預(yù)測(cè)組件中,讀取模型和預(yù)測(cè)集數(shù)據(jù)進(jìn)行計(jì)算,生成預(yù)測(cè)結(jié)果。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-6模型訓(xùn)練

(5)模型評(píng)估。機(jī)器學(xué)習(xí)算法的計(jì)算結(jié)果一般是一個(gè)模型,模型的質(zhì)量直接影響接下來(lái)的數(shù)據(jù)業(yè)務(wù)。對(duì)于模型的成熟度的評(píng)估,其實(shí)就是對(duì)于整套機(jī)器學(xué)習(xí)流程的評(píng)估。

(6)離線在線服務(wù)。在實(shí)際的業(yè)務(wù)運(yùn)用過(guò)程中,機(jī)器學(xué)習(xí)通常需要配合調(diào)度系統(tǒng)來(lái)使用。具體的案例場(chǎng)景如下:每天用戶將當(dāng)日的增量數(shù)據(jù)流入數(shù)據(jù)庫(kù)表里,通過(guò)調(diào)度系統(tǒng)啟動(dòng)機(jī)器學(xué)習(xí)的離線訓(xùn)練服務(wù),生成最新的離線模型,然后通過(guò)在線預(yù)測(cè)服務(wù)(通常通過(guò)Restful API ,發(fā)送數(shù)據(jù)到服務(wù)器的算法模型進(jìn)行計(jì)算然后返回結(jié)果)進(jìn)行實(shí)時(shí)的預(yù)測(cè)。具體架構(gòu)如圖1-7所示。

圖1-7機(jī)器學(xué)習(xí)服務(wù)架構(gòu)

利用這種架構(gòu)就實(shí)現(xiàn)了離線訓(xùn)練和在線預(yù)測(cè)的結(jié)合,串聯(lián)了從離線到在線的整個(gè)業(yè)務(wù)邏輯。

1.3.2數(shù)據(jù)源結(jié)構(gòu)

前面已經(jīng)介紹了機(jī)器學(xué)習(xí)的基本流程,下面將針對(duì)機(jī)器學(xué)習(xí)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行介紹。如果把機(jī)器學(xué)習(xí)算法比作一個(gè)數(shù)據(jù)加工場(chǎng),那么進(jìn)入工廠的數(shù)據(jù)就是被算法用來(lái)加工的原材料,機(jī)器學(xué)習(xí)算法需要的數(shù)據(jù)是什么樣結(jié)構(gòu)的呢?如果經(jīng)常關(guān)注大數(shù)據(jù)相關(guān)的文章,基本會(huì)聽(tīng)說(shuō)過(guò)'結(jié)構(gòu)化數(shù)據(jù)'和'非結(jié)構(gòu)化數(shù)據(jù)'這兩個(gè)詞,當(dāng)然這里面還能衍生出“半結(jié)構(gòu)化數(shù)據(jù)',下面分別介紹一下這幾種數(shù)據(jù)的結(jié)構(gòu)。

(1)結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指我們?cè)谌粘?shù)據(jù)庫(kù)處理中經(jīng)??吹降娜罩绢悢?shù)據(jù)結(jié)構(gòu),是以矩陣結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù),可以通過(guò)二維表結(jié)構(gòu)來(lái)顯示,如圖1-8所示。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-8結(jié)構(gòu)化數(shù)據(jù)示例

結(jié)構(gòu)化數(shù)據(jù)主要由兩個(gè)部分組成,一個(gè)部分是每個(gè)字段的含義,也就是圖1-8中的age, sex,cp等字段頭,另一個(gè)部分是每個(gè)字段的具體數(shù)值。通常來(lái)講,機(jī)器學(xué)習(xí)算法處理的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),因?yàn)闄C(jī)器學(xué)習(xí)需要把數(shù)據(jù)帶入矩陣去做一些數(shù)學(xué)運(yùn)算,結(jié)構(gòu)化數(shù)據(jù)原生是以矩陣形態(tài)存儲(chǔ)的,所以機(jī)器學(xué)習(xí)算法通常是只支持結(jié)構(gòu)化數(shù)據(jù)的。

結(jié)構(gòu)化數(shù)據(jù)中還有兩個(gè)非常重要的概念需要介紹一下,即特征( Feature )和目標(biāo)列(Label)。這是機(jī)器學(xué)習(xí)算法中最常出現(xiàn)的兩個(gè)名詞,其中特征表示的是數(shù)據(jù)所描述對(duì)象的屬性,如用一組數(shù)據(jù)來(lái)形容人,那么這個(gè)人的身高、體重、性別和年齡都是特征。在結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)集中,每一列數(shù)據(jù)通常就對(duì)應(yīng)一個(gè)特征。

目標(biāo)列表示的是每一份數(shù)據(jù)的打標(biāo)結(jié)果,因?yàn)榍懊嬉步榻B過(guò),機(jī)器學(xué)習(xí)的原理其實(shí)是從歷史數(shù)據(jù)中來(lái)學(xué)習(xí)經(jīng)驗(yàn),目標(biāo)列表示的是這一組數(shù)據(jù)的結(jié)果。例如,我們想通過(guò)一份體檢數(shù)據(jù)來(lái)預(yù)測(cè)對(duì)象是否有心臟病,需要先通過(guò)成千上萬(wàn)份的訓(xùn)練數(shù)據(jù)來(lái)生成模型,這成千上萬(wàn)份的訓(xùn)練數(shù)據(jù)需要打標(biāo),也就是說(shuō)機(jī)器要事先知道什么樣體檢指標(biāo)的人患病了,什么樣的人沒(méi)有患病,這樣才能學(xué)習(xí)出預(yù)測(cè)模型。通過(guò)一個(gè)例子來(lái)說(shuō)明,如圖1-9所示為一份心臟病預(yù)測(cè)需要的數(shù)據(jù)結(jié)果,其中框起來(lái)的字段表示的是對(duì)象是否患病,這一列是目標(biāo)列。其他3個(gè)字段age, sex和cp描述的是對(duì)象的特征,是特征列

(2)半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是指按照一定的結(jié)構(gòu)存儲(chǔ),但不是二維的數(shù)據(jù)庫(kù)行存儲(chǔ)形態(tài)的數(shù)據(jù)。比較典型的半結(jié)構(gòu)化數(shù)據(jù)就是XML擴(kuò)展名的存儲(chǔ)數(shù)據(jù),如圖1-10所示。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-9 目標(biāo)列說(shuō)明

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-10半結(jié)構(gòu)化數(shù)據(jù)

另一種半結(jié)構(gòu)化數(shù)據(jù)就是在數(shù)據(jù)表中,某些字段是文本型的,某些字段是數(shù)值型的。見(jiàn)表1-1表1-1半結(jié)構(gòu)化數(shù)據(jù)

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

半結(jié)構(gòu)化數(shù)據(jù)常用于一些數(shù)據(jù)的傳遞,但是在機(jī)器學(xué)習(xí)算法相關(guān)的應(yīng)用方面還有一定距離,需要做數(shù)據(jù)轉(zhuǎn)換把半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)來(lái)進(jìn)行操作。

(3)非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘一直以來(lái)是機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)話題,特別是隨著深度學(xué)習(xí)的發(fā)展,目前對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理似乎找到了方向。典型的非結(jié)構(gòu)化數(shù)據(jù)就是圖像、文本或者是語(yǔ)音文件。這些數(shù)據(jù)不能以矩陣的結(jié)構(gòu)存儲(chǔ),目前的做法也是通過(guò)把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為二進(jìn)制存儲(chǔ)格式,然后通過(guò)算法來(lái)挖掘其中的信息。第6章和第7章將詳細(xì)介紹如何使用深度學(xué)習(xí)算法實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的處理。

以上就是對(duì)于真實(shí)業(yè)務(wù)場(chǎng)景下需要處理的3類數(shù)據(jù)結(jié)構(gòu)的介紹。機(jī)器學(xué)習(xí)算法對(duì)于結(jié)構(gòu)化數(shù)據(jù)的支持是比較好的,對(duì)于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),在真實(shí)的業(yè)務(wù)場(chǎng)景下,通常是先把這兩類數(shù)據(jù)做轉(zhuǎn)化,然后才通過(guò)算法來(lái)進(jìn)行數(shù)據(jù)挖掘。關(guān)于非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)的方法在第4章也有相關(guān)介紹。

1.3.3算法分類

上面對(duì)于機(jī)器學(xué)習(xí)的流程和數(shù)據(jù)源結(jié)構(gòu)都進(jìn)行了介紹,下面對(duì)于算法的分類進(jìn)行一個(gè)簡(jiǎn)單的說(shuō)明。機(jī)器學(xué)習(xí)算法包含了聚類、回歸、分類和文本分析等幾十種場(chǎng)景的算法,常用的算法種類為30種左右,而且還有很多的變形,我們將機(jī)器學(xué)習(xí)分為4種,分別是監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。

(1)監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)( Supervised Learning ) ,是指每個(gè)進(jìn)入算法的訓(xùn)練數(shù)據(jù)樣本都有對(duì)應(yīng)的期望值也就是目標(biāo)值,進(jìn)行機(jī)器學(xué)習(xí)的過(guò)程實(shí)際上就是特征值和目標(biāo)隊(duì)列映射的過(guò)程。例如,我們已知一只股票的歷史走勢(shì)以及它的一些公司盈利、公司人數(shù)等信息,想要預(yù)測(cè)這只股票未來(lái)的走勢(shì)。那么在訓(xùn)練算法模型的過(guò)程中,就是希望通過(guò)計(jì)算得到一個(gè)公式,可以反映公司盈利、公司人數(shù)這些信息對(duì)于股票走勢(shì)的影響。通過(guò)過(guò)往的一些數(shù)據(jù)的特征以及最終結(jié)果來(lái)進(jìn)行訓(xùn)練的方式就是監(jiān)督學(xué)習(xí)法。監(jiān)督學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)源需要由特征值以及目標(biāo)隊(duì)列兩部分組成。

如圖1-11所示, ithealth是目標(biāo)隊(duì)列, age, sex和cp為特征隊(duì)列,這就是一個(gè)典型的監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集。因?yàn)楸O(jiān)督學(xué)習(xí)依賴于每個(gè)樣本的打標(biāo),可以得到每個(gè)特征序列映射到的確切的目標(biāo)值是什么,所以常用于回歸以及分類場(chǎng)景。常見(jiàn)的監(jiān)督學(xué)習(xí)算法見(jiàn)表1-2。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

表1-2 監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)的一個(gè)問(wèn)題就是獲得目標(biāo)值的成本比較高。例如,我們想預(yù)測(cè)一個(gè)電影的好壞,那么在生成訓(xùn)練集的時(shí)候要依賴于對(duì)大量電影的人工標(biāo)注,這樣的人力代價(jià)使得監(jiān)督學(xué)習(xí)在一定程度上是一種成本比較高的學(xué)習(xí)方法。如何獲得大量的標(biāo)記數(shù)據(jù)一直是監(jiān)督學(xué)習(xí)面臨的一道難題。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-11 監(jiān)督學(xué)習(xí)

(2) 無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning ) ,學(xué)習(xí)上面講的監(jiān)督學(xué)習(xí)的概念之后,其實(shí)無(wú)監(jiān)督學(xué)習(xí)就比較好理解了。無(wú)監(jiān)督學(xué)習(xí)就是指訓(xùn)練樣本不依賴于打標(biāo)數(shù)據(jù)的機(jī)器學(xué)習(xí)算法。既然是沒(méi)有目標(biāo)隊(duì)列,也就缺少了特征環(huán)境下的最終結(jié)果,那么這樣的數(shù)據(jù)可能對(duì)一些回歸和分類的場(chǎng)景就不適合了。無(wú)監(jiān)督學(xué)習(xí)主要是用來(lái)解決一些聚類場(chǎng)景的問(wèn)題,因?yàn)楫?dāng)我們的訓(xùn)練數(shù)據(jù)缺失了目標(biāo)值之后,能做的事情就只剩下比對(duì)不同樣本間的距離關(guān)系。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法見(jiàn)表1-3。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

表1-3 半監(jiān)督學(xué)習(xí)

相較于監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)的一大好處就是不依賴于打標(biāo)數(shù)據(jù),在很多特定條件下,特別是打標(biāo)數(shù)據(jù)需要依靠大量人工來(lái)獲得的情況下可以嘗試使用無(wú)監(jiān)督學(xué)習(xí)或者半監(jiān)督學(xué)習(xí)來(lái)解決問(wèn)題。

(3)半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)(Semi-supervised Learning ) ,是最近幾年逐漸開(kāi)始流行的一種機(jī)器學(xué)習(xí)種類。上文中也提到,在一些場(chǎng)景下獲得打標(biāo)數(shù)據(jù)是很耗費(fèi)資源的,但是無(wú)監(jiān)督學(xué)習(xí)對(duì)于解決分類和回歸這樣場(chǎng)景的問(wèn)題又有一些難度。所以人們開(kāi)始嘗試通過(guò)對(duì)樣本的部分打標(biāo)來(lái)進(jìn)行機(jī)器學(xué)習(xí)算法的使用,這種部分打標(biāo)樣本的訓(xùn)練數(shù)據(jù)的算法應(yīng)用,就是半監(jiān)督學(xué)習(xí)。目前很多半監(jiān)督學(xué)習(xí)算法都是監(jiān)督學(xué)習(xí)算法的變形,本書(shū)將介紹一種半監(jiān)督學(xué)習(xí)算法-標(biāo)簽傳播算法。其實(shí)目前半監(jiān)督算法已經(jīng)有很多的應(yīng)用了,推薦大家去深入了解。

(4)強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)( Reinforcement Learning ) ,是一種比較復(fù)雜的機(jī)器學(xué)習(xí)種類,強(qiáng)調(diào)的是系統(tǒng)與外界不斷地交互,獲得外界的反饋,然后決定自身的行為。強(qiáng)化學(xué)習(xí)目前是人工智能領(lǐng)域的一個(gè)熱點(diǎn)算法種類,典型的案例包括無(wú)人汽車駕駛和阿爾法狗下圍棋。本書(shū)介紹的分詞算法隱馬爾科夫就是一種強(qiáng)化學(xué)習(xí)的思想。

上面就是關(guān)于監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的一些介紹。監(jiān)督學(xué)習(xí)主要解決的是分類和回歸的場(chǎng)景,無(wú)監(jiān)督學(xué)習(xí)主要解決聚類場(chǎng)景,半監(jiān)督學(xué)習(xí)解決的是一些打標(biāo)數(shù)據(jù)比較難獲得的分類場(chǎng)景,強(qiáng)化學(xué)習(xí)主要是針對(duì)流程中不斷需要推理的場(chǎng)景。本書(shū)對(duì)于這4類機(jī)器學(xué)習(xí)算法都有介紹,具體的分類見(jiàn)表1-4,方便大家有針對(duì)性的學(xué)習(xí)。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

表1-4算法分類

1.3.4過(guò)擬合問(wèn)題

機(jī)器學(xué)習(xí)模型訓(xùn)練的過(guò)程中會(huì)遇到非常多的問(wèn)題,如參數(shù)或者梯度的設(shè)置不合理、數(shù)據(jù)的清洗不夠徹底,但是如果問(wèn)一個(gè)數(shù)據(jù)挖掘工程師什么問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域中最常見(jiàn)的問(wèn)題,他的答案八成是“過(guò)擬合”,這也是為什么我們要單獨(dú)拿出一小節(jié)來(lái)講一下數(shù)據(jù)挖掘過(guò)程中的過(guò)擬合問(wèn)題。

過(guò)擬合( Over-fitting ) ,從字面的意義上理解的話就是過(guò)度擬合的意思,常發(fā)生在線性分類器或者線性模型的訓(xùn)練和預(yù)測(cè)當(dāng)中。過(guò)擬合現(xiàn)象是在數(shù)據(jù)挖掘過(guò)程中經(jīng)常會(huì)遇到的問(wèn)題,如通過(guò)訓(xùn)練集訓(xùn)練了一個(gè)模型,這個(gè)模型對(duì)于訓(xùn)練集的預(yù)測(cè)準(zhǔn)確率很高,可以達(dá)到95%,但是我們換一份數(shù)據(jù)集進(jìn)行預(yù)測(cè),發(fā)現(xiàn)準(zhǔn)確率只有30%,出現(xiàn)這種情況的原因很有可能是訓(xùn)練的過(guò)擬合現(xiàn)象。

過(guò)擬合的原理就是機(jī)器學(xué)習(xí)算法過(guò)度學(xué)習(xí)了訓(xùn)練集數(shù)據(jù),聽(tīng)上去有點(diǎn)難以理解,下面通過(guò)一個(gè)例子進(jìn)行解釋。假設(shè)我們有一組二維數(shù)據(jù)展示在坐標(biāo)系當(dāng)中,我們想對(duì)這個(gè)二維數(shù)據(jù)進(jìn)行一個(gè)線性的回歸訓(xùn)練。如果擬合出的曲線是如圖1-12所示的虛線,其實(shí)是一種欠擬合(underfitting )的形式,曲線擬合的并不理想,因?yàn)椴](méi)有通過(guò)回歸算法很好地?cái)M合出一種符合數(shù)據(jù)分布的曲線。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-12 線性擬合曲線一

我們?cè)賮?lái)看看圖1-13。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-13線性擬合曲線二

如果最終擬合出來(lái)的是如圖1-13所示情況,就是一種比較理想的狀況,我們看到最終的曲線走勢(shì)已經(jīng)幾乎刻畫(huà)了數(shù)據(jù)的分布,這種曲線是比較理想的。那么什么是過(guò)擬合呢?我們來(lái)看下圖1-14。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-14線性擬合曲線三

如圖1-14所示這種情況是典型的過(guò)擬合,圖中的曲線已經(jīng)跟數(shù)據(jù)分布完全一致。那么有的人可能會(huì)問(wèn),做線性回歸的目的不就是為了找到最符合數(shù)據(jù)走向的曲線么,為什么當(dāng)我們拿到的結(jié)果跟數(shù)據(jù)走向完全匹配的時(shí)候反而不好呢?這是因?yàn)橛?xùn)練線性回歸曲線或者線性分類器的目的是要對(duì)于其他數(shù)據(jù)集進(jìn)行分類或者預(yù)測(cè)。如果在針對(duì)訓(xùn)練集做曲線擬合的時(shí)候做得過(guò)于'完美”,那么當(dāng)我們針對(duì)于其他預(yù)測(cè)集進(jìn)行預(yù)測(cè)的時(shí)候,這套模型很有可能會(huì)失準(zhǔn),因?yàn)檫@套模型在訓(xùn)練的時(shí)候過(guò)度地接近于訓(xùn)練集的特征,缺乏魯棒性。所以在機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程中, 100%的擬合訓(xùn)練集數(shù)據(jù)并不一定是好的。

通過(guò)前面的介紹,我們已經(jīng)明白了過(guò)擬合發(fā)生的現(xiàn)象和原理,那么究竟是什么原因?qū)е铝诉^(guò)擬合問(wèn)題的出現(xiàn)呢?原因可以總結(jié)為以下幾種。

訓(xùn)練數(shù)據(jù)集樣本單一,如訓(xùn)練樣本只有白色鴨子的數(shù)據(jù),我們拿生成的模型去預(yù)測(cè)黑鴨子肯定是不對(duì)的。所以在做訓(xùn)練的過(guò)程中,要求訓(xùn)練樣本要盡可能地全面,覆蓋所有的數(shù)據(jù)類型。

訓(xùn)練樣本噪音數(shù)據(jù)干擾過(guò)大,噪音數(shù)據(jù)是指數(shù)據(jù)集中的干擾數(shù)據(jù)。過(guò)多的噪音數(shù)據(jù)會(huì)導(dǎo)致模型記錄了很多噪音特征,忽略了輸入和輸出之間的關(guān)系。

模型過(guò)于復(fù)雜,模型參數(shù)太多往往也是造成過(guò)擬合現(xiàn)象的一個(gè)重要因素。所以一個(gè)成熟的模型不一定是非常復(fù)雜的,而是要求模型對(duì)于不同的數(shù)據(jù)集都有穩(wěn)定的輸出表現(xiàn)。

針對(duì)過(guò)擬合這樣的常見(jiàn)性問(wèn)題,其實(shí)已經(jīng)有了很多預(yù)防和解決的辦法如下所示。

在訓(xùn)練和建立模型的時(shí)候,一定要從相對(duì)簡(jiǎn)單的模型開(kāi)始,不要一上來(lái)就把模型調(diào)得非常復(fù)雜、特征非常多,這樣很容易造成過(guò)擬合現(xiàn)象的發(fā)生。而且當(dāng)模型過(guò)于復(fù)雜而造成過(guò)擬合現(xiàn)象發(fā)生之后,也比較難于排查具體的問(wèn)題出在哪一部分特征。

數(shù)據(jù)的采樣,一定要盡可能地覆蓋全部數(shù)據(jù)種類。另外,數(shù)據(jù)需要經(jīng)過(guò)清洗后再進(jìn)行算法訓(xùn)練,否則如果混入了大量噪聲數(shù)據(jù),會(huì)加大過(guò)擬合問(wèn)題發(fā)生的概率。

在模型的訓(xùn)練過(guò)程中,我們也可以利用數(shù)學(xué)手段預(yù)防過(guò)擬合現(xiàn)象的發(fā)生,可以在算法中添加懲罰函數(shù)來(lái)預(yù)防過(guò)擬合,這里如果想詳細(xì)了解可以參考正則化L1, L2規(guī)范,本書(shū)就不對(duì)這部分內(nèi)容展開(kāi)來(lái)講了。

以上對(duì)于過(guò)擬合問(wèn)題進(jìn)行了基本的描述,而且也介紹了問(wèn)題發(fā)生的原因以及預(yù)防的方法。因?yàn)檫^(guò)擬合問(wèn)題是在使用機(jī)器學(xué)習(xí)算法的過(guò)程中非常有可能碰到的問(wèn)題,所以掌握這方面的知識(shí)以及應(yīng)對(duì)手段是非常重要的。希望通過(guò)本節(jié)的學(xué)習(xí),大家可以在模型訓(xùn)練當(dāng)中有意識(shí)地避免過(guò)擬合問(wèn)題的發(fā)生。

1.3.5結(jié)果評(píng)估

前文介紹了一些機(jī)器學(xué)習(xí)算法在具體數(shù)據(jù)挖掘過(guò)程中可能會(huì)遇到的一些概念和名詞,我們知道機(jī)器學(xué)習(xí)算法的最終目的是生成模型,模型的好壞需要通過(guò)一些指標(biāo)來(lái)評(píng)估,現(xiàn)在就來(lái)介紹一下在機(jī)器學(xué)習(xí)算法中可能用到的一些關(guān)于結(jié)果評(píng)估的概念。常用到的概念可能包括精確率、召回率、F1值、ROC和AUC幾種,看上去概念有點(diǎn)多,因?yàn)槊總€(gè)指標(biāo)都是從不同維度來(lái)對(duì)結(jié)果進(jìn)行評(píng)估,下面將分別介紹這幾個(gè)概念的含義。

(1)精確率、召回率、F1值。因?yàn)榫_率(Precision )、召回率(Recall)和F1 ( F-Measure )值常被放在一起作比較,所以把相關(guān)的這3個(gè)指標(biāo)放在一起介紹。計(jì)算這3個(gè)指標(biāo)還需要先了解下TP,TN、FP和FN這4個(gè)指標(biāo)的含義。

TP (True Positive ) :本來(lái)是正樣本,被模型預(yù)測(cè)為正樣本。

TN (True Negative ) :本來(lái)是負(fù)樣本,被模型預(yù)測(cè)為負(fù)樣本。

FP (False Positive ) :本來(lái)是負(fù)樣本,被模型預(yù)測(cè)為正樣本。

FN (False Negative ) :本來(lái)是正樣本,被模型預(yù)測(cè)為負(fù)樣本。

上面這4個(gè)概念讀上去有點(diǎn)難以理解,我們通過(guò)一個(gè)實(shí)際的案例講解一下。例如有一個(gè)預(yù)測(cè)集,里面有500個(gè)女生和100個(gè)男生,需要通過(guò)機(jī)器學(xué)習(xí)生成模型,盡可能地區(qū)分?jǐn)?shù)據(jù)集中的女生,所以女生是正樣本假如我們最終的預(yù)測(cè)結(jié)果是70個(gè)女生和20個(gè)男生。下面計(jì)算精確率、召回率以及F1值,首先要計(jì)算TP.TN, FP和FN這4個(gè)值。在這個(gè)案例里面, TP為本來(lái)是女生又被預(yù)測(cè)為女生的人數(shù),所以TP的值為70; FP表示本來(lái)是男生被預(yù)測(cè)為女生的人數(shù), FP的值為20 ; FN表示本來(lái)是女生但被預(yù)測(cè)為男生的人數(shù), FN的值為500-70-430,

最終精確率、召回率、F1值的公式如下。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

通過(guò)上面的公式可以看出,其實(shí)精確率的概念通俗來(lái)講就是模型在預(yù)測(cè)的時(shí)候正確的比例。召回率表示的是在預(yù)測(cè)到的正樣例占全部正樣例的比例。這可以看到精確率和召回率是對(duì)模型的兩個(gè)維度的評(píng)估,前者評(píng)估的是準(zhǔn)確性,后者評(píng)估的是覆蓋率。當(dāng)然在實(shí)際的模型評(píng)估中,我們希望精確率和召回率都盡可能高,但是實(shí)際上這兩個(gè)指標(biāo)是相互矛盾的,為了更均衡的評(píng)估精確率和召回率,我們創(chuàng)建了F1值。F1值表達(dá)的是精確率和召回率的綜合評(píng)估,現(xiàn)在很多的模型評(píng)估都是通過(guò)F1值來(lái)做,就是考慮到了F1值可以把這兩個(gè)指標(biāo)結(jié)合在一起來(lái)評(píng)估。

(2) ROC和AUC, ROC (Receiver Operating Characteristic Curve )曲線是常用的二分類場(chǎng)景的模型評(píng)估算法曲線, ROC曲線的樣例如圖1-15所示。

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

圖1-15 ROC曲線

圖1-15中的齒狀弧形曲線就是ROC曲線,這個(gè)曲線的橫軸為上面提到的FP值, TP值是縱軸。如何來(lái)評(píng)估模型的好壞呢?通過(guò)ROC曲線可以清晰地展示出來(lái),只要是模型曲線越接近于左上角就說(shuō)明模型的效果越好。通過(guò)AUC值來(lái)表示ROC曲線與橫軸圍起來(lái)的面積(也就是圖1-15中有顏色覆蓋的部分) ,這個(gè)AUC值越大表示模型的效果越好。AUC的取值是0到1 ,通常大于0.5 ,當(dāng)AUC的取值達(dá)到0.9以上時(shí),證明這個(gè)模型的效果是比較不錯(cuò)的。

上面介紹了ROC和AUC兩個(gè)指標(biāo)的概念, AUC是通過(guò)ROC曲線計(jì)算出來(lái)的面積實(shí)現(xiàn)的。AUC和F1值一樣,都是通過(guò)一個(gè)數(shù)值來(lái)對(duì)于最終的結(jié)果進(jìn)行評(píng)估的。ROC的作用更多是通過(guò)對(duì)于曲線的光滑程度以及曲線的斜率來(lái)獲取模型內(nèi)包含的信息。

1.4本章小結(jié)

本章作為全書(shū)的開(kāi)篇章節(jié),通過(guò)對(duì)于人工智能領(lǐng)域的發(fā)展歷史引出了本書(shū)的主角-機(jī)器學(xué)習(xí)算法,其實(shí)機(jī)器學(xué)習(xí)算法已經(jīng)貫穿了我們的日常生活,正是因?yàn)檫@些智能算法的普及,所以越來(lái)越多的人把目光瞄向了這一新生的技術(shù)。我們通過(guò)舉例介紹了機(jī)器學(xué)習(xí)算法的發(fā)展現(xiàn)狀,幫助讀者梳理了這一學(xué)科的應(yīng)用領(lǐng)域另外通過(guò)對(duì)于一些基礎(chǔ)概念的介紹,幫助初學(xué)者對(duì)于機(jī)器學(xué)習(xí)入門(mén)。有了上述背景,下面就正式開(kāi)始對(duì)整個(gè)機(jī)器學(xué)習(xí)全流程的介紹。

本文節(jié)選自《機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用》

機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用:機(jī)器學(xué)習(xí)概述

本書(shū)主要是分享作者多年來(lái)的機(jī)器學(xué)習(xí)算法商業(yè)化實(shí)踐經(jīng)驗(yàn)。分別從機(jī)器學(xué)習(xí)的發(fā)展歷程、算法理論、平臺(tái)工具、實(shí)際案例幾方面來(lái)系統(tǒng)化的介紹機(jī)器學(xué)習(xí)算法與實(shí)際業(yè)務(wù)的結(jié)合。全書(shū)分為20章,4個(gè)部分。4個(gè)部分包括機(jī)器學(xué)習(xí)概述、機(jī)器學(xué)習(xí)算法流程、機(jī)器學(xué)習(xí)平臺(tái)介紹、機(jī)器學(xué)習(xí)行業(yè)案例。全書(shū)的章節(jié)按照機(jī)器學(xué)習(xí)的認(rèn)知、學(xué)習(xí)到實(shí)際應(yīng)用的流程來(lái)寫(xiě),通過(guò)真實(shí)的案例配合圖片、代碼示例來(lái)表述。

專欄
295集機(jī)器學(xué)習(xí)全面系統(tǒng)講授

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多