日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

<td id="gup6s"><code id="gup6s"><small id="gup6s"></small></code></td>

<strike id="gup6s"><code id="gup6s"></code></strike>

<fieldset id="gup6s"><table id="gup6s"></table></fieldset>

<menu id="gup6s"><form id="gup6s"></form></menu>

<span id="gup6s"><i id="gup6s"></i></span>

<legend id="t2fub"></legend>

<legend id="t2fub"></legend>

<menuitem id="t2fub"></menuitem>

搜索

分享

QQ空間 QQ好友新浪微博微信

【實(shí)踐】如何成為一位數(shù)據(jù)科學(xué)家？

oucwj 2015-05-05

展開全文

【實(shí)踐】如何成為一位數(shù)據(jù)科學(xué)家？

數(shù)據(jù)分析

1機(jī)器學(xué)習(xí)似乎比其他計(jì)算機(jī)科學(xué)學(xué)科都要難，特別是對(duì)于數(shù)學(xué)不太好的程序員而言。你對(duì)這些程序員有什么樣的建議呢？

我建議應(yīng)該先自學(xué)基本的概率、統(tǒng)計(jì)，以及線性代數(shù)。你不需要學(xué)一個(gè)學(xué)期那么長的課，這些基礎(chǔ)知識(shí)就會(huì)讓你有很大收獲。有很多在線資源，比如Kahn academy視頻。（我在56.com和Kahn academy找了一下有很多英文的，也有一些中文的。）也有一些比較容易起步的書，我比較熟悉有美國英文版的“teach yourself”（自學(xué)）系列, “statistics for dummies”（傻瓜統(tǒng)計(jì)）, “probability refresher”（概率補(bǔ)習(xí)），“statistics demystified”（統(tǒng)計(jì)解惑）等等。

我其實(shí)認(rèn)為這里面其實(shí)很有商機(jī)。Kahn academy視頻(https://www./)很不錯(cuò)，因?yàn)樗鼈兌己芏?，但遺憾的是這些視頻都是英文的。我看見的中文線性代數(shù)視頻都很長。如果你能做出像Kahn academy那樣的中文視頻，我覺得是會(huì)非常受歡迎的。

2如何進(jìn)階學(xué)習(xí)機(jī)器學(xué)習(xí)？對(duì)于初學(xué)者是否有一個(gè)類似于路線圖的東西？你有什么推薦書單嗎？

我會(huì)讀Witten 和 Frank所著的《數(shù)據(jù)挖掘：實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)》，這里面涉及的數(shù)學(xué)很少，但是又對(duì)普通算法做了很好的介紹。我覺得緊接著就該讀Tan, Steinbach, 以及Kumar的《數(shù)據(jù)挖掘?qū)д摗贰?/span>

當(dāng)然，這些書都很厚，如果你想馬上就搞明白一些東西，估計(jì)就不想讀這些大部頭了。如果要把某個(gè)算法弄明白，我會(huì)在網(wǎng)上找很多教程。比如Adboost算法，我認(rèn)為多讀一些不同的教程比只讀一個(gè)，深入鉆研要好很多。

最后我覺得應(yīng)該多動(dòng)手玩玩實(shí)例。問問你自己：如果我改變這個(gè)數(shù)據(jù)，結(jié)果會(huì)是怎么樣的呢？

3在真實(shí)案例中，數(shù)據(jù)預(yù)處理可能要比算法還要重要，你要不要考慮在新版《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》加入數(shù)據(jù)預(yù)處理技巧和實(shí)例？

我完全同意，我的大部分時(shí)間都是用來做數(shù)據(jù)預(yù)處理。我會(huì)在未來加入數(shù)據(jù)預(yù)處理的內(nèi)容。我不知道這里面會(huì)不會(huì)有什么神奇的捷徑，有時(shí)候我面對(duì)的就是一堆苦活兒。我還要說：你一定要把能自動(dòng)化的都自動(dòng)化，這樣就會(huì)節(jié)省很多你未來的工作量。

對(duì)于有些人來說“算法”才是機(jī)器學(xué)習(xí)真正有趣的地方，但是機(jī)器學(xué)習(xí)里面總有一些苦活累活不那么有意思，比如數(shù)據(jù)預(yù)處理。你是怎么完成這些“不那么有趣”的工作的？

當(dāng)然，肯定有無聊的工作，所以你一定要把這部分工作自動(dòng)化，這樣你就不需要重復(fù)做這些無聊的工作了。這樣做也會(huì)讓你變成一個(gè)更好的軟件開發(fā)者。

4能向我們介紹一些機(jī)器學(xué)習(xí)方面的開源項(xiàng)目嗎？

我現(xiàn)在能想到最好的就是Scikit-learn (http:///stable/) 了。這是用Python寫的項(xiàng)目，用到了Scipy 和 Numpy。

5數(shù)據(jù)科學(xué)家被評(píng)為世界上最火的工作之一，你認(rèn)同嗎？您本人作為一個(gè)數(shù)據(jù)科學(xué)家，有什么可以和我們分享的經(jīng)驗(yàn)嗎？要成為一個(gè)數(shù)據(jù)科學(xué)家需要有什么條件？

我認(rèn)為數(shù)據(jù)科學(xué)家現(xiàn)在確實(shí)很好找工作。什么是數(shù)據(jù)科學(xué)家呢？我認(rèn)為數(shù)據(jù)科學(xué)家是介于統(tǒng)計(jì)學(xué)家和軟件工程師中間的一種工作。公司、個(gè)人、NPO，甚至運(yùn)動(dòng)隊(duì)都需要根據(jù)數(shù)據(jù)來做決策。他們需要可以分析數(shù)據(jù)的人。這需要我之前提過的兩種條件。人們不需要單純的統(tǒng)計(jì)學(xué)家，這些人可能對(duì)于爭論自己到底用不用貝葉斯定理更感興趣，人們需要的是真正能做實(shí)事的人。

所以我也建議大家多動(dòng)手做一些東西。這是什么意思呢？創(chuàng)造一些項(xiàng)目，收集數(shù)據(jù)，預(yù)處理數(shù)據(jù)，然后做一些數(shù)據(jù)分析，展示數(shù)據(jù)，最后向公眾展示這些數(shù)據(jù)。如果你做了很多這樣的事情，那么你就有一個(gè)可以用來向你未來老板或者其他人展示的檔案夾。幾乎我書里的每個(gè)例子都可以用來做成一個(gè)網(wǎng)站或者智能電話app，這些都是你可以示人的資本。

人工智能的發(fā)展到了瓶頸期，而機(jī)器學(xué)習(xí)似乎是可以打破這個(gè)僵局的領(lǐng)域。你認(rèn)為是什么原因造成了機(jī)器學(xué)習(xí)這樣的發(fā)展步伐？

相比于物理學(xué)或者電氣工程這樣的學(xué)科，人工智能可能是很年輕的。一個(gè)年輕的學(xué)科中的很多課題和原則都是被不斷發(fā)現(xiàn)和精煉的。很多時(shí)候，研究項(xiàng)目被當(dāng)做事實(shí)一樣擺出來，我認(rèn)為這就是“人工智能承諾得太多，實(shí)現(xiàn)得太少”的真正原因。

我覺得這里面一個(gè)很好的例子就是很多學(xué)者想要用神經(jīng)網(wǎng)絡(luò)再造哺乳動(dòng)物大腦。這讓我想起來早些時(shí)候人們?cè)噲D通過造出外形很像鳥翅膀的翼來制造飛機(jī)，其結(jié)果只能是飛起來把自己的骨頭砸碎了。我不是要批判任何在做神經(jīng)網(wǎng)絡(luò)方面工作的人：這就是個(gè)試驗(yàn)，有一些有用的應(yīng)用，但是這些解決不了我們的問題也沒法造出有感知的機(jī)器。問題是這些試驗(yàn)被當(dāng)做了事實(shí)放在教科書里、電影里，以及新聞里，但它們還僅僅是試驗(yàn)。

回到那個(gè)飛機(jī)的例子。當(dāng)人類第一次知道動(dòng)力飛行時(shí)，他們是因?yàn)橐鉀Q一個(gè)小任務(wù)而做出來的，而不是要建造什么機(jī)器鳥。我覺得同樣的方法也促成了人工智能上的一些成功。2010-2011年的大突破：IBM的Watson計(jì)算機(jī)、Google的自動(dòng)駕駛汽車，以及iPhone的Siri語音識(shí)別，甚至還有一個(gè)公司成功地用人工智能寫出了新聞報(bào)道。這些都不是試驗(yàn)，這些都是生產(chǎn)線上的商品，被無數(shù)的人所使用。人工智能純化論者會(huì)認(rèn)為這些只是被用來完成明確任務(wù)的工具，而不是智能機(jī)器。

回到我們的問題，我認(rèn)為機(jī)器學(xué)習(xí)是很實(shí)用的工具，可以用來解決很具體的問題，但是人工智能是一個(gè)高高在上的目標(biāo)，很難達(dá)到。這也就是人工智總讓人感到失望，而機(jī)器學(xué)習(xí)總會(huì)為我們帶來驚喜的原因。

6很多大（數(shù)據(jù)）公司，比如Google, Facebook 和 Baidu都投入很多精力在深度學(xué)習(xí)上。你認(rèn)為深度學(xué)習(xí)會(huì)在未來取代“人工特性+機(jī)器學(xué)習(xí)”的方法嗎？

不，我不認(rèn)為深度學(xué)習(xí)會(huì)取代人工特性+機(jī)器學(xué)習(xí)。有很多領(lǐng)域，深度學(xué)習(xí)確實(shí)很擅長，比如識(shí)別圖片。但是仍然有很多領(lǐng)域現(xiàn)存算法的表現(xiàn)更勝一籌。

7在深度學(xué)習(xí)之后，機(jī)器學(xué)習(xí)的下一個(gè)熱點(diǎn)是什么？

我不知道，也許你可以基于學(xué)術(shù)或者技術(shù)會(huì)議的論文提交來創(chuàng)造一個(gè)預(yù)測(cè)模型來告訴我下一個(gè)與研究熱點(diǎn)。

8很多人認(rèn)為語言會(huì)是大數(shù)據(jù)和機(jī)器學(xué)習(xí)的未來主要功用。讓我們舉一個(gè)具體的例子，如果要預(yù)測(cè)一個(gè)公司的收入，你會(huì)用什么模型？

這點(diǎn)說得很對(duì)。我知道大的零售商會(huì)有一整個(gè)團(tuán)隊(duì)來做銷售的預(yù)測(cè)。如果他們真能準(zhǔn)確預(yù)測(cè)銷量，那他們就會(huì)省下一大筆錢。如果要預(yù)測(cè)一家公司的收入，我會(huì)首先用回歸+邏輯回歸。邏輯回歸讓我們可以隨時(shí)打開或關(guān)閉操作，這對(duì)于相關(guān)事情發(fā)生以及金錢入賬這樣的事來說都是一個(gè)很好的模型。

作者：CSDN博客

轉(zhuǎn)自：數(shù)據(jù)挖掘dw 微博

▌【軟件定義世界（SDX）】2014年4月份不容錯(cuò)過的精彩文章：

“查看信息”中，回復(fù)日期代碼即可。

回復(fù)“20140406”-->武新：大數(shù)據(jù)架構(gòu)及行業(yè)大數(shù)據(jù)應(yīng)用【大數(shù)據(jù)100分】

回復(fù)“20140301”-->互聯(lián)網(wǎng)的未來【PPT】

回復(fù)“20140426”-->大數(shù)據(jù)產(chǎn)業(yè)地圖

回復(fù)“20140406”-->《互聯(lián)網(wǎng)思維“獨(dú)孤九劍”》讀書筆記【PPT】

回復(fù)“20140429”-->懷進(jìn)鵬院士：大數(shù)據(jù)與產(chǎn)業(yè)發(fā)展轉(zhuǎn)型【PPT】
回復(fù)“20140427”-->部分歐洲國家新一輪工業(yè)革命進(jìn)展
回復(fù)“20140430”-->大數(shù)據(jù)足以引領(lǐng)第四次革命的商業(yè)價(jià)值
回復(fù)“20140408”-->阿里巴巴西湖品學(xué)大數(shù)據(jù)峰會(huì)觀后感
回復(fù)“20140413”-->明天的數(shù)字營銷分析工具
回復(fù)“20140409”-->華爾街分析師選出全球最重要16張圖表
回復(fù)“20140408”-->顛覆支付行業(yè)的創(chuàng)新者RIPPLE
回復(fù)“20140410”-->預(yù)測(cè)零售業(yè)未來將發(fā)生的十個(gè)“神奇”變化
回復(fù)“20140403”-->移動(dòng)支付分析報(bào)告【PPT】
回復(fù)“20140412”-->傳統(tǒng)行業(yè)轉(zhuǎn)型必須回歸產(chǎn)品本質(zhì)
回復(fù)“20140409”-->醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用的15個(gè)場景
回復(fù)“20140403”-->謝國忠：“新經(jīng)濟(jì)”幻象：互聯(lián)網(wǎng)不能拯救中國經(jīng)濟(jì)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： oucwj > 《大數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

請(qǐng)遵守用戶評(píng)論公約

類似文章 更多

oucwj

關(guān)注對(duì)話

TA的最新館藏

安筱鵬：十個(gè)關(guān)鍵詞勾勒數(shù)字化轉(zhuǎn)型
企業(yè)保密制度培訓(xùn)動(dòng)態(tài)PPT
保密知識(shí)培訓(xùn)優(yōu)秀課件
經(jīng)理人保密協(xié)議培訓(xùn).ppt
企業(yè)員工競業(yè)保密培訓(xùn).ppt
大數(shù)據(jù)時(shí)代下法律如何保護(hù)個(gè)人隱私

喜歡該文的人也喜歡更多

熱門閱讀換一換

<menuitem id="4juwy"></menuitem><menuitem id="4juwy"></menuitem>