如果你在考慮從事數據科學的工作,可能會覺得這個領域有點令人困惑!什么是數據科學家?數據分析師和數據科學家之間有什么區(qū)別?機器學習工程師做什么?那么數據工程師、商業(yè)智能( BI )工程師和機器學習( ML )研究員呢? 在這篇文章中,我們將描述數據科學中的不同角色,解釋他們的定義以及差異。我們還將為每個角色建立一個“理想能力畫像”。這對于職業(yè)滿意度和求職成功非常重要——如果你申請了一個適合你的角色,你將有更大的機會獲得這份工作;如果你做了自己喜歡的事情,那么你會享受,而不是每天都想逃避! 下面一起看看數據科學中的不同角色。我們會做一些擴展,以涵蓋對具有數據技能的候選人來說,所有可考慮的數據科學職業(yè)角色。 從廣義上講,我們可以將數據角色分為兩類:業(yè)務導向或工程導向。不同之處在于,業(yè)務向角色需要兼?zhèn)浼夹g和業(yè)務技能,例如溝通和演示;而工程向的角色著重在建模和軟件工程技能上。 另一方面,一些傳統(tǒng)角色已經存在了很長時間,而其他角色僅僅出現了幾年或者剛剛興起。讓我們更詳細地看一下每個角色。 從本質來說數據分析師和數據科學家是相同的,因為他們做同樣的事情——從數據中獲取價值。價值可以有不同的形式:對于數據分析師來說,價值意味著洞察,而對于數據科學家來說,是在洞察之上的產品發(fā)展智能。 數據分析師分析數據以獲得洞察,并幫助形成業(yè)務決策。例如是什么導致網站流量增加,或者用戶離開網站的主要原因是什么?而數據科學家更關心的是使用機器學習和 A / B 測試來驅動和改進產品。他們可能會對諸如“更大尺寸的按鈕會增加點擊率嗎?”以及“哪些客戶可能取消訂閱?”等問題感興趣。 數據科學家專注于前瞻,即做出預測,而數據分析師則更多地聚焦在回顧,如分析歷史數據。 數據科學家應該更有經驗,能夠用科學的方法解決業(yè)務問題,包括構建業(yè)務問題、提出假設,然后設計和進行實驗來檢驗假設,最后得出結論(主要是研究技能,這就是為什么硬科學博士有時候是數據科學家角色的首選候選人)。而數據分析師應該使用報告或數據可視化技術收集,清理,分析數據并傳達結果。 以上是這兩個角色之間的一般差異,但情況并非總是如此,因為數據科學仍然是新的方向,并且遠未實現標準化。有時數據科學家可以進行基本分析工作,數據分析師可以執(zhí)行機器學習建模。對于數據科學中分析類的角色而言,無論頭銜如何,這兩類絕對是最受雇主追捧的重要角色。因此在求職時應考慮與畫像的最佳契合,并成為我們的目標(以下角色同理)。 需要指出的是,這里我們指的是通常意義的數據科學家,主要處理統(tǒng)計建模,A / B 測試,機器學習,數據清洗和數據可視化。而專注機器學習的數據科學家,我們實際上將其歸類為機器學習研究員/科學家,下文會有介紹。 我們已經討論了很多關于數據科學家的事情,但實際上,如果沒有數據工程師的幫助,數據科學家就無法做出貢獻。為什么?由于數據工程師構建了引入數據的數據管道!如同煉油廠閑置,是由于沒有原油進入,最終原因是石油管道還沒有建成。 我們舉一家廣告技術公司為例,我們有來自多種內外部數據源的實時數據;有來自服務器的廣告投放數據,來自我們內部數據庫的投放和客戶數據,還有來自第三方提供商的投放效果數據和我們的內部日志……為了構建實時廣告效果分析看板并進一步做分析和建模,我們需要將所有數據整合成合適的級別。在此之上,我們需要構建一個數據倉庫,以便我們的查詢不會影響生產服務器的性能。 這就是數據工程師為我們提供的幫助。如你所見,這基本上是數據的軟件工程。
ML 研究員實際上與專注于 ML 的數據科學家相同。但與通常意義上處理所有數據科學問題的“全棧”數據科學家不同,ML 數據科學家將專注于 ML 建模,以及(或者)新機器學習算法的研究和開發(fā)。另一方面,ML工程師更關心機器學習模型的生產。 想象一下使用公共數據集構建的推薦模型。在對模型進行微調之后,我們已經取得了很好的性能結果,但該模型仍然沒有用,因為它只是我們計算機中的一個軟件。為了讓它有用,我們需要將模型部署到生產環(huán)境中,比如我們的電子商務網站,以便它可以實時為用戶提供推薦,從而幫助我們增加收入。 將機器學習模型部署到生產中是一項工程問題,與構建模型不同,它涉及不同類型的工程工作,例如將 ML 模型集成到軟件系統(tǒng)中,優(yōu)化模型以提高性能和可擴展性,監(jiān)控 ML 系統(tǒng),以及用新數據重新訓練它。當然,還有建模部分,使用各種 ML 庫實驗和構建機器學習模型,以及實現 ML 算法以滿足業(yè)務需求。 研究人員/科學家和工程師之間的區(qū)別在于“部署”部分,即是否負責將 ML 模型投入生產。如果是,那么我們討論的是上述的工程問題,而角色是工程師,否則,它是一個研究角色。 我們這里談到的業(yè)務分析師不是傳統(tǒng)的IT業(yè)務分析師( BA )。傳統(tǒng)的 BA 引導,記錄業(yè)務需求并充當業(yè)務和技術之間的聯絡人。相反,我們使用業(yè)務分析師的頭銜作為總括頭銜來涵蓋所有具有業(yè)務性質(非技術性)且需要重要數據技能的分析師角色。 由于數據的普及,幾乎所有分析師角色都需要某些數據技能集。因此,業(yè)務分析師角色是對于具有領域專業(yè)知識,并且精于數據的候選人來說,業(yè)務分析師是非常不錯的職位目標。 找出這些角色的最佳方法是在求職搜索引擎上使用關鍵字。例如,在Indeed.com上,如果輸入“ analyst sql ”作為關鍵字,您將找到許多不同的職位,如 Performance Analyst,Healthcare Data Analyst 和 Demand Planning Analyst。這些是精通數據的候選人可以考慮的,不同類型的業(yè)務分析師。 我們還擁有傳統(tǒng)的商業(yè)智能( BI )分析師和商業(yè)智能工程師角色。一般來說,當我們談論 BI 時,我們指的是使用“定義良好的BI基礎設施”在“大公司”環(huán)境中進行數據分析和報告, 基礎設施指的是各種企業(yè)軟件系統(tǒng)( ERP,CRM 等)以及在他們之上進行連接和報告 BI 工具; “大公司” – 因為傳統(tǒng)大型企業(yè)擁有財務實力來搭建和維護這些BI系統(tǒng)。 BI 分析師與數據分析師非常相似,因為他們都需要對數據進行分析和報告。一般來說,他們不做預測建模。不同之處在于 BI 分析師在結構化環(huán)境(使用 BI 系統(tǒng))中與大型公司合作,而數據分析師可以在任何地方,而且不需要使用現有的BI基礎架構。 而BI工程師/開發(fā)人員和 BI 分析師的關系,正如數據工程師與數據科學家的關系一樣,因為BI工程師構建了 BI 分析師可依賴的報告工具來進行業(yè)務所需的分析。因此,數據工程師可以被視為 BI 工程師/開發(fā)人員角色的最新版本,后者可以很好地適應前者,這要歸功于類似的技能集。 如上所述,數據現在無處不在。難怪現在的產品還依賴于數據科學,特別是機器學習。對于以機器學習為中心或嚴重依賴于數據科學的產品,精通數據的產品經理最適合支持它們。具有 ML 專業(yè)知識和產品管理經驗的候選人將在這種類型的角色中占上風。 我們現在清楚地了解數據科學中的主要角色,但每位理想候選人的技能集是什么樣的?為了以直觀的方式進行說明,我使用 Matplotlib 創(chuàng)建了蜘蛛圖將這些畫像可視化。由于這很大程度上是我的直觀看法,我們將在未來的迭代中抓取并分析來自 Indeed 的職位發(fā)布數據,以驗證畫像。 現在你擁有了數據科學角色和相應的能力畫像!基于對不同角色的責任和差異的充分理解,您將能夠確定您熱衷的職業(yè)道路;理想的畫像不僅可以用于確定最適合的目標角色,還可以作為簡歷定制和個人品牌的路線圖,以使您的個人資料與之相關。 |
|