 來源:海豚數(shù)據(jù)科學(xué)實驗室盡管隨著AI的普及,我們在生活中越來越依賴于人工智能,但“人工智障”的相關(guān)調(diào)侃也從來沒有消失過。 相信大家都知道,如果我們想要讓AI準(zhǔn)確識別出圖中的鳥,我們需要在數(shù)據(jù)集中手動將這些照片標(biāo)記為鳥,然后讓算法和圖像之間產(chǎn)生關(guān)聯(lián)性的判斷識別。要是小規(guī)模的實驗性數(shù)據(jù)還好,一旦遇到那種規(guī)模多達(dá)數(shù)百萬個的標(biāo)記需求,個中消耗的時間真是難以想象。所謂“得數(shù)據(jù)者,得人工智能”,如今人工智能早已在我們的生活中屢見不鮮,像“指紋解鎖”、“人臉識別”等等都屬于人工智能的范疇,然而人工智能的上游基礎(chǔ)產(chǎn)業(yè),數(shù)據(jù)標(biāo)注卻鮮為人知。在了解數(shù)據(jù)標(biāo)注之前,先來了解人工智能。人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能從誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大,可以設(shè)想,未來人工智能帶來的科技產(chǎn)品,將會是人類智慧的“容器”。人工智能,其實是部分替代人的認(rèn)知功能。人工智能算法是數(shù)據(jù)驅(qū)動型算法,也就是說,如果想實現(xiàn)人工智能,首先需要把人類理解和判斷事物的能力教給計算機(jī),讓計算機(jī)學(xué)習(xí)到這種識別能力。類比機(jī)器學(xué)習(xí),我們要教它認(rèn)識一只貓,直接給它一張貓的圖片,它是完全不知道這是什么。我們得先有貓的圖片,上面標(biāo)注著“貓”這個字,然后機(jī)器通過學(xué)習(xí)了大量的圖片中的特征,這時候再給機(jī)器任意一張貓的圖片,它就能認(rèn)出來這是貓了。訓(xùn)練集和測試集都是標(biāo)注過的數(shù)據(jù),以貓為例,假設(shè)我們有1000張標(biāo)注著“貓”的圖片,那么我們可以拿800張作為訓(xùn)練集,200張作為測試集。機(jī)器從800張貓的圖片中學(xué)習(xí)得到一個模型,然后將剩下的200張機(jī)器沒有見過的圖片去給它識別,然后我們就能夠得到這個模型的準(zhǔn)確率了。所以目前人工智能需要標(biāo)注大量數(shù)據(jù),即對原始信息進(jìn)行數(shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注為通過分類、畫框、標(biāo)注、注釋等,對圖片、語音、文本等數(shù)據(jù)進(jìn)行處理,標(biāo)記對象的特征,以作為機(jī)器學(xué)習(xí)基礎(chǔ)素材的過程。數(shù)據(jù)標(biāo)注是大部分人工智能算法得以有效運(yùn)行的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)標(biāo)注是把需要機(jī)器識別和分辨的數(shù)據(jù)貼上標(biāo)簽,然后讓計算機(jī)不斷地學(xué)習(xí)這些數(shù)據(jù)的特征,最終實現(xiàn)計算機(jī)能夠自主識別。數(shù)據(jù)標(biāo)注的應(yīng)用場景智能安防是人工智能與信息技術(shù)結(jié)合的關(guān)鍵領(lǐng)域,對于城市與民生發(fā)展有重要的意義。通過生物識別、行為監(jiān)測等技術(shù)手段,廣泛地應(yīng)用于城市道路監(jiān)控、車輛人流監(jiān)測、公共安全防范等領(lǐng)域。人臉標(biāo)注在智能安防中主要應(yīng)用于人臉識別與身份識別。人臉識別也稱人像識別、面部識別,是基于人的臉部特征信息進(jìn)行多年齡段、多角度、多表情、多光線的人臉圖像采集,從而完成身份識別的一種生物識別技術(shù)。人臉識別涉及的技術(shù)主要包括計算機(jī)視覺、圖像處理等。人臉識別(視覺識別技術(shù)的一種應(yīng)用)在國內(nèi)的應(yīng)用大致經(jīng)歷從公共安全領(lǐng)域擴(kuò)展到商業(yè)領(lǐng)域的過程。最初,機(jī)場、高鐵站以及酒店等場景使用這項技術(shù)對個人身份進(jìn)行驗證,隨后商業(yè)銀行也開始采用人臉識別實現(xiàn)遠(yuǎn)程開戶。再之后,刷臉支付、刷臉門禁也相繼出現(xiàn),人臉識別逐漸從少數(shù)有限場景滲透到人們的日常生活之中,目前,人臉識別技術(shù)已廣泛應(yīng)用于多個領(lǐng)域,除了智能安防之外,還應(yīng)用于金融、司法、公安、邊檢、航天、電力、教育、醫(yī)療等眾多領(lǐng)域。此外,物品標(biāo)注在智能安防應(yīng)用中,物品標(biāo)注需要和行為標(biāo)注結(jié)合。近年來,隨著人工智能浪潮的興起,無人駕駛、智能交通安全系統(tǒng)一度走進(jìn)我們的生活,國內(nèi)許多公司紛紛投入到自動駕駛和無人駕駛的研究,例如百度啟動的“百度無人駕駛汽車”計劃,其自主研發(fā)的無人駕駛汽車Apollo還曾亮相2018年央視春晚。在汽車自動駕駛的過程中,想要讓汽車本身的算法做到處理更多、更復(fù)雜的場景,背后就需要有海量的真實道路數(shù)據(jù)做支撐。而這就需要依靠數(shù)據(jù)標(biāo)注。此外還有智慧停車,這些也都要依賴于人工智能數(shù)據(jù)標(biāo)注的介入,對于行車視頻進(jìn)行采集,路況進(jìn)行提取,停車點(diǎn)進(jìn)行標(biāo)注,包括D點(diǎn)云障礙物、紅綠燈、車道燈及高精地圖。為行人識別、車輛識別、紅綠燈識別、車道線識別等技術(shù)提供精確訓(xùn)練數(shù)據(jù),為智能交通保駕護(hù)航。智能醫(yī)療是通過打造健康檔案區(qū)域醫(yī)療信息平臺,利用最先進(jìn)的物聯(lián)網(wǎng)技術(shù),實現(xiàn)患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)、醫(yī)療設(shè)備之間的互動,逐步達(dá)到信息化。AI與醫(yī)療行業(yè)的結(jié)合將有望迎來跨越式發(fā)展。醫(yī)療影像標(biāo)注是對醫(yī)療影像進(jìn)行區(qū)域標(biāo)注及分類標(biāo)注,多應(yīng)用于輔助臨床診斷。人工智能通過學(xué)習(xí)大量的醫(yī)療影像標(biāo)注數(shù)據(jù)集,將會很好的輔助醫(yī)生進(jìn)行臨床診斷以及提出治療方案。人工智能主要算法應(yīng)用領(lǐng)域集中在計算機(jī)視覺、語音識別/語音合成,以及自然語言處理三個方面。圖像方面:一個新研發(fā)的計算機(jī)視覺算法需要上萬張到數(shù)十萬張不等的標(biāo)注圖片訓(xùn)練,新功能的開發(fā)需要近萬張圖片訓(xùn)練,而定期優(yōu)化算法也有上千張圖片的需求,一個用于智慧城市的算法應(yīng)用,每年都有數(shù)十萬張圖片的穩(wěn)定需求。語音方面:頭部公司累計應(yīng)用的標(biāo)注數(shù)據(jù)集已達(dá)百萬小時以上,每年需求仍以20%-30%的增速上升,要求數(shù)據(jù)服務(wù)商不僅要掌握專業(yè)的聲學(xué)知識、數(shù)據(jù)標(biāo)注經(jīng)驗,還要擁有語音合成的算法能力。自然語言處理方面:隨著工業(yè)、醫(yī)療、教育的AI應(yīng)用產(chǎn)品進(jìn)一步爆發(fā),將會有更多交互方式出現(xiàn),自然語義數(shù)據(jù)處理的需求將會持續(xù)增長,有望成為繼圖像、語音之后的第三大增量市場。這些海量的數(shù)據(jù)幾乎全部依賴數(shù)據(jù)標(biāo)注師手工進(jìn)行標(biāo)注,數(shù)據(jù)標(biāo)注行業(yè)的缺口十分可觀,并且數(shù)據(jù)標(biāo)注已經(jīng)在各行業(yè)產(chǎn)生了極廣的應(yīng)用,行業(yè)也開始逐漸升級,走向產(chǎn)業(yè)化。在數(shù)據(jù)標(biāo)注行業(yè)流行著一句話,“有多少智能,就有多少人工”。近日,來自普林斯頓大學(xué)、康奈爾大學(xué)、蒙特利爾大學(xué)以及美國國家統(tǒng)計科學(xué)研究院共同發(fā)表的最新論文指出,這部分手動標(biāo)記工作大多在美國及其他西方國家之外完成,并對全球各地的工人施以殘酷剝削。以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等數(shù)據(jù)標(biāo)記公司為例,他們主要使用來自撒哈拉以南非洲以及東南亞地區(qū)的勞動力,每天支付給員工的薪酬僅為 8 美元(折合成人民幣為 51.6 元)。但與此同時,這些企業(yè)每年卻能賺取數(shù)千萬美元的巨額收益。現(xiàn)代人工智能依賴各種算法處理規(guī)模達(dá)數(shù)百萬的示例、圖像或文本素材。但在此之前,首先需要由工作人員在圖片數(shù)據(jù)集中手動標(biāo)記出對象,再將標(biāo)記完成的大量圖像交付給算法以學(xué)習(xí)模式,掌握如何準(zhǔn)確識別對象。這類工作量極大、過程極其枯燥且耗時的手動數(shù)據(jù)標(biāo)記過程,已經(jīng)成為 AI 經(jīng)濟(jì)體系中的重要組成部分。未來,隨著AI應(yīng)用場景逐漸多領(lǐng)域化,在數(shù)據(jù)標(biāo)注行業(yè)內(nèi)部,從業(yè)者也必將隨著AI行業(yè)而一同進(jìn)入細(xì)分市場追逐階段,可謂機(jī)遇與挑戰(zhàn)并行。未來智能實驗室的主要工作包括:建立AI智能系統(tǒng)智商評測體系,開展世界人工智能智商評測;開展互聯(lián)網(wǎng)(城市)云腦研究計劃,構(gòu)建互聯(lián)網(wǎng)(城市)云腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。
|