創(chuàng)建人工智能或機(jī)器學(xué)習(xí)模型并非一項(xiàng)簡(jiǎn)單的任務(wù)。為了讓模型能在不同環(huán)境下正常使用,除了要有大量的知識(shí)、技能和豐富的經(jīng)驗(yàn),你還要有高質(zhì)量的計(jì)算機(jī)視覺(jué)訓(xùn)練數(shù)據(jù),特別是基于視覺(jué)感知的人工智能模型。 從某種程度上來(lái)說(shuō),獲取和收集訓(xùn)練數(shù)據(jù),并將其用于訓(xùn)練模型,是人工智能開(kāi)發(fā)中最重要的階段。如果你在訓(xùn)練機(jī)器模型時(shí)犯下錯(cuò)誤,不僅會(huì)導(dǎo)致你的模型執(zhí)行出錯(cuò),當(dāng)你在醫(yī)療和自動(dòng)駕駛汽車等領(lǐng)域做出關(guān)鍵業(yè)務(wù)決策時(shí),還會(huì)造成災(zāi)難性的后果。以下是訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)比較常見(jiàn)的 6 個(gè)錯(cuò)誤。 在人工智能開(kāi)發(fā)過(guò)程中,機(jī)器學(xué)習(xí)工程師經(jīng)常犯的一個(gè)錯(cuò)誤就是使用未經(jīng)驗(yàn)證的非結(jié)構(gòu)化數(shù)據(jù)。未經(jīng)驗(yàn)證的數(shù)據(jù)中存在數(shù)據(jù)重復(fù)、數(shù)據(jù)矛盾、缺乏分類、數(shù)據(jù)沖突、數(shù)據(jù)錯(cuò)誤等問(wèn)題,這些都可能導(dǎo)致訓(xùn)練不正常。 所以,在使用原始數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練之前,先要仔細(xì)檢查一下原始數(shù)據(jù)集,去掉所有不必要或不相關(guān)的數(shù)據(jù),以幫助人工智能模型功能更準(zhǔn)確。 這樣的錯(cuò)誤應(yīng)該避免。舉例來(lái)說(shuō),如果一個(gè)人已經(jīng)學(xué)會(huì)了某樣?xùn)|西,把它應(yīng)用到他的工作領(lǐng)域,并且把同樣的信息應(yīng)用到另一個(gè)領(lǐng)域,那么在推理時(shí)就會(huì)產(chǎn)生偏差和重復(fù)。 同樣的原理也適用于機(jī)器學(xué)習(xí):人工智能可以從大量數(shù)據(jù)集學(xué)習(xí)中來(lái)準(zhǔn)確預(yù)測(cè)答案,同樣的訓(xùn)練數(shù)據(jù)用于模型或基于人工智能的應(yīng)用中,可能會(huì)導(dǎo)致模型出現(xiàn)偏差,產(chǎn)生的結(jié)果是之前學(xué)習(xí)的結(jié)果。因此,你需要用以前沒(méi)有用來(lái)訓(xùn)練機(jī)器的不同數(shù)據(jù)集,來(lái)測(cè)試人工智能模型。 要想保證你的人工智能模型是準(zhǔn)確的,你必須使用適當(dāng)?shù)挠?xùn)練數(shù)據(jù)來(lái)確保它能夠以最高的準(zhǔn)確度進(jìn)行預(yù)測(cè)。通常,造成模型失敗的一個(gè)主要原因就是缺乏充分的準(zhǔn)備數(shù)據(jù)。 值得一提的是,需要的訓(xùn)練數(shù)據(jù)類型因人工智能模型或行業(yè)類型而異。要保證深度學(xué)習(xí)在高準(zhǔn)確度下運(yùn)行,你需要更多的定量和定性數(shù)據(jù)集。 要想創(chuàng)建一個(gè)人工智能模型,在各種場(chǎng)景下都能提供 100% 準(zhǔn)確的結(jié)果是不可能的。就像人一樣,機(jī)器也會(huì)因各種因素而產(chǎn)生偏差,比如年齡、性別、取向和收入水平等等,這些因素都會(huì)對(duì)結(jié)果產(chǎn)生不同程度的影響。所以你必須使用統(tǒng)計(jì)分析,來(lái)確定每一個(gè)個(gè)體因素是如何影響數(shù)據(jù)和人工智能訓(xùn)練的。 身為機(jī)器學(xué)習(xí)工程師,你必須確保你的人工智能模型使用適當(dāng)?shù)牟呗詠?lái)學(xué)習(xí)。要實(shí)現(xiàn)這一目標(biāo),你必須定期審查人工智能訓(xùn)練過(guò)程及其性能,以確保最佳效果。必要時(shí),還要請(qǐng)專家?guī)椭ㄟ^(guò)大量的訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練你的人工智能模型。 在設(shè)計(jì)機(jī)器學(xué)習(xí)人工智能時(shí),你必須不斷地問(wèn)自己一些重要的問(wèn)題,比如,你的數(shù)據(jù)是否來(lái)自一個(gè)值得信賴的可信來(lái)源?你的人工智能能否發(fā)現(xiàn)廣泛的人工統(tǒng)計(jì)數(shù)據(jù),是否還有其他因素影響結(jié)果? 要想利用機(jī)器學(xué)習(xí)來(lái)設(shè)計(jì)人工智能模型,你需要采用正確標(biāo)注的數(shù)據(jù)集,這樣做不僅能幫助你獲得最佳結(jié)果,還能提高用戶對(duì)機(jī)器學(xué)習(xí)模型的信任程度。如果你的數(shù)據(jù)沒(méi)有被正確標(biāo)記,最終輸出的模型就會(huì)受損。 如果你的機(jī)器學(xué)習(xí)模型是基于計(jì)算機(jī)視覺(jué)的,那么可以采用圖像標(biāo)注來(lái)生成所需訓(xùn)練數(shù)據(jù)。當(dāng)然,除了訓(xùn)練模型外,人工智能公司還面臨著另一個(gè)挑戰(zhàn):獲取合適的標(biāo)簽數(shù)據(jù),不過(guò)也有一些公司為機(jī)器學(xué)習(xí)和人工智能提供數(shù)據(jù)標(biāo)注服務(wù)。 |
|
來(lái)自: 板橋胡同37號(hào) > 《AI》