如果你也有一個(gè)愿景,確保你正在開發(fā)的產(chǎn)品遵循“AI for good”的所有書面規(guī)則,那么你肯定會(huì)遇到數(shù)據(jù)偏差的情況。有偏差的模型、數(shù)據(jù)或有偏差的實(shí)施——是數(shù)據(jù)科學(xué)家日常中典型的困境。因此,首先我們需要了解并承認(rèn)偏差存在并且可以采取任何形式。是的,偏差是一個(gè)廣義的術(shù)語,它可以存在于數(shù)據(jù)收集、算法,甚至 ML 輸出解釋階段。偏差可能會(huì)導(dǎo)致基于種族、年齡或性別等多種人類特征的機(jī)會(huì)獲得不同的機(jī)會(huì),應(yīng)予以勸阻。一個(gè)基于斯坦福大學(xué)的AI指數(shù)報(bào)告,AI / ML組織詮釋以下風(fēng)險(xiǎn),普遍的行業(yè),并努力減輕這種風(fēng)險(xiǎn),因?yàn)樗鼈儾焕谒麄兊囊话銟I(yè)務(wù)和人性化。 - 結(jié)構(gòu)性偏差:數(shù)據(jù)可能存在偏差,純粹是因?yàn)樗梢蕴幚斫Y(jié)構(gòu)性差異。與護(hù)士、廚師、老師同義的女性代表顯然源自社會(huì)結(jié)構(gòu)。一家電子商務(wù)巨頭試圖建立一個(gè)招聘工具,以捕捉現(xiàn)有員工的細(xì)微差別,不用說,這是有偏差的。許多屬性,如體育、社交活動(dòng)、成就等,都是由機(jī)器挑選的,導(dǎo)致偏向于男性的工具。
- 數(shù)據(jù)收集:數(shù)據(jù)收集偏差的可能原因可能基于一天中的時(shí)間、人群年齡組、原籍國、階層等。輸入算法的數(shù)據(jù)應(yīng)不斷更新以反映真實(shí)情況我們生活的世界以及我們想要預(yù)測的世界的未來狀態(tài)。
- 數(shù)據(jù)操作:刪除沒有附加標(biāo)簽的實(shí)例或缺少值的實(shí)例更容易。但重要的是要檢查被消除的觀察結(jié)果是否會(huì)導(dǎo)致特定于性別、種族、國籍和相關(guān)屬性的數(shù)據(jù)被歪曲。
- 算法偏差:算法將學(xué)習(xí)數(shù)據(jù)模式建議它學(xué)習(xí)的內(nèi)容。該算法要么反映普遍存在的偏差,要么反映我們最害怕的恐懼,放大它們。如果判斷偏向于特定人群,機(jī)器也會(huì)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。算法中的偏差源于數(shù)據(jù)不是正確的代表,或者是源于存在主義的偏差。如果輸入數(shù)據(jù)不平衡,那么我們需要確保算法仍然看到足夠的少數(shù)類實(shí)例以在其上表現(xiàn)良好。有多種方法可以實(shí)現(xiàn)數(shù)據(jù)重新平衡,主要方法包括合成數(shù)據(jù)創(chuàng)建或分配類權(quán)重,以便算法對每個(gè)對少數(shù)類做出的錯(cuò)誤預(yù)測施加更高的懲罰。
- 實(shí)施偏差:所有 ML 模型都建立在訓(xùn)練和測試數(shù)據(jù)集應(yīng)該屬于相似分布的基本假設(shè)之上。在夏季數(shù)據(jù)上訓(xùn)練的模型可能具有不同的特征分布,因此不適合預(yù)測冬季的消費(fèi)者行為。只有當(dāng)新數(shù)據(jù)與過去訓(xùn)練模型時(shí)觀察到的數(shù)據(jù)相似時(shí),模型才會(huì)發(fā)揮作用。不僅僅是實(shí)施,解釋也可能有偏差。如果我們在追求分析算法輸出的過程中,嘗試疊加我們的信念并支持我們的(有偏差的)觀點(diǎn)會(huì)怎樣。
雖然偏差是我們追求合乎道德的 AI 框架時(shí)需要修正的因素之一,但減輕它肯定不是一件容易的事。構(gòu)建“AI for good”生態(tài)系統(tǒng)的一些重要方面是:- 數(shù)據(jù)收集者、開發(fā)者和產(chǎn)品經(jīng)理一般都是在該領(lǐng)域工作并且更接近數(shù)據(jù)的人。對于組織而言,重要的是要提高員工的敏感度并傳播有關(guān)偏差的可能原因以及如何減輕偏差的意識(shí)。
- 擁有一位擅長識(shí)別偏差來源的專家(AI Ethicist)可以幫助企業(yè)將其愿景與道德框架保持一致。
- 由來自隱私、道德和合規(guī)、產(chǎn)品和工程等不同團(tuán)隊(duì)的人員組成的治理團(tuán)隊(duì)將有助于提供全新的視角來識(shí)別可能被忽視的偏差。
沒有任何一本規(guī)則書可以同時(shí)閱讀和實(shí)施,這永遠(yuǎn)是一個(gè)不斷發(fā)展的框架。此外,值得稱道的是,維護(hù)一個(gè)公正、公平和值得信賴的 AI 框架的努力不再被視為深?yuàn)W的,并在全世界引起了適當(dāng)?shù)年P(guān)注。本文轉(zhuǎn)載來自:https:///handling-data-bias-9775d07991d4
|