[深度學(xué)習(xí)基礎(chǔ)] 1. 圖像識別問題的挑戰(zhàn)及數(shù)據(jù)驅(qū)動過程

taotao_2016 2018-07-25

展開全文

限時干貨下載：回復(fù)“資料”獲取獲取機(jī)器視覺教程，行業(yè)報告等資源，百度盤群組分享鏈接更新時間：2018-07-15，失效請?jiān)谖哪┝粞?，不要在后臺留言，你也可以在后臺菜單“資源搜索”搜索更多你想要的網(wǎng)盤資源！

來源：https://blog.csdn.net/Hao_Zhang_Vision/article/details/52664757 點(diǎn)擊閱讀原文進(jìn)入

圖像識別任務(wù)面臨著諸多挑戰(zhàn), 這使得它自計(jì)算機(jī)視覺領(lǐng)域1966年誕生以來就成為一個十分活躍的子領(lǐng)域. 本文將簡要討論圖像識別問題的挑戰(zhàn)以及為了應(yīng)對這些挑戰(zhàn)而使用的數(shù)據(jù)驅(qū)動過程.

1. 圖像分類問題的挑戰(zhàn)

雖然從圖像中識別一個對象對人類來說非常的簡單, 但圖像識別對計(jì)算機(jī)來說是一項(xiàng)極具挑戰(zhàn)性的工作. 在計(jì)算機(jī)內(nèi), 圖像是由一個很大三維數(shù)組表示的. 比如一張 1024 * 768 的圖像, 它擁有R, G, B三個分量, 因此, 這張圖像有 1024 * 768 * 3 = 2,359,296 個像素, 每個像素是一個0(黑)到255(白)之間的整數(shù).

這種現(xiàn)象, 稱為語義鴻溝. 圖像分類的任務(wù)是將這兩百萬個數(shù)字映射到一個標(biāo)記, 比如``貓''.

除了語義鴻溝之外, 圖像識別還有其他的一些挑戰(zhàn), 見上圖:

- 視角變化. 一個相同的目標(biāo)相對攝像機(jī)可以有不同的朝向.
- 尺度變化. 不僅是占據(jù)圖像的相對大小, 目標(biāo)在真實(shí)世界的大小也會發(fā)生變化.
- 形變. 許多目標(biāo)并不是剛體, 有時會有很極端的形變.
- 遮擋. 目標(biāo)可能被遮擋, 因此只有一小部分是可見的.
- 光照改變. 光照會對像素值的大小產(chǎn)生巨大的變化.
- 背景融合. 目標(biāo)可能會和背景混為一體, 使得它非常難以被認(rèn)出.
- 類內(nèi)變化. 相同類的不同個體之間可能會變的完全不同.

2. 數(shù)據(jù)驅(qū)動過程

我們該怎樣寫出一個算法對圖像進(jìn)行分類呢? 和寫出一個排序算法不同, 我們不知道如果通過指定一系列識別規(guī)則的方法來識別圖像中的目標(biāo)并且能應(yīng)對上述的這些挑戰(zhàn). 回想我們?nèi)祟惸軐D像內(nèi)容進(jìn)行有效的識別, 是因?yàn)槲覀冎耙呀?jīng)積累了許多經(jīng)驗(yàn), 通過對經(jīng)驗(yàn)的利用, 從而對新情況做出判斷.

在計(jì)算機(jī)系統(tǒng)中, 經(jīng)驗(yàn)通常是以數(shù)據(jù)的形式存在. 我們將提供給計(jì)算機(jī)每個類別的許多實(shí)例(examples), 它們組成了訓(xùn)練集(training set), 利用學(xué)習(xí)算法(learning algorithms)從訓(xùn)練集中產(chǎn)生分類器(classifier)}或模型(model). 在面對新情況時(例如看到一張以前未出現(xiàn)的圖像), 模型會提供相應(yīng)的判斷. 這個過程, 叫做數(shù)據(jù)驅(qū)動過程.

限時干貨下載：回復(fù)“資料”獲取機(jī)器視覺教程，行業(yè)報告等資源。持續(xù)更新中。。。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《計(jì)算機(jī)》

舉報/認(rèn)領(lǐng)