日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

為什么圖像處理如此困難

 西北望msm66g9f 2021-09-15
新機(jī)器視覺(jué)
最前沿的機(jī)器視覺(jué)與計(jì)算機(jī)視覺(jué)技術(shù)
206篇原創(chuàng)內(nèi)容
公眾號(hào)
來(lái)源 | 小白學(xué)視覺(jué)

常會(huì)有人問(wèn)“圖像處理中的開(kāi)放的領(lǐng)域是什么?

在圖像處理/計(jì)算機(jī)視覺(jué)方面,一切仍然是一個(gè)開(kāi)放的研究領(lǐng)域!

但為什么會(huì)這樣呢?你認(rèn)為經(jīng)過(guò)幾十年的研究,我們會(huì)很自然地說(shuō)“這里的問(wèn)題已經(jīng)解決了,讓我們專注于別的事情”。在某種程度上,我們可以這樣說(shuō),但僅適用于狹窄和簡(jiǎn)單的用例(例如,在空的白板上放置紅色勺子),而不是一般的計(jì)算機(jī)視覺(jué)(例如,在所有可能的場(chǎng)景中找到一把紅色的勺子,就像一個(gè)大盒子滿了五顏六色的玩具)。

在我們深入研究我認(rèn)為計(jì)算機(jī)視覺(jué)如此嚴(yán)峻的主要原因之前,我首先需要解釋機(jī)器如何“看到”圖像。當(dāng)我們?nèi)祟愑^看圖像時(shí),我們會(huì)感知物體,人物或景觀。當(dāng)機(jī)器“查看”圖像時(shí),他們看到的只是代表單個(gè)像素的數(shù)字。

一個(gè)例子可以解釋這一點(diǎn)。假設(shè)你有一個(gè)灰度圖像。然后,每個(gè)像素由一個(gè)通常在0到255之間的數(shù)字表示(我在這里抽象壓縮,顏色空間等等),其中0表示黑色(無(wú)顏色),255表示白色(全強(qiáng)度) )。0到255之間的任何一個(gè)都是灰色陰影,如下圖所示。

圖片

因此,對(duì)于要任何獲取圖像內(nèi)容的機(jī)器來(lái)說(shuō),它必須以某種方式處理這些數(shù)字。這正是圖像/視頻處理和計(jì)算機(jī)視覺(jué)的全部 - 處理數(shù)字!

接下來(lái)將從四個(gè)方面來(lái)解釋,解決這個(gè)問(wèn)題非常困難的主要原因。

  1. 數(shù)據(jù)量大

  2. 固有的信息丟失

  3. 伴隨噪音

  4. 理解圖像含義困難

數(shù)據(jù)量大

正如我上面所說(shuō),當(dāng)涉及到圖像時(shí),所有計(jì)算機(jī)都看到數(shù)字...... 很多數(shù)字!許多數(shù)字意味著需要處理的大量數(shù)據(jù)才能被理解。

我們舉一個(gè)例子來(lái)說(shuō)明圖像的數(shù)據(jù)量究竟有多大。如果您具有1920 x 1080分辨率的灰度(黑白)圖像,則表示您的圖像由200萬(wàn)個(gè)數(shù)字(1920 * 1080 = 2,073,600像素)描述?,F(xiàn)在,如果切換到彩色圖像,則需要三倍的數(shù)字,因?yàn)橥ǔG闆r下,當(dāng)您表示彩色像素時(shí),您可以指定它所包含的讀數(shù),藍(lán)色和綠色。然后,如果你試圖分析來(lái)自視頻/攝像機(jī)流的圖像,例如30幀/秒的幀速率(現(xiàn)在是標(biāo)準(zhǔn)的幀速率),你突然處理1.8億個(gè)數(shù)字每秒(3 * 2,073,600 * 30~ = 1.8億像素/秒)。這是需要處理的大量數(shù)據(jù)!即使擁有當(dāng)今功能強(qiáng)大的處理器和相對(duì)較大的內(nèi)存大小,機(jī)器也很難做出有意義的事情,每秒有1.8億個(gè)數(shù)字。

信息丟失

數(shù)字化過(guò)程中的信息丟失是造成計(jì)算機(jī)視覺(jué)難度的另一個(gè)主要因素。圖像處理的本質(zhì)是從3D世界(如果我們處理視頻流中的數(shù)據(jù)則是4D)投影到2D平面(即平面圖像)上獲取信息。這意味著在此過(guò)程中會(huì)丟失大量信息。

我們的大腦可以非常出色的推斷出丟失的數(shù)據(jù)是什么,但是對(duì)于計(jì)算機(jī)來(lái)說(shuō)卻是極其困難的挑戰(zhàn)。下圖顯示的是一個(gè)凌亂的房間

圖片

我們可以很容易地看出,綠色健身球比桌子上的黑色平底鍋更大更遠(yuǎn)。但是如果黑色平底鍋比綠色球占據(jù)更多的像素,機(jī)器應(yīng)該如何推斷呢?這不是一件容易的事。當(dāng)然,我們可以嘗試通過(guò)同時(shí)拍攝兩張照片并從中提取3D信息來(lái)模擬我們用兩只眼睛看到的方式,這被稱為立體視覺(jué)。然而,將圖像拼接在一起也不是一項(xiàng)微不足道的任務(wù),因?yàn)橥瑯邮且粋€(gè)開(kāi)放的研究領(lǐng)域。

伴隨噪聲

數(shù)字化過(guò)程中經(jīng)常伴隨著噪音。例如,沒(méi)有相機(jī)會(huì)拍攝出一個(gè)完美的不含噪聲的現(xiàn)實(shí)圖片,特別是當(dāng)我們用手機(jī)上的相機(jī)進(jìn)行拍照時(shí),他們會(huì)通過(guò)調(diào)整強(qiáng)度等級(jí),色彩飽和度等去嘗試捕捉我們美麗的世界。同時(shí)在圖像拍攝過(guò)程中肯能會(huì)出現(xiàn)“鏡頭光暈”的現(xiàn)象,我們可以輕松的判斷光暈后面是什么場(chǎng)景,而對(duì)于計(jì)算機(jī)來(lái)說(shuō)確實(shí)非常困難的。

圖片

雖然已經(jīng)有很多去除光暈的算法,但是去除光暈的算法本身也是開(kāi)放的領(lǐng)域。

另外,在圖像壓縮的過(guò)程中會(huì)對(duì)圖像降低像素或者變換操作,而這樣的圖片對(duì)于人來(lái)說(shuō)可以輕松的識(shí)別,而對(duì)于計(jì)算機(jī),如果不告訴它壓縮變換的操作,它會(huì)當(dāng)作壓縮后的圖像為原圖像進(jìn)行識(shí)別,從而產(chǎn)生錯(cuò)誤。

圖片

理解圖像含義困難

最后也是最重要的是就是對(duì)圖像內(nèi)容的理解。對(duì)于機(jī)器來(lái)說(shuō),這絕對(duì)是計(jì)算機(jī)視覺(jué)環(huán)境中最難處理的事情。當(dāng)我們觀看圖像時(shí),我們會(huì)用累積的學(xué)習(xí)和記憶(稱為先驗(yàn)知識(shí))來(lái)分析它。

例如,我們知道,我們可以坐在健身球上,而平底鍋通常用在廚房里,因?yàn)檫@些東西我們過(guò)去已經(jīng)了解過(guò)。如果有一些東西看起來(lái)像天空中的平底鍋,很可能它不是平底鍋(除非是紅太狼把打灰太狼的平底鍋扔天上了),因此我們可以進(jìn)一步仔細(xì)檢查,以確定對(duì)象可能是什么(例如飛盤(pán)!)?;蛘呷绻腥藝G球踢球,很可能是小孩子的球而不是健身球。

但機(jī)器沒(méi)有這種知識(shí)。他們不了解我們的世界,不了解其中固有的復(fù)雜性,以及我們?cè)跀?shù)千年的進(jìn)化中創(chuàng)造的眾多工具,商品,設(shè)備等。也許有一天機(jī)器將能夠獲得維基百科并從那里了解有關(guān)對(duì)象的信息,但目前我們離這種情況很遠(yuǎn)。

有些人會(huì)爭(zhēng)辯說(shuō),我們永遠(yuǎn)不會(huì)達(dá)到機(jī)器能夠完全理解我們現(xiàn)實(shí)的階段 - 因?yàn)橐庾R(shí)總是對(duì)他們來(lái)說(shuō)是遙不可及的。

但是在未來(lái)的發(fā)展中誰(shuí)又說(shuō)的好呢。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多