【原】SDK 上的 Jetson Nano 圖像基準(zhǔn)測(cè)試(Jetson nano性能測(cè)試)

圖為邊緣計(jì)算 2022-06-20 發(fā)布于廣東

展開(kāi)全文

NVIDIA Jetson Nano 是一款功能強(qiáng)大的小型計(jì)算機(jī)，帶有嵌入式 GPU，可讓您并行運(yùn)行多個(gè)神經(jīng)網(wǎng)絡(luò)，用于圖像分類、對(duì)象檢測(cè)、分割和語(yǔ)音處理等應(yīng)用。

我們已經(jīng)使用 NVIDIA Jetson Nano 開(kāi)發(fā)工具包測(cè)試了來(lái)自 Fastvideo 的圖像和視頻處理 SDK，在這里我們展示了我們針對(duì)特定于相機(jī)應(yīng)用程序的軟件模塊的基準(zhǔn)測(cè)試結(jié)果。

Jetson Nano 性能基準(zhǔn)

NVIDIA Jetson Nano 硬件：四核、4GB RAM、GPU

128 核 Maxwell GPU（用于顯示和計(jì)算）
四核 ARM A57 @ 1.43 GHz（主 CPU）
4 GB LPDDR4（額定 25.6 GB/s）
千兆以太網(wǎng)
4x USB 3.0、USB 2.0 Micro-B（Micro USB 端口可用于 5V 電源輸入和數(shù)據(jù)）
HDMI 2.0 和 eDP 1.4（4K 顯示器支持、HDMI 或顯示端口）
支持 MIPI CSI-2 和 PCIe Gen2 高速 I/O
用于 5V 電源輸入的 DC Barrel 插孔
存儲(chǔ) microSD
尺寸：100 mm × 80 mm × 29 mm（含載板）

視頻編碼和解碼選項(xiàng)

視頻編碼 4K @ 30 fps，4x 用于 1080p @ 30 fps，9x 用于 720p @ 30 fps (H.264/H.265)
視頻解碼 4K @ 60 fps, 2x for 4K @ 30 fps, 8x for 1080p @ 30 fps, 18x for 720p @ 30 fps (H.264/H.265)

Nvidia Jetson Nano 性能基準(zhǔn)

圖. Jetson Nano 開(kāi)發(fā)者套件

用于基準(zhǔn)測(cè)試的硬件和軟件

CPU/GPU NVIDIA Jetson Nano 開(kāi)發(fā)者套件
操作系統(tǒng) L4T (Ubuntu 18.04)
JetPack 4.2 與 CUDA CUDA 工具包 10.2
快視頻 SDK 0.17.1

Jetson Nano 功耗和電源管理

在 Jetson Nano 硬件中，NVIDIA 使用動(dòng)態(tài)電壓和頻率縮放 (DVFS) 方法。大多數(shù)現(xiàn)代計(jì)算機(jī)硬件都使用該電源管理技術(shù)來(lái)最大限度地節(jié)省電力，其中組件中使用的電壓會(huì)根據(jù)外部條件增加或減少。

Jetson Nano 開(kāi)發(fā)人員套件配置為通過(guò) Micro USB 連接器接受電源。一些 Micro USB 電源設(shè)計(jì)為輸出略高于 5V 的電壓，以解決電纜兩端的電壓損失。關(guān)鍵點(diǎn)是 Jetson Nano 模塊至少需要 4.75V 才能運(yùn)行。建議在 J28 Micro-USB 連接器上使用能夠提供 5V 電壓的電源。

Jetson Nano 還有其他一些電源選項(xiàng)。如果預(yù)計(jì)總負(fù)載將超過(guò) 2A，例如，由于外設(shè)連接到載板或由于高性能計(jì)算任務(wù)，您必須鎖定 J48 電源選擇引腳通過(guò) Micro USB 禁用電源并通過(guò) J25 啟用 5V-4A電源插孔。另一種選擇是通過(guò) J41 擴(kuò)展接頭提供 5V-6A（兩個(gè) 5V 引腳可用于為每個(gè) 3A 的開(kāi)發(fā)人員套件供電）。Jetson Nano 開(kāi)發(fā)人員套件配備了一個(gè)被動(dòng)散熱器，可以安裝一個(gè)風(fēng)扇。如果我們通過(guò) J25 提供超過(guò) 5V（例如 12V）的電壓，那么 Nano 將無(wú)法工作。

Jetson Nano GPU 基準(zhǔn)測(cè)試

圖. Jetson Nano 開(kāi)發(fā)者套件的俯視圖

一般來(lái)說(shuō)，總功耗包括載板、Jetson Nano 模塊和外圍設(shè)備。它由特定的用例決定。在未連接外圍設(shè)備的情況下，載板的功耗在 0.5W（2A 時(shí)）到 1.25W（4A 時(shí)）之間。

Jetson Nano 模塊旨在優(yōu)化電源效率，它支持兩種軟件定義的電源模式。默認(rèn)模式為模塊提供 10W 的功率預(yù)算，另一種為 5W 的預(yù)算。這些電源模式通過(guò)限制 GPU 和 CPU 頻率以及在線 CPU 內(nèi)核的數(shù)量，將模塊限制在接近 10W 或 5W 的預(yù)算。

根據(jù)使用SDK 進(jìn)行的測(cè)試，Jetson Nano 開(kāi)發(fā)套件在 10W 模式下的正常運(yùn)行需要比 USB 提供的更多功率（5V 和 2A）。USB 供電的 Jetson Nano 無(wú)法在默認(rèn)時(shí)鐘的繁重工作負(fù)載下連續(xù)工作（未應(yīng)用 jetson_clocks）。它在工作量開(kāi)始后 30-60 秒內(nèi)掛斷。這似乎是由于載板和其他外圍設(shè)備的功耗。USB 供電的 Jetson Nano 在 5W 模式下完美運(yùn)行，但性能較差。

據(jù)我們了解，通過(guò)為 Jetson Nano 提供更多電力可以獲得更好的性能。

為了管理 NVIDIA Jetson Nano 的速度和功耗，我們使用nvpmodel -m0和jetson_clocks來(lái)獲得最佳性能。

適用于相機(jī)應(yīng)用的 Jetson Nano 基準(zhǔn)性能

我們測(cè)量了每個(gè)圖像處理模塊的 GPU 內(nèi)核時(shí)間，以了解它在 Jetson Nano 上的執(zhí)行速度。這是評(píng)估從SDK 中選擇的一組模塊的總時(shí)間的方法。如果某些模塊的性能取決于圖像內(nèi)容，您可以請(qǐng)求適用于 NVIDIA Jetson Nano（或任何其他 NVIDIA GPU）的SDK 進(jìn)行評(píng)估并繼續(xù)進(jìn)行您自己的測(cè)試。

CUDA 初始化和 GPU 內(nèi)存緩沖區(qū)分配不包括在基準(zhǔn)測(cè)試中。在測(cè)量之前，所以它不會(huì)影響 GPU 性能。

為了測(cè)試，我們使用了 2K 原始圖像（1920×1080，8 位）和 4K 原始圖像（3840×2160，8 位），盡管所有計(jì)算都是以 16 位精度進(jìn)行的。在 JPEG 壓縮之前，我們已將每通道 16 位數(shù)據(jù)轉(zhuǎn)換為 8 位以符合 JPEG 標(biāo)準(zhǔn)。JPEG2000 壓縮基準(zhǔn)是針對(duì)具有 4:4:4 子采樣的 24 位圖像測(cè)量的。

我們用灰色標(biāo)記了表格中的那些行，這些行包含在 2K 和 4K 分辨率的相機(jī)應(yīng)用程序的最簡(jiǎn)單圖像處理管道中。該管道包括主機(jī)到設(shè)備傳輸、白平衡、HQLI Debayer、色彩校正、伽瑪、JPEG 壓縮、設(shè)備到主機(jī)傳輸。在每個(gè)表的最后一行中，我們顯示了以 ms 為單位的總 GPU 內(nèi)核時(shí)間、以 MB/s 為單位的性能以及管道實(shí)現(xiàn)的 FPS。

表 1. 2K 原始圖像處理（1920×1080，8 位）的 Jetson Nano 性能基準(zhǔn)

算法和參數(shù)	內(nèi)核時(shí)間，毫秒	性能，MB/s	每秒幀數(shù)
白平衡	0.6	6,500	1,660
HQLI 德拜爾	1.8	2,200	550
DFPD德拜爾	4.7	850	212
MG德拜爾	12.7	315	78
使用 3×4 矩陣進(jìn)行色彩校正	1.7	7,000	588
從 2K 調(diào)整到 960×540	10.0	600	100
將大小從 2K 調(diào)整為 1919×1079	19.8	303	50
伽瑪 (1920×1080)	1.4	8,500	710
JPEG 編碼 (1920×1080, 90%, 4:2:0)	4.3	1,400	230
JPEG 編碼 (1920×1080, 90%, 4:4:4)	6.8	880	147
JPEG2000 編碼（有損，32×32，單模）	81	74	12
JPEG2000 編碼（無(wú)損，32×32，單模）	190	31	5
相機(jī)應(yīng)用總計(jì)	9.8	204	102

在現(xiàn)實(shí)生活中的相機(jī)應(yīng)用中，有可能通過(guò)使用Jetson 零拷貝來(lái)消除主機(jī)到設(shè)備的拷貝。在這種情況下，來(lái)自相機(jī)的圖像通過(guò) DMA 直接寫(xiě)入系統(tǒng)內(nèi)存中的固定緩沖區(qū)。CPU 和 GPU 都可以訪問(wèn)固定緩沖區(qū)。作為其他選項(xiàng)，可以通過(guò)在多線程應(yīng)用程序中重疊數(shù)據(jù)傳輸和計(jì)算來(lái)隱藏設(shè)備到主機(jī)的復(fù)制。Jetson Nano 可以使用 1 個(gè)復(fù)制引擎進(jìn)行并發(fā)復(fù)制和內(nèi)核執(zhí)行。

我們可以看到，對(duì)于 NVIDIA Jetson Nano 上最簡(jiǎn)單的 2K 圖像處理管道，我們可以達(dá)到 100 fps 的性能。如果我們通過(guò)基于硬件的解決方案（而不是基于 CUDA 的 Motion JPEG 編碼）對(duì)同一管道使用 H.264 編碼，由于 H.264 編碼器對(duì) 2K 分辨率的限制，可能性能會(huì)更差。

表 2. Jetson Nano 4K 原始圖像處理的性能基準(zhǔn)（3840×2160，8 位）

算法和參數(shù)	內(nèi)核時(shí)間，毫秒	性能，MB/s	每秒幀數(shù)
白平衡	2.2	7,200	455
HQLI 德拜爾	7.1	2,250	141
DFPD德拜爾	18.2	880	55
MG德拜爾	50.3	318	20
使用 3×4 矩陣進(jìn)行色彩校正	6.9	7,000	145
從 4K 調(diào)整到 1920×1080	39.4	610	25
從 4K 調(diào)整到 3839×2159	77.9	308	12
伽瑪 (3840×2160)	5.7	8,400	175
JPEG 編碼 (3840×2160, 90%, 4:2:0)	17.1	1,400	58
JPEG 編碼 (3840×2160, 90%, 4:4:4)	27.3	880	36
JPEG2000 編碼（有損，32×32，單模）	309	77	3
JPEG2000 編碼（無(wú)損，32×32，單模）	620	38	1.6
相機(jī)應(yīng)用總計(jì)	32.1	248	31

NVIDIA Jetson Nano 上用于 4K RAW 圖像的相同圖像處理管道可以為我們帶來(lái) 30 fps 的性能。如果我們通過(guò)基于硬件的解決方案使用 H.264 編碼（而不是 GPU 上的JPEG或MJPEG），我們?nèi)匀坏玫讲怀^(guò) 30 fps，這是 H.264 編碼器在 4K 分辨率下的最大值，但 GPU 占用率情況會(huì)更少。

我們可以看到 Jetson Nano 在相機(jī)應(yīng)用中對(duì)圖像處理有足夠的性能。對(duì)于高達(dá) 4K 的分辨率，我們可以獲得使用 JPEG 或 H.264 壓縮將RAW 轉(zhuǎn)換為 RGB的實(shí)時(shí)性能。