特斯拉全自動駕駛(FSD)計算機及芯片簡介

lafelix 2021-12-08

展開全文

自動駕駛 Autopilot FSD是特斯拉最核心的應用軟件。可以把其軟件收入組成分為三塊，具體而言：

1）Autopilot FSD（Full Self-Driving）完全自動駕駛選裝包。特斯拉著名的自動駕駛的功能，也可以說是特斯拉汽車的靈魂。消費者付費激活后，可以享受到包括自動泊車、自動輔助導航駕駛、智能召喚等在內的高級自動駕駛功能，而且后續(xù)可以通過 OTA 空中軟件持續(xù)升級自動駕駛能力。2020 年 7 月 1 號，其價格已經(jīng)上漲至 8000 美元/套（國內 64000 元/套）。

2) OTA 付費升級。特斯拉此前對于軟件的 OTA 升級基本上是以免費的形式提供的。2019年以來，特斯拉開始積極嘗試 OTA 付費升級。典型案例就是“Acceleration Boost”加速性能升級包。Model 3 車主只要付費 3000 美元，即可將汽車的百公里加速性能從 4.6s 提升到4.1s。

3）高級車聯(lián)網(wǎng)功能。特斯拉從 2019 年 Q4 開始，首度開啟車聯(lián)網(wǎng)高級連接服務收費（9.9美元/月），車主支付了服務費后即可使用實時路況、卡拉 OK、流媒體等高級車聯(lián)網(wǎng)功能。

其中，OTA 付費升級以及高級車聯(lián)網(wǎng)功能兩塊業(yè)務是特斯拉從 2019 年開始逐步發(fā)力的軟件業(yè)務?，F(xiàn)階段，F(xiàn)SD 是特斯拉最核心的應用軟件，其軟件收入也主要由 FSD 選裝包貢獻。

完全自動駕駛芯片（FSD芯片，以前的自動駕駛硬件3.0）是特斯拉設計的自動駕駛芯片，在2019年初為他們自己的汽車推出。特斯拉聲稱，該芯片的目標是自主4級和5級。FSD芯片采用三星的14納米工藝技術制造，集成了3個四核Cortex-A72集群，共有12個CPU，工作頻率為2.2GHz，1個Mali G71 MP12 GPU，2個神經(jīng)處理單元，工作頻率為2GHz，還有其他各種硬件加速器。FSD最多支持128位LPDDR4-4266內存。

FSD芯片的設計和規(guī)劃始于2016年，當時特斯拉聲稱他們沒有看到適合他們解決自動駕駛問題的其他解決方案。FSD芯片項目由吉姆-凱勒和皮特-班農(nóng)以及其他建筑師領導。該設計團隊于2016年2月成立。開發(fā)工作在18個月內完成。2017年8月，該芯片被發(fā)布用于制造，第一批硅片于2017年12月完全工作回來。對設計進行了一些額外的修改，需要重新制作。2018年4月，B0步進被發(fā)布到制造業(yè)。B0的全面生產(chǎn)在2018年7月獲得資格后不久開始。2018年12月，特斯拉開始用新的硬件和軟件堆棧對員工汽車進行改造。2019年3月，特斯拉開始在其Model S和Model X汽車中批量運送FSD芯片和計算機。2019年4月，在特斯拉Model 3中開始生產(chǎn)出貨。

完全自動駕駛芯片或簡稱FSD芯片是特斯拉自制的定制設計的自動駕駛芯片。該芯片自2016年以來一直在開發(fā)，并在2019年初進入量產(chǎn)階段。作為特斯拉現(xiàn)有汽車的升級產(chǎn)品，F(xiàn)SD芯片繼承了先前解決方案的大部分功率和熱要求--包括保持100瓦的最大功耗。由于芯片本身是專門為特斯拉自己的汽車和他們自己的要求設計的，替代性神經(jīng)處理器的大部分通用能力已經(jīng)從FSD芯片中剝離出來，只留下他們需要的硬件設計。

在高層次上，該芯片是一個完整的片上系統(tǒng)，能夠啟動標準的操作系統(tǒng)。它是由三星在德克薩斯州奧斯汀的工廠采用14納米工藝制造的，在260毫米見方的硅片上裝有大約60億個晶體管。FSD芯片符合AEC-Q100-2級汽車質量標準。選擇成熟的14納米節(jié)點而不是更前沿的節(jié)點，歸結為成本和IP準備。有12個64位ARM內核，作為三個四核Cortex-A72內核集群，工作頻率為2.2GHz，用于通用處理。還有相對較輕的GPU，主要設計用于輕量級的后處理。它的工作頻率為1GHz，能夠達到600GFLOPS，支持單精度和雙精度浮點運算。

該芯片具有一個相對低成本的傳統(tǒng)內存子系統(tǒng)，支持128位LPDDR4內存，工作頻率為2133MHz。

安全系統(tǒng)

有一個安全系統(tǒng)，它包含了一個雙核鎖步CPU，對汽車執(zhí)行器進行最終仲裁。這個CPU確定由FSD計算機上的兩個FSD芯片產(chǎn)生的兩個計劃是否匹配，以及驅動執(zhí)行器是否安全（參見§操作）。

安全系統(tǒng)

安全系統(tǒng)的設計是為了確保芯片只執(zhí)行經(jīng)過特斯拉加密簽名的代碼。

相機串行接口

FSD芯片有一個攝像機串行接口（CSI），能夠從各種視頻輸入設備中每秒處理多達25億個像素。

視頻編碼器

FSD芯片集成了一個H.265（HEVC）視頻編碼器，用于各種應用，如倒車攝像頭顯示、儀表盤和云剪輯記錄。

圖像信號處理器

FSD集成了一個圖像信號處理器（ISP），其內部24位流水線旨在處理特斯拉汽車上配備的8個HDR傳感器，能夠每秒處理多達10億個像素。ISP具有色調映射功能，使芯片能夠暴露出由于明/暗點（如陰影）而產(chǎn)生的額外細節(jié)。此外，ISP還具有降噪功能。

神經(jīng)處理單元

FSD芯片集成了兩個定制設計的神經(jīng)處理單元。每個NPU包含32 MiB的SRAM，旨在存儲臨時網(wǎng)絡結果，減少對主存儲器的數(shù)據(jù)移動。整體設計相當簡單明了。每個周期，256字節(jié)的激活數(shù)據(jù)和另外128字節(jié)的權重數(shù)據(jù)從SRAM中讀到MACs陣列中，在那里它們被合并。每個NPU有一個96x96的乘積陣列，總共有9,216個MAC和18,432個操作。對于FSD芯片，特斯拉使用8位乘8位的整數(shù)乘法和32位整數(shù)加法。對這兩種數(shù)據(jù)類型的選擇主要是由于他們努力降低功耗（例如，32位FP加法的功耗大約是32位整數(shù)加法的9倍）。在2GHz下運行，每個NPU的峰值性能為每秒36.86萬億次運算（TOPS）。每塊芯片上有兩個NPU，F(xiàn)SD芯片的綜合峰值性能可達每秒73.7萬億次運算。在點乘操作之后，數(shù)據(jù)被轉移到激活硬件、池化硬件，最后進入?yún)R總結果的寫緩沖器。FSD支持多種激活功能，包括整流線性單元（ReLU）、Sigmoid線性單元（SiLU）和TanH。每個周期，128字節(jié)的結果數(shù)據(jù)被寫回SRAM。所有的操作都是同時和連續(xù)進行的，重復進行直到完成整個網(wǎng)絡。

一些硬件已經(jīng)被簡化，這就把復雜性放到了軟件上。這樣做是為了降低硅的成本，以支持稍微復雜的軟件。軟件可以映射和分配單個SRAM庫。在特斯拉的NN編譯器的幫助下，還可以進行層融合，通過耦合conv-scale-act-pooling操作來實現(xiàn)數(shù)據(jù)重用。編譯器還執(zhí)行層平滑，確保一致的內存訪問，添加旨在減少庫沖突的通道填充，并插入DMA操作以在使用前預取數(shù)據(jù)。在代碼生成過程中，權重數(shù)據(jù)被生成，代碼被壓縮，并生成一個CRC校驗以保證可靠性。

在正常操作下，神經(jīng)網(wǎng)絡程序在啟動時被加載，并在芯片通電的整個過程中保持在內存中。運行是通過設置輸入緩沖區(qū)地址（如新拍攝的圖像傳感器照片），設置輸出緩沖區(qū)地址，和權重緩沖區(qū)地址（如網(wǎng)絡權重），設置程序地址，然后運行。NPU會異步地自行運行整個神經(jīng)網(wǎng)絡模型，直到達到停止指令，觸發(fā)中斷，讓CPU對結果進行后處理。

FSD計算機的設計是為了加裝到現(xiàn)有的特斯拉車型上，因此在外形尺寸和I/O方面基本相同。計算機本身正好可以放在汽車手套箱的后面。FSD計算機可以由技術人員安裝在與先前的自動駕駛硬件2.5板相同的插槽中。板子本身包含了兩個完全獨立的FSD芯片，以及它們自己的電源子系統(tǒng)、DRAM和閃存，以實現(xiàn)完全冗余。每個芯片從自己的存儲存儲器啟動，并運行自己的獨立操作系統(tǒng)。在板子的右邊（如下圖所示）是八個攝像頭的連接器。電源和控制裝置在電路板的左側。該板位于兩個獨立的電源上--一個用于FSD芯片，一個用于另一個。此外，一半的攝像機位于一個電源上，另一半位于第二個電源上（注意，視頻輸入本身是由兩個芯片接收的）。冗余的設計是為了確保在一個組件，如攝像機流或電源或板上的一些其他IC壞了的情況下，整個系統(tǒng)可以繼續(xù)正常運行。

操作

當通電并啟動時，感官輸入從各種來源輸入到電路板。其中包括當前的汽車讀數(shù)，如慣性測量單元（IMU）、雷達、GPS、超聲波傳感器、車輪轉速、轉向角和地圖數(shù)據(jù)。有8個外部視覺攝像頭（在某些車輛上有1個內部攝像頭）和12個超聲波傳感器。數(shù)據(jù)同時被送入兩個FSD芯片進行處理。這兩個芯片獨立形成汽車的未來計劃--汽車接下來應該做什么的詳細計劃。然后，來自兩個芯片的兩個獨立的計劃被發(fā)送到安全系統(tǒng)，安全系統(tǒng)對它們進行比較，以確保達成一致。一旦來自兩個芯片的兩個計劃在計算的計劃上達成一致，汽車就可以繼續(xù)前進并按照該計劃行動（即操作執(zhí)行器）。然后，驅動命令被驗證，感覺信息被用作反饋，以確保命令執(zhí)行了所需的操作。整個操作循環(huán)以高幀率連續(xù)運行。

功耗

運行完整的軟件堆棧，F(xiàn)SD計算機耗散了72W。這比之前的解決方案HW2.5所耗散的57瓦特多了大約25%。在這72瓦中，包括由NPU耗散的15瓦。與HW2.5相比，運行確切的軟件堆棧和傳感器，特斯拉報告說每秒的幀數(shù)提高了21倍。