為什麼自動駕駛汽車不需要鐳射雷達？

2021-07-03 03:09:30

開發和生產自動駕駛汽車所需的技術是什麼?生產商和研究機構對這個問題的答案存在著一些分歧。自動駕駛的方法範圍從攝像頭和計算機視覺的組合發展到計算機視覺和先進感測器的組合。

特斯拉公司一直是基於視覺的自動駕駛方法的擁護者，在今年的計算機視覺和模式識別會議(CVPR)上，該公司首席人工智慧科學家Andrej Karpathy解釋了採用這一方法的原因。

在CVPR2021自動駕駛技術研討會上，領導特斯拉公司自動駕駛技術開發工作的Karpathy詳細介紹了該公司如何開發只需要視訊輸入就可以瞭解汽車的周圍環境的深度學習系統。其技術通過視覺神經網路非常準確估計汽車之間距離、速度和加速度。其必要的技術包括：龐大的車隊資料引擎、強大的人工智慧團隊和超級計算機。他還對為什麼特斯拉公司在實現基於視覺的自動駕駛汽車方面處於行業領先地位進行了解釋。

通用計算機視覺系統

深度神經網路是自動駕駛技術堆棧的主要組成部分之一。神經網路通過車載攝像頭來分析道路、標誌、汽車、障礙物和人員的資訊。

但是深度學習在檢測影象中的物件時也會出錯。這就是為什麼大多數自動駕駛汽車公司(其中包括Alphabet的子公司Waymo公司)使用鐳射雷達的原因，鐳射雷達是一種通過向各個方向發射鐳射束來創建汽車周圍3D影象的裝置，可以提供填補神經網路空白的補充資訊。

然而，將鐳射雷達新增到自動駕駛技術堆棧會帶來其自身的複雜性。Karpathy說，「這樣的自動駕駛技術必須採用鐳射雷達預先繪製環境地圖，然後必須創建高清地圖，需要輸入所有車道及其連線方式以及所有交通燈的資訊。而在測試時，只需定位到該地圖即可放心行駛。」

但是，創建自動駕駛汽車將要行駛的每個位置的精確地圖是極其困難的。Karpathy說，「收集、構建和維護這些高清鐳射雷達地圖是很困難，而讓這一基礎設施保持最新狀態將是極其困難的。」

特斯拉公司因此在其自動駕駛技術堆棧中沒有使用鐳射雷達和高清地圖技術。他說，「我們根據圍繞汽車的8個攝像頭拍攝的視訊資訊，可以在車內處理一切事務。」

自動駕駛技術必須弄清楚車道在哪裡，交通燈在哪裡，交通燈的狀態是什麼，以及哪些資訊與車輛相關。而且它必須做到這一切，而不需要獲得任何關於其導航的道路的預定義資訊。

Karpathy承認，基於視覺的自動駕駛在技術上更加困難，因為它需要採用神經網路技術，而神經網路僅基於視訊訊號就能發揮難以置信的良好功能。他說，「但是一旦真正讓它工作起來，它就是一個通用的視覺系統，可以部署在地球上的任何地方。」

使用通用視覺系統，自動駕駛汽車將不再需要任何輔助裝備。Karpathy表示，特斯拉公司已經在朝著這個方向前進。在此之前，該公司的自動駕駛汽車使用鐳射雷達和攝像頭的組合進行自動駕駛，但該公司已經開始銷售不再採用鐳射雷達的汽車。

Karpathy說，「我們刪除了鐳射雷達，新推出的自動駕駛汽車只靠視覺駕駛。」他補充說，其原因是特斯拉公司的深度學習系統的效能已經遠遠超出了鐳射雷達，現在採用鐳射雷達反而阻礙其技術發展。

監督學習

而反對純粹計算機視覺方法的主要論點是，在沒有鐳射雷達深度影象技術的情況下，神經網路是否可以進行測距和估計距離仍存在不確定性。

Karpathy說：「顯然，人類在駕駛時主要依賴視覺，所以人類的神經網路能夠處理視覺輸入，以瞭解汽車周圍物體的距離和速度。但最大的問題是我們開發的神經網路能否做到同樣的事情。我們一直在努力解決這個問題，我們對於這個問題的回答是肯定的。」

特斯拉公司的工程師為此創建一個深度學習系統，該系統可以檢測物體以及距離、速度和加速度。他們將挑戰視為一個監督學習問題，其中神經網路在對帶註釋的資料進行訓練之後學習檢測物件及其相關屬性。

為了訓練他們的深度學習架構，特斯拉公司的研發團隊需要一個包含數百萬個視訊的海量資料集，並用它們包含的物件及其屬性仔細註釋。而為自動駕駛汽車創建資料集特別棘手，技術工程師必須確保包含不經常發生的各種道路狀況和路邊情況。

Karpathy說，「當擁有一個龐大、乾淨、多樣化的資料集，並在其上訓練一個大型神經網路時，在實踐中獲得成功才是有保證的。」

自動標記資料集

特斯拉公司在全球銷售了數百萬輛配備攝像頭的汽車，因此在收集訓練汽車視覺深度學習模型所需的資料方面處於有利地位。特斯拉公司自動駕駛技術開發團隊積累了1.5PB的資料，其中包括100萬個10秒視訊和60億個用邊界框、深度和速度標註的物件。

但是標記這樣的資料集是一個巨大的挑戰。一種方法是通過資料標記公司或Amazon Turk等線上平臺對其進行人工註釋。但這需要大量的人工工作，可能會花費更多費用，並且其過程非常緩慢。

與其相反，特斯拉公司的開發團隊使用了一種自動標記技術，該技術涉及神經網路、雷達資料和人工審查的組合。由於資料集是離線註釋的，其神經網路可以反覆運行視訊，將它們的預測與真實情況進行比較，並調整它們的參數。這與測試時間推理形成對比，而在測試時間推理中，一切都是實時發生的，深度學習模型無法追蹤。

離線標記還使技術工程師能夠應用非常強大且計算密集型的物件檢測網路，這些網路無法部署在汽車上並用於實時、低延遲的應用程式。他們使用鐳射雷達感測器資料來進一步驗證神經網路的推論。所有這些都提高了標記網路的精度。

Karpathy說，「如果處於離線狀態，可以獲得事後分析的好處，因此可以更好地冷靜地融合不同的感測器資料。此外，可以讓人類參與進來，他們可以進行清理、驗證、編輯等工作。」

根據Karpathy在CVPR研討會上展示的視訊，物件檢測網路在通過碎片、灰塵和雪雲環境的表現保持一致。

特斯拉公司的神經網路可以在各種能見度條件下始終如一地檢測出現的物體。

Karpathy並沒有說明對自動標記系統進行最終修正需要多少工作量。但人類認知在引導自動標記系統朝著正確方向發展方面發揮了關鍵作用。

在開發資料集的過程中，特斯拉公司的開發團隊開發了200多個觸發器，並對物件檢測進行不斷調整。其中包括諸如不同攝像頭的檢測結果之間或攝像頭與鐳射雷達之間的不一致等問題。他們還確定了需要特別注意的場景，例如隧道入口和出口以及特殊種類的汽車。

開發和掌握所有這些觸發器花了四個月的時間。隨著標記網路變得越來好，它以「影子模式」部署，這意味著它安裝在自動駕駛車輛中並靜默運行，無需向汽車發出命令。將網路的輸出與傳統網路、鐳射雷達和駕駛員行為的輸出進行比較。

特斯拉公司的開發團隊經歷了七次資料工程迭代。他們從一個初始資料集開始，在該資料集上訓練神經網路。然後，他們在真實汽車上以影子模式部署深度學習，並使用觸發器來檢測不一致、錯誤和特殊場景。然後再進行修改以糾正錯誤，並在必要時將新資料新增到資料集中。

Karpathy說，「我們一遍又一遍地進行修改和調整，直到神經網路變得非常好為止。」

因此，該架構可以更好地描述為具有巧妙分工的半自動標記系統，其中神經網路執行重複性工作，工作人員處理高階認知問題和極端情況。

有趣的是，當一位與會者問Karpathy是否可以自動生成觸發器時，他說，「生成自動化觸發器是一個非常棘手的場景，因為可以擁有通用觸發器，但它們並不會正確表示錯誤模式。例如，很難自動觸發進入和退出隧道的觸發器。而作為人類是靠自己的直覺處理，這是一個挑戰......目前尚不清楚這將如何運作。」

分層深度學習架構

特斯拉的自動駕駛開發團隊需要一個非常高效且設計精良的神經網路，以充分利用他們收集的高質量資料集。

該公司創建了一個分層深度學習架構，由不同的神經網路組成，這些神經網路處理資訊並將其輸出結果提供給下一組網路。

深度學習模型使用卷積神經網路從安裝在汽車周圍的8個攝像頭的視訊中提取特徵，並使用神經網路將它們融合在一起。然後將它們跨時間進行融合，這對於行進軌跡預測和平滑推理不一致性等任務非常重要。然後將空間和時間特徵輸入到神經網路的分支結構中，Karpathy將其描述為頭部、軀幹和終端。

Karpathy說：「採用這種分支結構的原因是因為輸出結果的數量巨大，而且不能為每個輸出都配備一個單一的神經網路。」

層次結構可以為不同的任務重用元件，並在不同的推理路徑之間實現特徵共享。網路模組化架構的另一個好處是分散式開發的可能性。特斯拉公司目前僱傭的機器學習工程師團隊致力於自動駕駛神經網路的研究。他們每個人都開發神經網路的一個小元件，並將開發結果插入到更大的神經網路中。

Karpathy說，「我們的開發團隊大約有20人，他們正在全身心地訓練神經網路。」

垂直整合

在計算機視覺和模式識別會議(CVPR)的演講中，Karpathy分享了有關特斯拉公司用來訓練和微調其深度學習模型的超級計算機的一些細節。

其計算叢集由80個節點組成，每個節點包含8個具有80GB視訊記憶體的Nvidia A100 GPU，總計採用5,760個GPU和超過450TB的記憶體。這臺超級計算機還擁有10PB的NVME超高速儲存和640tbps的網路容量，可以連線所有節點，並允許對神經網路進行高效的分散式訓練。

Karpathy說：「特斯拉公司還擁有並製造安裝在其汽車內的人工智慧晶片。這些晶片是專門為神經網路設計的，我們希望它能用於全自動駕駛應用。」

特斯拉公司的一大優勢在於其垂直整合的特性。特斯拉公司擁有整個自動駕駛汽車技術堆棧，該公司生產電動汽車和用於自動駕駛功能的硬體。它處於獨特的位置，可以從已銷售的數百萬輛汽車中收集各種遙測和視訊資料。該公司還在其專有資料集、其特殊的內部計算叢集上創建和訓練其神經網路，並通過對其汽車的影子測試來驗證和微調這些神經網路。當然，該公司還擁有一支由機器學習工程師、研究人員和硬體設計師組成的才華橫溢的團隊，可以將所有部分組合在一起。

Karpathy說，「我們可以在該堆棧的所有層進行協同設計和工程，並且沒有第三方的干涉，可以完全掌握自己的命運，我認為這太不可思議了。」

這種創建資料、調整機器學習模型並將其部署在許多汽車上的垂直整合和重複迴圈，使特斯拉公司處於實現視覺自動駕駛汽車功能的獨特市場位置。Karpathy在其演講中展示了幾個示例，其中新的神經網路的效能超過了與鐳射雷達資訊結合使用的傳統機器學習模型。

正如Karpathy所說，如果這個系統繼續改進，特斯拉公司可能會走上淘汰鐳射雷達的道路，而且現在沒有其他公司能夠複製特斯拉公司的方法。

有待解決的一些問題

但仍然有一些沒有解決的問題，例如，深度學習在目前的狀態下能否克服自動駕駛的所有挑戰?當然，物件檢測以及速度和範圍估計在駕駛中起著重要作用。但是人類視覺還執行許多其他複雜的功能，科學家將其稱為視覺的「暗物質」。這些都是對不同環境的視覺輸入和導航進行有意識和潛意識分析的重要組成部分。

深度學習模型也難以做出因果推斷，當模型面臨他們以前從未見過的新情況時，這可能是一個巨大的障礙。因此，雖然特斯拉公司設法創建了一個非常龐大和多樣化的資料集，但開放的道路也是非常複雜的環境，新的和不可預測的事情隨時可能發生。

人工智慧社群在是否需要將因果關係和推理明確整合到深度神經網路中，或者是否可以通過「直接擬合」克服因果關係障礙的問題上存在分歧，在這種情況下，大型且分佈良好的資料集足以達到通用深度學習的水平。特斯拉公司基於視覺的自動駕駛團隊似乎更喜歡後者(儘管他們完全控制技術堆棧，但在未來將會嘗試採用新的神經網路架構)。而這項技術能否經受時間的考驗，人們將拭目以待。