首頁 > 科技

AI總監Karpathy揭祕特斯拉純視覺系統,還有自動駕駛超算Dojo原型

2021-06-23 19:31:35

機器之心報道

編輯:陳萍、小舟

在 2021 年計算機視覺與模式識別大會上,特斯拉 AI 高階總監 Andrej Karpathy 分享了一些特斯拉在過去幾個月中所做的事情,會上 Karpath 闡明瞭特斯拉在自動駕駛領域的重要性,並介紹了該公司的最新超級計算機等相關內容。

在自動駕駛領域,感測器的問題一直分為視覺派和鐳射雷達派。特斯拉 CEO 伊隆 · 馬斯克是堅定的視覺派,他曾多次 diss 鐳射雷達,認為它「很荒唐,註定要失敗」。

近日,在 CVPR 2021 線上自動駕駛研討會(WAD)上,特斯拉人工智慧高階總監 Andrej Karpathy 發表了主題演講,揭祕了特斯拉如何訓練 100% 的純視覺自動駕駛神經網路。

在演講中,Karpathy 談到了特斯拉在過去幾個月中所做的一些事情。首先他闡明瞭特斯拉在自動駕駛領域的重要性,並指出:當前「社會交通方面狀況不佳」,指的是這些由金屬製成的車輛在人類的控制下以高動能快速行駛——或者就像他所描述的:受人肉(Meat computer use in today’s transportation)控制。

此外,Karpathy 還透露了該公司的最新超級計算機。該計算機允許汽車製造商放棄雷達和鐳射雷達等輔助裝置,完全依賴高質量的光學攝像機實現自動駕駛。

Karpathy 闡述了目前交通環境中「人類駕駛員」的幾個簡單事實:

人們通常以 80mph 的速度駕駛重量大約一噸的汽車,可能存在 250ms 的反應延遲,而駕駛員需要轉頭和使用後視鏡來檢視交通狀況,有時他們甚至不能注意力完全集中。此外,調查發現:

全球每天有約 3700 人死於車禍;交通運輸成本較高。

Karpathy 表示:「歸根結底是人本身並不擅長駕駛,會造成一些交通事故。我們希望實現交通自動化,並讓整個人類社會受益。」

他指出,使用計算機晶片代替人類駕駛在安全性和便利性方面都有很多好處:

同樣以 80mph 的速度為例,使用計算機晶片控制駕駛,反應延遲<<100 毫秒,可以進行 360 度的感知,並且「計算機駕駛員」在駕駛過程中是全神貫注的。因此,自動駕駛未來會減少交通事故,並大幅降低交通運輸成本。

特斯拉的獨特之處

Karpathy 進一步闡述了特斯拉在自動駕駛方面的獨特之處:「我們採取循序漸進的方法來實現自動駕駛。特別是我們已經擁有了使用 Autopilot 包的客戶和數百萬輛汽車,Autopilot 軟體一直在運行,並完善了一些保障安全的功能,當然也包括 Autopilot 功能。在我們為客戶提供安全和便利的同時,我們的團隊正在開發完全自動駕駛(Full Self-Driving,FSD)功能。」

Karpathy 在演講中播放了一段演示自動緊急制動的視訊。當司機開過一個十字路口時,一個行人突然出現了。汽車檢測到行人後,目標檢測啟動,猛踩剎車以避免碰撞。

下一個演示是一個交通管制警告的例子,該例子顯示司機分心了,他可能在看手機,沒有因為前面的紅綠燈變紅而剎車。而車子檢測到了紅燈,因此它發出警告聲,司機開始減速。

接下來的兩個視訊是踏板誤踩補救機制 (Pedal Misapplication Mitigation,PMM) 的示例。在第一個示例中,駕駛員正在停車並試圖轉彎。然而,他犯了一個錯誤踩下油門而不是剎車。此時自動駕駛系統啟動,檢測到行人,突然剎車。

Karpathy 展示的最後一個場景是另一個司機試圖停車。司機向右轉,以為在踩剎車然而他踩的是油門,此時系統啟動制動,阻止了事故的發生。

Karpathy 還展示了特斯拉在舊金山自動導航的另一個視訊,並指出他展示了所有的預測——你可以看到的線條和物體,表明系統也看到了相同的東西。

這些都說明計算機控制的自動駕駛能夠比人類駕駛員做得更好,Karpathy 說:「作為工程師,我們當然會推廣自動駕駛,對我們來說,零干預驅動實際上是相當常規的,尤其在人口稀少的地區。」

值得注意的是,特斯拉不同於其他自動駕駛公司,他們採用的是純視覺系統。

視覺 VS 雷達,該選哪一個

「這是一個在十字路口左轉的 Waymo,這個視訊為什麼這麼令人印象深刻?我想強調的一點是,儘管視覺和雷達兩種情況看起來是一樣的——有一輛車在十字路口左轉,但就係統的可擴展性而言,情況卻大不相同。」Karpathy說道。

所以,行業中很多競爭的方法都採用了這種鐳射雷達 + 高清地圖的方法。

Karpathy 解釋說,使用雷達的系統必須用鐳射雷達感測器預先繪製環境地圖,同時還要製作高清地圖。他們還必須插入所有的車道,紅綠燈,在測試時,車輛需要定位到地圖上,以便駕駛。

而特斯拉則不同,Lidar 和高清地圖都不用,專注以相機為主的純視覺感知方案:

雷達感測器已經廣泛地應用在很多乘用車和卡車當中,通過無線電波技術,即便在能見度差的情況下也能檢測快速接近的物體,是為汽車駕駛安全提供保障的感測器之一。但特斯拉公司表示北美市場的 Model 3 和 Model Y 車輛的輔助駕駛 AutoPilot 系統中,將放棄使用雷達感測器,轉而聚焦攝像頭視覺為中心的解決方案。他們將依靠攝像頭視覺系統和神經網路處理來實現「Autopilot、全自動駕駛(FSD)和某些主動安全功能。」

Karpathy 說:「我們採取的方法主要是基於視覺,依靠 8 個環繞車身並能夠覆蓋 360° 的攝像頭。所以我們第一次來到一個十字路口,我們必須弄清楚車道在哪裡,它們如何連線,交通燈在哪裡,哪些是相關的,什麼交通燈控制什麼車道,所有的事情都發生在當下,發生在那輛車上,我們之前並沒有高清地圖等資訊。」

Karpathy 表示這是一種更具可擴展性的方案,基於此他們需要一個能夠預測速度、加速度等資訊的神經網路,首先需要一個滿足以下條件的資料集:

包含數百萬視訊的大型資料集;經過預處理,帶有多種標籤的高質量資料集;該資料集要豐富多樣,包含一些邊緣樣例。

Karpathy 進一步介紹了特斯拉的資料引擎:

最終他們得到了一個包含一百萬條視訊,60 億物件標籤的資料集,該資料集後續還將繼續完善更新。

接下來,研究團隊需要在這個超大型資料集上構建一個神經網路。這個神經網路將是一個通用的視覺系統,原則上可以部署在任何需要的地方。這也是特斯拉研發團隊正在做的事情。

使用上述方案,特斯拉能夠規避「突然減速」問題和基於雷達的系統的訊號中斷,提供平穩的駕駛狀態。

Karpathy 解釋說,特斯拉在過去幾年裡構建的視覺系統非常好,比其他感測器都要好。攝像頭承擔了感知方面的大部分工作,現在特斯拉正在移除一些感測器,因為這些感測器正在成為不必要的輔助。

「三週前,我們開始運送完全沒有雷達的汽車。我們脫離了雷達,只靠視覺駕駛這些車。而我們這樣做的原因,正如伊隆在推特上所表達的,『當雷達和視覺不一致時,你相信哪一個?視覺的精確度要高得多,因此,與其進行感測器融合,不如在視覺方面加大投入。』」

在演講中,Karpathy 還展示了特斯拉完全自動駕駛(FSD)晶片:

此外,Karpathy 還講解了特斯拉的超級計算機叢集,也是特斯拉即將推出的新超級計算機 Dojo 的「先行版本」。特斯拉聲稱該新叢集具有一些相當瘋狂的參數,應該會使其成為全球第五的計算機:

720 個 80GB 8x A100 節點(共 5760 個 GPU);1.8 EFLOPS(720 節點 * 312 TFLOPS-FP16-A100 * 8 gpu / 節點);10 PB「熱層」NVME 儲存 @ 1.6 TBps;總交換容量為 640 Tbps。


IT145.com E-mail:sddin#qq.com