該系統(tǒng)在無人駕駛汽車上路前對其進行模擬訓練

2020-04-04 10:59:36 編輯：來源：

導讀麻省理工學院發(fā)明了一種模擬系統(tǒng)來訓練無人駕駛汽車，創(chuàng)造了一個具有無限轉向可能性的真實世界，幫助汽車在巡航到真正的街道之前學會導航一系列更糟糕的場景。自動駕駛車輛的控制系統(tǒng)或“控制器”在很大程度上依賴于來自人類駕駛員的駕駛軌跡的真實世界數(shù)據集。從這些數(shù)據中，他們學習如何在各種情況下模擬安全轉向控制。但不幸的是，來自危險的“邊緣案例”的真實數(shù)據，如幾乎崩潰或被迫離開道路或進入其他車道，都是真實的

麻省理工學院發(fā)明了一種模擬系統(tǒng)來訓練無人駕駛汽車，創(chuàng)造了一個具有無限轉向可能性的真實世界，幫助汽車在巡航到真正的街道之前學會導航一系列更糟糕的場景。

自動駕駛車輛的控制系統(tǒng)或“控制器”在很大程度上依賴于來自人類駕駛員的駕駛軌跡的真實世界數(shù)據集。從這些數(shù)據中，他們學習如何在各種情況下模擬安全轉向控制。但不幸的是，來自危險的“邊緣案例”的真實數(shù)據，如幾乎崩潰或被迫離開道路或進入其他車道，都是真實的。

一些計算機程序，稱為“模擬引擎”，旨在通過繪制詳細的虛擬道路來模擬這些情況，以幫助訓練控制器恢復。但是，從模擬中學到的控制從來沒有被證明是在一輛全面的車輛上轉移到現(xiàn)實中的。

麻省理工學院的研究人員用他們的真實感模擬器來解決這個問題，稱為虛擬圖像合成和自治轉換(VISTA)。它只使用一個小數(shù)據集，由駕駛在道路上的人捕獲，從車輛在現(xiàn)實世界中可以接受的軌跡合成幾乎無限多的新觀點。控制器是獎勵它旅行的距離而不崩潰，所以它必須自己學習如何安全到達目的地。在這樣做的過程中，車輛學會安全地駕駛它遇到的任何情況，包括在車道之間轉彎或從近車中恢復控制。

在測試中，在VISTA模擬器中訓練的控制器能夠安全地部署到一輛全面的無人駕駛汽車上，并在以前看不見的街道上導航。在將汽車定位在模擬各種近碰撞情況的越野方向時，控制器還能夠在幾秒鐘內成功地將汽車恢復到安全的駕駛軌跡。一篇描述該系統(tǒng)的論文已發(fā)表在IEEE機器人和自動化信函中，并將在即將于5月舉行的ICRA會議上發(fā)表。

第一作者亞歷山大·阿米尼(AlexanderAmini)說：“在這些邊緣情況下，很難收集到人類在這條路上沒有經歷過的數(shù)據。計算機科學和人工智能實驗室(CSA IL)的D.名學生。 “然而，在我們的模擬中，控制系統(tǒng)可以經歷這些情況，學會從這些情況中恢復過來，并在部署到現(xiàn)實世界中的車輛時保持強勁。

這項工作是與豐田研究所合作完成的。參加論文的有：CSAIL博士后Igor Gilitschenski；CSAIL和電氣工程和計算機科學系的所有本科生Jacob Phillips、Julia Moseyko和Rohan Banerjee；航空和航天副教授Sertac Karaman；CSAIL主任Daniela Rus以及電氣工程和計算機科學Andrew和Erna Viterbi教授。

數(shù)據驅動的模擬

從歷史上看，建造用于訓練和測試自動駕駛汽車的模擬引擎在很大程度上是一項手工任務。公司和大學經常雇用藝術家和工程師團隊來描繪虛擬環(huán)境，在樹上有準確的道路標記、車道，甚至詳細的樹葉。一些發(fā)動機還可以結合汽車與環(huán)境相互作用的物理，基于復雜的數(shù)學模型。

但是，由于在復雜的現(xiàn)實世界環(huán)境中有許多不同的東西需要考慮，所以實際上不可能將所有東西都集成到模擬器中。由于這個原因，控制器在模擬中學到的東西和它們在現(xiàn)實世界中的操作方式之間通常是不匹配的。

相反，麻省理工學院的研究人員創(chuàng)造了一個他們稱之為“數(shù)據驅動”的模擬引擎，它從真實數(shù)據中綜合出與道路外觀一致的新軌跡，以及場景中所有物體的距離和運動。

他們首先從一個開車沿著幾條路行駛的人那里收集視頻數(shù)據，并將其輸入發(fā)動機。對于每個幀，引擎將每個像素投影成一種三維點云。然后，他們在那個世界里放置了一輛虛擬車輛。當車輛發(fā)出轉向命令時，發(fā)動機通過點云合成一個新的軌跡，基于轉向曲線和車輛的方向和速度。

然后，引擎使用新的軌跡來渲染一個真實的場景。為此，它使用一個卷積神經網絡-通常用于圖像處理任務-來估計深度地圖，其中包含與控制器觀點的對象距離有關的信息。然后，它結合深度圖與一種技術，估計相機的方向在三維場景。這一切都有助于確定車輛的位置和相對距離的一切虛擬模擬器。

基于這些信息，它重新調整原始像素，從車輛的新觀點重新創(chuàng)建世界的三維表示。它還跟蹤像素的運動，以捕捉汽車和人的運動，以及其他運動物體，在場景中。 Rus說：“這相當于為車輛提供無限數(shù)量的可能軌跡?！?因為當我們收集物理數(shù)據時，我們從汽車將遵循的特定軌跡中得到數(shù)據。但我們可以修改這個軌跡來涵蓋所有可能的駕駛方式和環(huán)境。這真的很強大。“

從零開始強化學習

傳統(tǒng)上，研究人員一直在通過遵循人類定義的駕駛規(guī)則或試圖模仿人類司機來訓練自主車輛。但是，研究人員使他們的控制器在一個“端到端”的框架下從零開始學習，這意味著它只作為原始傳感器數(shù)據的輸入-比如道路的視覺觀察-并且從這些數(shù)據中預測輸出時的轉向命令。

“我們基本上說，”這是一個環(huán)境。你想做什么就做什么。阿米尼說：“別撞在車上，呆在車道里?！?/p>

這就需要“強化學習”(RL)，這是一種試錯機器學習技術，在汽車出錯時提供反饋信號。在研究人員的模擬引擎中，控制器從不知道如何駕駛、車道標記是什么，甚至其他車輛看起來是什么開始，所以它開始執(zhí)行隨機轉向角。只有當它崩潰時，它才會得到反饋信號。此時，它被傳送到一個新的模擬位置，并必須執(zhí)行一組更好的轉向角度，以避免再次崩潰。超過10到15個小時的訓練，它使用這些稀疏反饋信號來學習旅行更大和更大的距離而不崩潰。

在模擬成功駕駛10000公里后，作者將學習控制器應用于現(xiàn)實世界中的全尺寸自主車輛上。研究人員說，這是第一次在模擬中使用端到端強化學習訓練的控制器成功地部署到一輛全面的自動駕駛汽車上。 ”“這讓我們很驚訝。阿米尼說：“不僅控制器以前從未在真正的汽車上使用過，而且它以前也從未見過道路，對人類如何駕駛也一無所知?！?/p>

迫使控制器在所有類型的駕駛場景中運行，使它能夠從迷失的位置重新獲得控制-例如半離路或進入另一條車道-并在幾秒鐘內轉向正確的車道。阿米尼說：“其他最先進的控制器都不幸地失敗了，因為他們在訓練中從來沒有看到過這樣的數(shù)據?！?/p>

接下來，研究人員希望從一個單一的駕駛軌跡模擬所有類型的道路條件，如夜間和白天，以及晴天和雨天。他們還希望模擬與道路上其他車輛更復雜的相互作用。 “如果其他汽車開始在車輛前面移動和跳躍呢？” 拉斯說。 “這些是我們想要開始測試的復雜的、真實的交互。”