您的位置: 首頁 >汽車 >

第一個白盒測試模型在自動駕駛汽車中發(fā)現了數千個錯誤

2019-06-24 15:34:13 編輯: 來源:
導讀 如何在黑匣子中找到系統中的錯誤?這是完善深度學習系統(如自動駕駛汽車)背后的挑戰(zhàn)之一。深度學習系統基于以人腦為模型的人工神經網絡,神

如何在黑匣子中找到系統中的錯誤?這是完善深度學習系統(如自動駕駛汽車)背后的挑戰(zhàn)之一。深度學習系統基于以人腦為模型的人工神經網絡,神經元像網狀物一樣連接在一起。這種類似網絡的神經結構使機器能夠以非線性方法處理數據 - 基本上是通過所謂的訓練數據來教導自己分析信息。

當輸入在被“訓練”之后呈現給系統時 - 就像呈現給自動駕駛汽車平臺的典型雙車道公路的圖像 - 系統通過其復雜邏輯系統運行分析來識別它。這個過程主要發(fā)生在一個黑盒子里,并沒有被包括系統創(chuàng)建者在內的任何人完全理解。

任何錯誤也會出現在黑匣子中,因此難以識別并修復它們。這種不透明性對識別角落案例行為提出了特殊挑戰(zhàn)。拐角情況是在正常操作參數之外發(fā)生的事件。角落案例:自動駕駛汽車系統可能被編程為在大多數情況下識別雙車道高速公路中的曲線。但是,如果照明比正常情況更低或更亮,系統可能無法識別它并且可能發(fā)生錯誤。最近的一個例子是2016年特斯拉墜毀事故的部分原因......

Lehigh大學的Yinzhi Cao和哥倫比亞大學的Junfeng Yang和Suman Jana以及哥倫比亞大學的博士學位將光線投射到深度學習系統的黑匣子中。學生Kexin Pei已經使用DeepXplore實現了這項系統的首次自動化白盒測試。在真實世界的數據集上評估DeepXplore,研究人員能夠揭示成千上萬個獨特的錯誤角落行為。他們將于10月29日在中國上海舉行的2017年兩年一次的ACM操作系統原理研討會(SOSP)會議上發(fā)表他們的研究成果:第一場:蟲狩獵。

“我們的DeepXplore工作提出了第一個稱為'神經元覆蓋'的測試覆蓋率指標,以經驗性地了解測試輸入集是否提供了對深度神經網絡的決策邏輯和行為的良好覆蓋與良好覆蓋,”Cao,計算機科學助理教授說。和工程。

除了將神經元覆蓋作為指標引入外,研究人員還演示了在更傳統的系統中檢測邏輯錯誤的技術 - 稱為差分測試 - 如何應用于深度學習系統。

“DeepXplore解決了另一個需要許多手動標記的測試輸入的困難挑戰(zhàn)。它通過交叉檢查多個DNN并巧妙地搜索導致深度神經網絡不一致結果的輸入來實現,”計算機科學副教授楊說。“例如,考慮到自動駕駛汽車攝像頭拍攝的圖像,如果兩個網絡認為汽車應該向左轉,第三個認為汽車應該向右轉,那么角落情況可能在第三個深度神經網絡中。不需要手動標記來檢測這種不一致。“

該團隊評估了DeepXplore的真實數據集,包括Udacity自駕車挑戰(zhàn)數據,ImageNet和MNIST的圖像數據,Drebin的Android惡意軟件數據,Contagio / VirusTotal的PDF惡意軟件數據,以及在這些數據集上培訓的生產質量深度神經網絡,如這些在Udacity自駕車挑戰(zhàn)中名列前茅。

他們的研究結果顯示,DeepXplore 在15個最先進的深度學習模型中發(fā)現了成千上萬個不正確的角落案例行為(例如,自動駕駛汽車撞到護欄),共有132個,057個神經元在五個流行的數據集上訓練大約162 GB的數據。

該團隊已將其開源軟件公開供其他研究人員使用,并推出了一個網站DeepXplore,讓人們上傳自己的數據,以了解測試過程的工作原理。

更神經元的覆蓋范圍

根據會議后發(fā)表的論文(參見此處的初步版本),DeepXplore旨在生成最大化深度學習(DL)系統神經元覆蓋范圍的輸入。

作者寫道:“在高層次上,DL系統的神經元覆蓋與傳統系統的代碼覆蓋類似,這是衡量傳統軟件中輸入所執(zhí)行代碼量的標準指標。但是,代碼覆蓋本身并不是估算DL系統覆蓋范圍的良好指標,因為與傳統軟件不同,DL系統中的大多數規(guī)則不是由程序員手動編寫,而是從訓練數據中學習。

“我們發(fā)現,對于我們測試的大多數深度學習系統,即使是一個隨機選擇的測試輸入也能夠實現100%的代碼覆蓋率 - 但是,神經元的覆蓋率不到10%,”計算機科學助理教授Jana補充說。 。

DeepXplore生成的輸入平均比相同數量的隨機選擇的輸入和對抗輸入(攻擊者有意設計導致模型犯錯的機器學習模型的輸入)平均高出34.4%和33.2%的神經元覆蓋率。

差分測試應用于深度學習

Cao和Yang展示了具有相似功能的多個深度學習系統(例如Google,Tesla和Uber的自動駕駛汽車)如何用作交叉引用的神諭,以識別錯誤的角落情況而無需人工檢查。例如,如果一輛自動駕駛汽車決定向左轉,而另一輛則為同一輸入向右轉,則其中一輛可能不正確。這種差分測試技術過去已成功應用于檢測邏輯錯誤,而無需各種傳統軟件中的手??動規(guī)范。

在他們的論文中,他們展示了如何將差異測試應用于深度學習系統。

最后,研究人員的新穎測試方法可用于重新訓練系統以提高分類準確性。在測試過程中,通過對DeepXplore生成的輸入重新訓練深度學習模型與在相同數量的隨機選擇或對抗輸入上進行重新訓練相比,他們實現了分類準確度提高了3%。

“DeepXplore能夠生成大量輸入,自動高效地導致深層神經網絡錯誤分類,”Yang補充說。“這些輸入可以反饋到培訓過程中,以提高準確性。”

Cao補充說:“我們的最終目標是能夠測試一個系統,比如自動駕駛汽車,并告訴創(chuàng)作者它是否真正安全,在什么條件下。”


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ   備案號:

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)