視覺和神經(jīng)網(wǎng)絡(luò)推動了對更強(qiáng)大芯片的需求

2019-11-29 14:47:44 編輯：來源：

導(dǎo)讀現(xiàn)在，在其第28年，“熱芯片”會議是已知的，用于發(fā)布"大鐵鐵"，例如世界上一些最快的系統(tǒng)背后的電源和SPARC芯片。但是這些天，處理電力的需求來自新的地方。其中一個重要的是視覺處理，由照相機(jī)的擴(kuò)散驅(qū)動；在汽車、電話和各種"事物；"中的新應(yīng)用以及用于目標(biāo)識別的神經(jīng)網(wǎng)絡(luò)的快速進(jìn)展。所有這些都需要很多馬力，在本周的會議上，有幾家公司談到了解決這一問題的不同方法。也許最有新聞價(jià)值的是Nvidia的P

現(xiàn)在，在其第28年，“熱芯片”會議是已知的，用于發(fā)布"大鐵鐵"，例如世界上一些最快的系統(tǒng)背后的電源和SPARC芯片。但是這些天，處理電力的需求來自新的地方。其中一個重要的是視覺處理，由照相機(jī)的擴(kuò)散驅(qū)動；在汽車、電話和各種"事物；"中的新應(yīng)用以及用于目標(biāo)識別的神經(jīng)網(wǎng)絡(luò)的快速進(jìn)展。所有這些都需要很多馬力，在本周的會議上，有幾家公司談到了解決這一問題的不同方法。

也許最有新聞價(jià)值的是Nvidia的Parker宣布，它的下一代TEGRA處理器是一款具有自驅(qū)動功能的高級汽車。在采用3DFinFET晶體管的16nm工藝上通過鑄造TSMC制造，Parker有兩個CPU群集（兩個NVIDIA的自定義64位丹佛2內(nèi)核和四個現(xiàn)成ARMCortex-A57內(nèi)核），是具有公司最新Pascal圖形的第一個Telegra芯片。根據(jù)公司的博客文章，Parker能夠在半精度(FP16)下1.5個觸發(fā)器。在會議上，NVIDIA還顯示了SPECint_2000基準(zhǔn)測試的性能，與蘋果A9x、高通Snapdragon820、三星ExyNOSM1和HiSiliconKirin935相比。

NVIDIA使用標(biāo)準(zhǔn)測試的結(jié)果表明，Parker可以超過一些最強(qiáng)大的移動處理器。(資料來源：NVIDIA)

但帕克不適合打電話。相反，它的目的是為下一代具有自動駕駛功能的車輛提供動力，它還包括一些專門的功能。它支持多達(dá)十幾臺攝像機(jī)，可以以每秒60幀的速度解碼和編碼4K視頻，使用千兆位以太網(wǎng)-AVB將音頻和視頻流移動到汽車周圍，為多達(dá)8臺VMs提供完全的硬件虛擬化，以安全地處理多種汽車功能，并包括一個雙CAN(控制器區(qū)域網(wǎng)絡(luò))接口，以連接到眾多的電子控制單元。它也是NVIDIA的第一個汽車級(ISO-26262)SoC，具有彈性功能和一個在模上安全管理器.

今年早些時候，NVIDIA宣布了驅(qū)動PX2模塊，該模塊有兩個ParkerSOC（12個CPU內(nèi)核）和兩個離散GPU，總共提供8個單精度（FP32）性能。為了讓這一點(diǎn)，GeForceGTX1080，NVIDIA的速度最快的臺式機(jī)圖形卡，除了1,200美元的TanX之外，還有大約9個TerapsFP32。NVIDIA表示，超過80家客戶正在使用驅(qū)動PX2模塊開發(fā)自主駕駛功能，而沃爾沃則表示，他們將使用它來測試明年開始的兩個自駕駛XC90SUV。

毫無疑問，驅(qū)動PX2是最強(qiáng)大的汽車系統(tǒng)之一。但其他公司聲稱，DSP（數(shù)字信號處理器）可以在GPU上使用幾瓦或更多的電能。

Movie談到需要在推理的邊緣上進(jìn)行更節(jié)能的處理，或者運(yùn)行用于對象識別和其他任務(wù)的模型。"如果你有一輛自駕車，你就不能忍受為了處理而去云所需的延遲，"CTODavidMoloney說。在熱芯片運(yùn)動中，Movius演示了它在DJIPhantom4無人機(jī)中的微小的2個視覺處理單元，以及執(zhí)行對象識別和同時定位和映射。聯(lián)想最近宣布將在未來的VR產(chǎn)品中使用大量2，并且Flipr已將VPU添加到其熱成像相機(jī)上。Movieius展示了在2014年imaGenet大賽中使用的22層深層神經(jīng)網(wǎng)絡(luò)的2個對比未識別GPU的性能和效率結(jié)果。

與GPU相比，根據(jù)Movius，當(dāng)運(yùn)行用于對象識別的神經(jīng)網(wǎng)絡(luò)時，大量2可以提供更高的性能。(資料來源：Movieius)

Ceva-XM4是一款高性能的視覺DSP，能夠在TSMC的28nmHPM過程中達(dá)到1.5GHz的速度，設(shè)計(jì)用于監(jiān)視攝像頭、ADAS和自主駕駛等領(lǐng)域的嵌入式視覺和AI，增強(qiáng)現(xiàn)實(shí)，以及無人機(jī)。該公司聲稱，它的Ceva深度神經(jīng)網(wǎng)絡(luò)2(CDNN2)軟件可以優(yōu)化在流行的CAFFE或Tensorflow框架中構(gòu)建的任何神經(jīng)網(wǎng)絡(luò)，使得它能夠在DSP上運(yùn)行。Ceva演示了運(yùn)行Alexnet庫的CevaXM-4，實(shí)時使用Milli瓦特的電源進(jìn)行對象識別。像NVIDIA的Parker一樣，XM-4認(rèn)證用于汽車使用，而Ceva說，從RockChip、NovatekBrite、Inupluger等。

最新增加的Cadence的Tensilica視覺線處理器，VisionP6，提供了兩到四倍的性能，在卷積神經(jīng)網(wǎng)絡(luò)上，由于額外的MACS（倍累積）支持半精度和單精度浮點(diǎn)（以及8位、16位和32位定點(diǎn)數(shù)據(jù)），并增強(qiáng)了內(nèi)存并行性和數(shù)據(jù)移動。卡登斯演示了視覺P6識別交通標(biāo)志，人和臉。今年早些時候在嵌入式視覺峰會上宣布，視覺P6將從10月開始提供。

TensilicaDSP的一個客戶是Microsoft。在主旨演講中，微軟的尼克貝克首次展示了芯片的一些細(xì)節(jié)，這些芯片為"混合現(xiàn)實(shí)"應(yīng)用提供全鏡頭耳機(jī)，例如3D設(shè)計(jì)、通信和協(xié)作、游戲、在線學(xué)習(xí)、產(chǎn)品修復(fù)和維護(hù)以及在線購物。除了運(yùn)行Windows10的14nm英特爾原子櫻桃軌跡處理器外，全息鏡頭還包括自定義全息處理單元(HPU1.0)傳感器集線器、2GB內(nèi)存和64GB閃存。該HPU在28nm的工藝上由TSMC制造，具有24個Ten硅DSP內(nèi)核和8MB高速緩存，能夠每秒處理1萬億浮點(diǎn)操作。Baker說，微軟嘗試將任務(wù)卸載到管芯上的GPU，或者使用CPU或圖像信號處理器的陣列，但是它們都沒有提供將可編程的x86CPU內(nèi)核和固定功能硬件與DSP相結(jié)合的混合解決方案的性能。

在邊緣運(yùn)行神經(jīng)網(wǎng)絡(luò)時，數(shù)字信號處理器可以提供更好的每瓦性能。(資料來源：cadence)

NVIDIA的TeslaGPU用于服務(wù)器顯著縮短了培訓(xùn)模式所需的時間，導(dǎo)致精度突破，但在推理方面仍有很多工作要做。自主車輛、無人機(jī)、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)、視頻監(jiān)控以及其他智能設(shè)備都需要嵌入式處理器，這些嵌入式處理器可以處理大量的數(shù)據(jù)而不使用大量的電源。今年熱芯片上提出的視覺處理技術(shù)表明，我們正在接近，在未來幾年中，他們應(yīng)該為一些令人興奮的應(yīng)用提供構(gòu)建塊。

標(biāo)簽：芯片