OpenAI為機(jī)器人靈活性設(shè)定了新的基準(zhǔn)

2019-05-10 11:40:56 編輯：來(lái)源：

導(dǎo)讀這個(gè)世界上沒(méi)有任何東西 - 動(dòng)物或機(jī)器人 - 非常接近人手的靈活性和靈活性。對(duì)于Elon Musk創(chuàng)立的非營(yíng)利組織OpenAI的工程師來(lái)說(shuō)，這既是

這個(gè)世界上沒(méi)有任何東西 - 動(dòng)物或機(jī)器人 - 非常接近人手的靈活性和靈活性。對(duì)于Elon Musk創(chuàng)立的非營(yíng)利組織OpenAI的工程師來(lái)說(shuō)，這既是挑戰(zhàn)也是機(jī)遇。他們的研究人員如何使用人工智能來(lái)教導(dǎo)機(jī)器人像人一樣巧妙地操縱物體?

通常，在教授AI來(lái)控制物理機(jī)器人時(shí)，科學(xué)家們往往會(huì)遇到同樣的問(wèn)題。培訓(xùn)通常使用強(qiáng)化學(xué)習(xí)來(lái)完成; AI通過(guò)反復(fù)試驗(yàn)過(guò)程學(xué)習(xí)的方法。但這需要很多時(shí)間，通常相當(dāng)于多年的經(jīng)驗(yàn)。如果你想讓AI擊敗一個(gè)視頻游戲，那就沒(méi)關(guān)系了 - 你只是讓它以更快的速度玩游戲。但如果你想教它一個(gè)真實(shí)的任務(wù)，那你就麻煩了。你不能等待機(jī)器人手臂經(jīng)歷多年的練習(xí)，并且很難模擬世界上足夠準(zhǔn)確的訓(xùn)練目的。

對(duì)于OpenAI，他們自己設(shè)定的任務(wù)是教一個(gè)機(jī)器人手來(lái)操縱一個(gè)六面立方體; 將它從一個(gè)位置移動(dòng)到另一個(gè)位置，使特定的一面朝上。與早期的研究一樣，他們首先盡可能準(zhǔn)確地模擬這種環(huán)境，但他們的下一步是產(chǎn)生差異：他們開(kāi)始搞亂模擬。

首先，他們添加了隨機(jī)視覺(jué)噪音。然后，他們改變了虛擬手和立方體的顏色。他們隨機(jī)化了立方體的大小; 它的表面有多滑; 它有多重他們甚至搞砸了模擬的引力。所有這一切的效果是讓AI更好地理解在現(xiàn)實(shí)世界中操縱立方體的可能性。雖然模擬可能不完全真實(shí)，但它有足夠的變化，它允許系統(tǒng)學(xué)會(huì)處理意外。

參與該項(xiàng)目的OpenAI的Matthias Plappert解釋說(shuō)，改變模擬的引力是一個(gè)特別有趣的黑客。該團(tuán)隊(duì)知道，當(dāng)AI系統(tǒng)(稱為Dactyl)正在控制一個(gè)真正的機(jī)器人手時(shí)，手的基部每次可能不會(huì)以相同的角度定位。較低的角度意味著立方體將更容易從手中掉落。為了教Dactyl如何處理這個(gè)變體，他們決定將模擬中的重力隨機(jī)化。“沒(méi)有這種隨機(jī)化，它就會(huì)一直丟棄物體，因?yàn)樗涣?xí)慣它，”Plappert說(shuō)。

通過(guò)所有這些隨機(jī)化需要很長(zhǎng)時(shí)間。很長(zhǎng)一段時(shí)間。事實(shí)上，Dactyl必須積累大約100年的經(jīng)驗(yàn)才能達(dá)到最佳表現(xiàn)。反過(guò)來(lái)，這意味著團(tuán)隊(duì)必須使用大量的計(jì)算能力 - 大約6,144個(gè)CPU和8個(gè)強(qiáng)大的強(qiáng)大Nvidia V100 GPU。這種硬件只有極少數(shù)研究機(jī)構(gòu)才能使用。

但最終的結(jié)果是值得的，Plappert說(shuō)。完成訓(xùn)練后，Dactyl能夠?qū)⒘⒎襟w從一個(gè)位置移動(dòng)到另一個(gè)位置，連續(xù)50次，而不會(huì)掉落。(盡管它這樣做的中位數(shù)要小得多;只有13個(gè)。)在學(xué)習(xí)手中移動(dòng)立方體的過(guò)程中，Dactyl甚至開(kāi)發(fā)了類似人類的行為。所有這些都是在沒(méi)有任何人為指導(dǎo)的情況下學(xué)到的 - 只是反復(fù)試驗(yàn)，幾十年一次。

“這表明我們?nèi)祟悓?duì)操控的作用非常優(yōu)化，”Plappert說(shuō)。“當(dāng)你看到一個(gè)試圖解決問(wèn)題的機(jī)器人時(shí)，這是一個(gè)非常有趣的時(shí)刻，你會(huì)想'噢，嘿，那也是我會(huì)這樣做的。'”

機(jī)器人技術(shù)和人工智能領(lǐng)域的專家對(duì)The Verge的評(píng)論贊揚(yáng)了OpenAI的工作，但警告說(shuō)它并不代表機(jī)器人操縱的突破?？▋?nèi)基梅隆大學(xué)機(jī)器人研究所的Smruti Amarjyoti指出，隨機(jī)化系統(tǒng)訓(xùn)練環(huán)境的想法之前已經(jīng)完成，但是說(shuō)Dactyl的動(dòng)作是“優(yōu)雅的”，他認(rèn)為AI是不可能的。

“最終的結(jié)果是非常復(fù)雜和精致，”Amarjyoti說(shuō)。“[但]我認(rèn)為OpenAI在這一領(lǐng)域的最大成就將是它所采用的工程協(xié)調(diào)以及用于實(shí)現(xiàn)這一壯舉的計(jì)算能力。”

Istituto Italiano di Tecnologia的機(jī)器人學(xué)教授安東尼奧·比奇(Antonio Bicchi)表示，這項(xiàng)研究“優(yōu)雅而令人著迷”，但指出了一些局限性。“結(jié)果仍然局限于一個(gè)特定的任務(wù)(滾動(dòng)一個(gè)方便大小的模具)在相當(dāng)有利的條件下(手朝上，所以骰子落在掌中)，甚至不是一個(gè)確鑿的論據(jù)，這些技術(shù)可以解決現(xiàn)實(shí)世界的機(jī)器人問(wèn)題，“比奇說(shuō)。

對(duì)于OpenAI來(lái)說(shuō)，研究對(duì)于Dactyl骰子雜耍之外的原因是令人滿意的。該系統(tǒng)使用了許多與實(shí)驗(yàn)室開(kāi)發(fā)的相同算法和技術(shù)來(lái)教授其視頻游戲機(jī)器人 OpenAI Five。該公司建議，這表明它正在構(gòu)建通用算法，可以用來(lái)處理各種各樣的任務(wù) - 對(duì)于雄心勃勃的AI實(shí)驗(yàn)室和公司來(lái)說(shuō)，這是一個(gè)圣杯。

在人工智能的幫助下創(chuàng)建更靈巧的機(jī)器人對(duì)于嘗試自動(dòng)化手工勞動(dòng)的公司來(lái)說(shuō)將是一個(gè)巨大的福音，并且有許多初創(chuàng)公司積極地在該領(lǐng)域進(jìn)行研究。但是，雖然提高機(jī)器人技術(shù)的先進(jìn)水平當(dāng)然可以讓更多的工作崗位自動(dòng)化，但是這種工作破壞浪潮是否可以被新技術(shù)創(chuàng)造的工作所抵消，這是一個(gè)懸而未決的問(wèn)題。

無(wú)論哪種方式，很明顯人工智能仍然有一條路可以匹配人類的運(yùn)動(dòng)技能。Bicchi指出，使用Dactyl將近百年學(xué)習(xí)的能力可以被“只有極少數(shù)試驗(yàn)，甚至是新物體和任務(wù)的人”所接受。但當(dāng)然機(jī)器正在趕上，比以往任何時(shí)候都要快。

標(biāo)簽：機(jī)器人靈活性