AI可以通過玩星際爭霸和我的世界來學(xué)習(xí)真實(shí)世界的技能

2022-09-09 21:35:21 編輯：蒲美全來源：

導(dǎo)讀虛擬游戲世界是探索，響應(yīng)和適應(yīng)的良好測試平臺，AI AT PLAY玩視頻游戲的算法可以掌握各種技能。DarioWünsch感到自信。來自德國萊比...

虛擬游戲世界是探索，響應(yīng)和適應(yīng)的良好測試平臺，AI AT PLAY玩視頻游戲的算法可以掌握各種技能。

DarioWünsch感到自信。來自德國萊比錫的這位28歲的年輕人即將成為第一個在快速視頻游戲“星際爭霸II”中接受人工智能程序AlphaStar的專業(yè)游戲玩家。Wünsch一直專業(yè)玩“星際爭霸II”，競爭對手命令外國艦隊(duì)爭奪領(lǐng)土近十年。他不可能失去這個五場比賽的挑戰(zhàn)給一個新創(chuàng)造的AI游戲玩家。

甚至AlphaStar在總部位于倫敦的人工智能研究公司DeepMind的創(chuàng)始人也是如此，該公司是Alphabet公司的一部分，對結(jié)果并不樂觀。他們是一大批研究人員中的最新成員，他們試圖建立一個可以處理星際爭霸II令人眼花繚亂的復(fù)雜性的人工智能。到目前為止，還沒有人創(chuàng)造出能夠擊敗經(jīng)驗(yàn)豐富的人類玩家的系統(tǒng)。

果然，當(dāng)AlphaStar在12月12日對陣Wünsch時，人工智能似乎在第一場比賽開始時犯了一個致命錯誤：它忽略了在營地入口處建立一個保護(hù)屏障，讓W(xué)ünsch滲透并迅速挑選關(guān)閉了幾個工人單位。有一分鐘，看起來星際爭霸II仍然是人類戰(zhàn)勝機(jī)器的領(lǐng)域。但AlphaStar取得了勝利的回歸，組建了一個頑強(qiáng)的隊(duì)伍，很快就浪費(fèi)了Wünsch的防守。AlphaStar 1，Wünsch0。

Wünsch搖了搖頭。他只需要更多地關(guān)注防守。但是在第二輪比賽中，AlphaStar通過扣留攻擊讓這位職業(yè)選手感到驚訝，直到它積累了一支再次粉碎Wünsch部隊(duì)的。之后的三場比賽，AlphaStar以5比0的比分贏得了比賽，將Wünsch降級為由機(jī)器擊敗的小型但不斷增長的世界級游戲玩家俱樂部。

研究人員長期以來一直將游戲作為AI智能的基準(zhǔn)。1997年，IBM的Deep Blue贏得了國際象棋冠軍加里卡斯帕羅夫(SN：8/2/97，第76頁)的國際贊譽(yù)。2016年，DeepMind的AlphaGo以擊敗Go冠軍Lee Sedol而著稱(SN：12/24/16，第28頁)。

但是像國際象棋和圍棋這樣的基于棋盤的比賽到目前為止只能推動人工智能。這些游戲仍然非常簡單 - 玩家可以輪流看到每個棋子在棋盤上的位置。在制作能夠處理真實(shí)世界歧義和快節(jié)奏互動的人工智能時，最有用的機(jī)器認(rèn)知測試可能會出現(xiàn)在虛擬世界中的游戲中。

建立可以打敗人類玩家的AI游戲玩家不僅僅是一個虛榮項(xiàng)目。哥本哈根IT大學(xué)的AI研究員Sebastian Risi說：“最終的想法是......將這些算法用于實(shí)際挑戰(zhàn)。”例如，在總部位于舊金山的公司OpenAI訓(xùn)練了一個五人工作小組參加一個名為Dota 2的在線戰(zhàn)斗游戲之后，程序員重新利用這些算法教導(dǎo)機(jī)器人手的五個手指以前所未有的靈巧操縱物體。研究人員在1月份在arXiv.org網(wǎng)上描述了這項(xiàng)工作。

使用最初開發(fā)的算法來幫助五個AI玩游戲Dota 2，OpenAI研究人員構(gòu)建了一個非常靈巧的機(jī)器人手。

DeepMind的研究人員同樣希望AlphaStar的設(shè)計能夠讓研究人員嘗試構(gòu)建AI來處理長時間的相互作用，例如那些涉及模擬氣候變化或理解對話的人，這是一項(xiàng)特別困難的任務(wù)(SN：3/2/19，第8頁)。

目前，AI仍在努力解決的兩個重要問題是：相互協(xié)調(diào)，不斷將新知識應(yīng)用于新情況。事實(shí)證明，星際爭霸的世界是一種優(yōu)秀的測試平臺，可以讓人工智能更加合作。為了試驗(yàn)使AI永遠(yuǎn)成為學(xué)習(xí)者的方法，研究人員正在使用另一種流行的視頻游戲Minecraft。雖然人們可能會利用屏幕時間作為對現(xiàn)實(shí)生活的分心，但虛擬挑戰(zhàn)可能有助于AI掌握在現(xiàn)實(shí)世界中取得成功所需的技能。

街機(jī)教育

AI可以在視頻游戲中練習(xí)不同的技能，以學(xué)習(xí)如何在現(xiàn)實(shí)世界中相處。例如，導(dǎo)航技術(shù)可以幫助搜索和救援機(jī)器人徘徊崎嶇的地形，知道如何管理許多工人的AI可以幫助管理公司。

教授AI為現(xiàn)實(shí)世界提供有用技能的游戲類型：

類型賽跑第一人稱射擊開放世界實(shí)時戰(zhàn)略示例游戲Forza Motororsport，Real Racing厄運(yùn)我的世界，俠盜獵車手星際爭霸導(dǎo)航XXX管理資源/員工XX情節(jié)策略XXX快速反應(yīng)XXX合作XX設(shè)定目標(biāo)X創(chuàng)造力X勘探XX終身學(xué)習(xí)X動機(jī)XX雜耍優(yōu)先事項(xiàng)XX

團(tuán)隊(duì)合作

當(dāng)AlphaStar接手Wünsch時，AI就像人類一樣玩星際爭霸II：它像一個木偶操縱者一樣完全控制著艦隊(duì)中的所有角色。但在舊金山的Facebook AI Research的人工智能研究員Jakob Foerster表示，有許多現(xiàn)實(shí)世界的情況依賴于一個主腦AI來微觀管理大量設(shè)備會變得難以處理。

想想監(jiān)督整個醫(yī)院照顧病人的數(shù)十個護(hù)理機(jī)器人，或者自駕卡車協(xié)調(diào)他們在數(shù)英里的高速公路上的速度，以緩解交通瓶頸。因此，包括Foerster在內(nèi)的研究人員正在使用星際爭霸游戲嘗試不同的“多代理”方案。

在某些設(shè)計中，個別作戰(zhàn)單位具有一定的獨(dú)立性，但仍然受到集中控制器的支持。在這個設(shè)置中，監(jiān)督AI就像一個教練在場邊喊叫。教練制定了一個重要的計劃并向團(tuán)隊(duì)成員發(fā)出指示。各個單位使用該指導(dǎo)以及對周圍環(huán)境的詳細(xì)觀察來決定如何采取行動。北京大學(xué)計算機(jī)科學(xué)家王益洲及其同事在提交給IEEE神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)系統(tǒng)的論文中報告了這種設(shè)計的有效性。

Wang的團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)訓(xùn)練其人工智能團(tuán)隊(duì)，這是一種機(jī)器學(xué)習(xí)，其中計算機(jī)系統(tǒng)通過與環(huán)境互動獲得技能，并在做正確的事情后獲得虛擬獎勵。每個隊(duì)友都根據(jù)其附近被淘汰的敵人數(shù)量獲得獎勵，以及整個團(tuán)隊(duì)是否勝過由游戲內(nèi)置的自動對手控制的艦隊(duì)。在由至少10個戰(zhàn)斗單位組成的團(tuán)隊(duì)的幾個不同挑戰(zhàn)中，教練指導(dǎo)的AI團(tuán)隊(duì)贏得了60%到82%的時間。沒有獨(dú)立推理能力的控制的AI團(tuán)隊(duì)對內(nèi)置對手的成功率較低。

當(dāng)團(tuán)隊(duì)可以依賴所有代理人之間快速，準(zhǔn)確的溝通時，具有單個指揮官的AI工作人員對個別單位施加至少一些控制可能效果最佳。例如，該系統(tǒng)可以用于同一倉庫內(nèi)的機(jī)器人。

在星際爭霸II的視頻游戲中，專業(yè)的星際爭霸II玩家DarioWünsch扮演“LiquidTLO”，被人工智能AlphaStar所壓倒，這對Wünsch的基地造成了嚴(yán)重破壞。當(dāng)AI顯示其優(yōu)勢時，人工智能在DeepMind的創(chuàng)作者歡呼。當(dāng)AlphaStar擊敗他時，Wünsch大步邁進(jìn)，5場比賽為0。

但是，對于許多機(jī)器，例如自動駕駛汽車或無人機(jī)群體，它們分布在很遠(yuǎn)的距離，單獨(dú)的設(shè)備“將無法與單個控制器保持一致，可靠和快速的數(shù)據(jù)連接，”Foerster說。這是每個AI本身。在這些限制下工作的AI通常無法與集中式團(tuán)隊(duì)協(xié)調(diào)，但Foerster及其同事設(shè)計了一個培訓(xùn)計劃，以使獨(dú)立思考的機(jī)器能夠協(xié)同工作。

在該系統(tǒng)中，集中觀察者在強(qiáng)化學(xué)習(xí)期間向隊(duì)友提供反饋。但是，一旦該小組接受了全面培訓(xùn)，AI就會獨(dú)立完成。主要代理人不像是邊線教練，更像是在排練期間提供芭蕾舞女演員指導(dǎo)的舞蹈教練，但在舞臺表演期間保持沉默。

AI監(jiān)督員通過在培訓(xùn)期間提供個性化建議，為個人AI提供自給自足的準(zhǔn)備。在每次試運(yùn)行之后，監(jiān)督員模擬替代可能的未來，并告訴每個代理人，“這就是實(shí)際發(fā)生的事情，如果其他人都做了同樣的事情就會發(fā)生這種情況，但你做了不同的事情。”這種方法，福斯特的團(tuán)隊(duì)于2018年2月在新奧爾良舉行的AAAI人工智能會議上，幫助每個AI單位判斷哪些行動有助于或阻礙該團(tuán)隊(duì)的成功。

為了測試這個框架，F(xiàn)oerster及其同事在星際爭霸中訓(xùn)練了三組五個AI單元。受過訓(xùn)練的單位必須僅根據(jù)對周圍環(huán)境的觀察來行動。在由內(nèi)置的非人類對手指揮的相同球隊(duì)的戰(zhàn)斗回合中，所有三個AI組贏得了他們的大部分回合，在相同的戰(zhàn)斗場景中表現(xiàn)出三個控制的AI團(tuán)隊(duì)。

終身學(xué)習(xí)

程序員在星際爭霸和星際爭霸II中測試的AI培訓(xùn)類型旨在幫助AI團(tuán)隊(duì)掌握單一任務(wù)，例如協(xié)調(diào)交通信號燈或無人機(jī)。星際爭霸游戲非常適合這種情況，因?yàn)閷τ谒幸苿硬考裕螒蛳喈?dāng)簡單：每個玩家都有一個壓倒對手的單一目標(biāo)。但是，如果人工智能變得更加多樣化和人性化，程序需要能夠?qū)W習(xí)更多知識并不斷學(xué)習(xí)新技能。

“我們現(xiàn)在看到的所有玩Go和國際象棋的系統(tǒng) - 他們基本上都訓(xùn)練過很好地完成這一項(xiàng)任務(wù)，然后他們被修復(fù)以便他們無法改變，”Risi說。Risi說，一個帶有18×18網(wǎng)格的Go-playing系統(tǒng)，而不是標(biāo)準(zhǔn)的19×19游戲板，可能必須在新的主板上完全重新訓(xùn)練。改變星際爭霸單位的特征需要進(jìn)行相同的背對一訓(xùn)練。類似樂高的Minecraft領(lǐng)域是一個更好的測試方法，使AI更具適應(yīng)性。

在由3D墻塊組成的不同環(huán)境中，Minecraft玩家可以構(gòu)建結(jié)構(gòu)并探索周圍環(huán)境(上面的示例)。CHRISTOPH SALGE等人/PROC。第13屆國際比賽。CONF。關(guān)于2018年數(shù)字游戲的基礎(chǔ)

與“星際爭霸”不同，“我的世界”不會讓玩家完成任務(wù)。在這個由三維灰塵，玻璃和其他材料組成的虛擬世界中，玩家可以收集資源來建造結(jié)構(gòu)，旅行，尋找食物，并做其他任何他們喜歡的事情。總部位于舊金山的軟件公司Salesforce的人工智能研究員Caiming Xiong和同事們在Minecraft中使用了一個簡單的建筑物來測試人工智能，以便不斷學(xué)習(xí)。

熊的團(tuán)隊(duì)并沒有指定人工智能通過強(qiáng)化學(xué)習(xí)中的反復(fù)試驗(yàn)來學(xué)習(xí)單一任務(wù)，而是讓人工智能的教育錯綜復(fù)雜。研究人員指導(dǎo)人工智能通過越來越困難的強(qiáng)化學(xué)習(xí)挑戰(zhàn)，從尋找特定區(qū)塊到堆疊區(qū)塊。人工智能旨在將每個挑戰(zhàn)分解為更簡單的步驟。它可以使用舊的專業(yè)知識解決每一步或嘗試新的東西。與另一個沒有使用先前知識來傳達(dá)新學(xué)習(xí)經(jīng)驗(yàn)的人工智能相比，熊團(tuán)隊(duì)的人工智能證明是一個更快的研究。

積累知識的人工智能在適應(yīng)新情況方面也更好。熊和同事告訴兩個AI如何拾取塊。在一個只包含一個街區(qū)的簡單房間內(nèi)進(jìn)行培訓(xùn)時，兩個AI都獲得了“收集項(xiàng)目”技能。但是在一個有多個街區(qū)的房間里，離散任務(wù)AI很難確定其目標(biāo)并且只有29%的時間抓住了正確的區(qū)塊。

快速吸收

一個知道如何應(yīng)用過去的知識來學(xué)習(xí)新技能(深綠色)的Minecraft玩AI可以更快地學(xué)習(xí)如何成功地執(zhí)行新技能。與不依賴于舊專業(yè)知識(淺綠色)的人工智能相比，它在嘗試中獲得的獎勵高達(dá)1.0。

人工智能學(xué)習(xí)有和沒有過去的知識

資料來源：T。Shu，C。Xiong和R. Socher / 6th Internat。CONF。關(guān)于學(xué)習(xí)代表2018年

知識積累的AI知道依賴于先前學(xué)習(xí)的“查找項(xiàng)目”技能來在分心中定位目標(biāo)對象。它在94%的時間內(nèi)獲得了正確的阻止。該研究于2018年5月在溫哥華舉行的國際學(xué)習(xí)代表大會上發(fā)表。

通過進(jìn)一步的培訓(xùn)，熊和同事的系統(tǒng)可以掌握更多的技能。但是這種設(shè)計受到以下事實(shí)的限制：AI只能學(xué)習(xí)人類程序員在訓(xùn)練期間分配的任務(wù)。人類沒有這種教育截止。當(dāng)人們完成學(xué)業(yè)時，“不喜歡，”現(xiàn)在你已經(jīng)完成了學(xué)習(xí)。你可以凍結(jié)你的大腦然后去，“Risi說。

加州大學(xué)圣地亞哥分校的機(jī)器人專家Priyam Parashar說，一個更好的人工智能將在游戲和模擬中獲得基礎(chǔ)教育，然后能夠在其整個生命周期中繼續(xù)學(xué)習(xí)。例如，如果居民安裝嬰兒門或重新安排家具，家用機(jī)器人應(yīng)該能夠找到導(dǎo)航工作區(qū)。

Parashar及其同事創(chuàng)建了一個AI，可以識別需要進(jìn)一步培訓(xùn)而無需人工輸入的實(shí)例。當(dāng)人工智能遇到新的障礙時，它會評估環(huán)境與預(yù)期的不同。然后它可以在心理上排練各種解決方案，想象每個解決方案的結(jié)果并選擇最佳解決方案。

研究人員在一個兩室的Minecraft建筑中用AI測試了這個系統(tǒng)。人工智能已經(jīng)接受過培訓(xùn)，可以從第二個房間找回金塊。但是另一個Minecraft玩家在房間之間的門口建造了一個玻璃屏障，阻止AI收集金塊。人工智能評估了這種情況，并通過強(qiáng)化學(xué)習(xí)，找出了如何粉碎玻璃以完成其任務(wù)，Parashar和她的同事在2018年知識工程評論中報道。

Parashar承認(rèn)，面對意想不到的嬰兒門或玻璃墻的人工智能應(yīng)該可能不會得出最好的解決辦法。但她說，程序員可以為AI的心理模擬添加額外的約束 - 比如不應(yīng)該破壞有價值或擁有的對象的知識 - 來告知系統(tǒng)的學(xué)習(xí)。

研究人員使用Minecraft來教授人工智能技能，例如如何設(shè)定目標(biāo)和建立創(chuàng)造性結(jié)構(gòu)。LAIGE PENG和YOSHIMASA TSURUOKA /信息處理學(xué)會2018

新的視頻游戲一直在成為AI測試床。人工智能和紐約大學(xué)的游戲研究員Julian Togelius及其同事希望在Overcooked中測試合作的AIs - 這是一個團(tuán)隊(duì)烹飪游戲，發(fā)生在一個緊湊，擁擠的廚房里，玩家不斷地互相攻擊。“游戲旨在挑戰(zhàn)人類的思想，”Togelius說。任何視頻游戲本質(zhì)上都是一個現(xiàn)成的測試，可以測試AI知識如何模仿人類的聰明才智。

但是當(dāng)談到在視頻游戲或其他模擬世界中測試AI時，“你永遠(yuǎn)不能說，'好吧，我已經(jīng)模擬了現(xiàn)實(shí)世界中發(fā)生的一切，'”Parashar說。彌合虛擬和物理現(xiàn)實(shí)之間的差距將需要更多的研究。

她建議，保持模擬訓(xùn)練的人工智能免于過度使用的一種方法是設(shè)計需要AI在需要時向人們尋求幫助的系統(tǒng)(SN：3/2/19，第8頁)。“從某種意義上說，這使得[AI]更像人類，對嗎?”Parashar說。“我們在朋友的幫助下順利過來。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！