谷歌的DeepMind揭開了AlphaGo人工智能的面紗

2022-09-01 13:12:44 編輯：仲孫行健來源：

導(dǎo)讀專注于推進(jìn)人工智能研究的谷歌部門DeepMind今天發(fā)布了一個新版本的AlphaGo程序，它只通過玩自己來學(xué)習(xí)游戲。該系統(tǒng)被稱為AlphaGoZero，通過...

專注于推進(jìn)人工智能研究的谷歌部門DeepMind今天發(fā)布了一個新版本的AlphaGo程序，它只通過玩自己來學(xué)習(xí)游戲。

該系統(tǒng)被稱為AlphaGoZero，通過學(xué)習(xí)其自我游戲的結(jié)果，使用一種稱為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)技術(shù)來工作。隨著零的不斷訓(xùn)練，該系統(tǒng)開始學(xué)習(xí)先進(jìn)的概念，在游戲中，自己去挑選某些有利的位置和序列。

經(jīng)過三天的訓(xùn)練，該系統(tǒng)能夠擊敗AlphaGoLee，DeepMind的軟件，去年擊敗了韓國頂級球員LeeSedol，100場比賽為零。經(jīng)過大約40天的訓(xùn)練-這意味著2900萬場自我游戲-阿爾法戈零能夠擊敗阿爾法戈大師(今年早些時候擊敗了世界冠軍克杰)89場比賽到11場。

結(jié)果表明，當(dāng)涉及到不同技術(shù)的有效性時，在人工智能領(lǐng)域還有很多需要學(xué)習(xí)的東西。阿爾法圍棋大師是使用許多類似的方法，阿爾法圍棋零是，但它開始訓(xùn)練人類數(shù)據(jù)，首先開始自我游戲。

一個有趣的注意是，雖然AlphaGoZero在幾周的訓(xùn)練中學(xué)習(xí)了幾個關(guān)鍵概念，但該系統(tǒng)的學(xué)習(xí)方式不同于許多接近圍棋游戲的人類玩家。連續(xù)的“拉粉”石頭，以一個樓梯一樣的模式在棋盤上玩，是人類在練習(xí)游戲時學(xué)到的第一件事之一。《自然》雜志發(fā)表的論文《深度心靈》(Deep Mind)指出，Zero在后來的訓(xùn)練中才理解這一概念。

此外，AlphaGoZero比它的許多前輩更有效率。阿爾法·戈·李需要使用幾臺機(jī)器和48臺谷歌的張量處理單元機(jī)器學(xué)習(xí)加速器芯片。系統(tǒng)的早期版本AlphaGo Fan需要176個GPU。阿爾法圍棋零，連同阿爾法圍棋大師，每個只需要一個單一的機(jī)器與四個TPU。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！