Libratus AI在20天的撲克游戲中擊敗了頂級職業(yè)選手

2019-06-21 16:59:41 編輯：來源：

導讀卡內(nèi)基梅隆大學的研究人員報告稱，今年早些時候在無限制德州撲克中擊敗四位頂級職業(yè)撲克玩家的人工智能，使用三管齊下的方法來掌握比宇宙中

卡內(nèi)基梅隆大學的研究人員報告稱，今年早些時候在無限制德州撲克中擊敗四位頂級職業(yè)撲克玩家的人工智能，使用三管齊下的方法來掌握比宇宙中原子更多決策點的游戲。。

在今天由科學雜志在線發(fā)表的論文中，計算機科學教授Tuomas Sandholm和博士Noam Brown博士。計算機科學系的學生，詳細說明他們的AI如何通過將游戲分解為計算可管理的部分來實現(xiàn)超人的表現(xiàn)，并且基于其對手的游戲玩法，在比賽期間修復其策略中的潛在弱點。

人工智能程序在跳棋，國際象棋和Go-all挑戰(zhàn)性游戲中擊敗了頂級人類，但兩個玩家在任何時候都知道游戲的確切狀態(tài)。相比之下，撲克玩家應對隱藏的信息 - 他們的對手持有什么牌以及對手是否虛張聲勢。

2017年1月，在匹茲堡里弗斯河賭場舉行的為期20天的競賽中，有12萬人參賽，Libratus成為第一個在頭頂無限制德州撲克中擊敗頂級人類玩家的人工智能 - 這是不完美的主要基準和長期挑戰(zhàn)問題AIs的信息游戲解決方案。

Libratus在雙人游戲中單獨擊敗每個玩家，共籌集超過180萬美元的籌碼。用不完全信息游戲人工智能研究人員使用的標準，以每手毫米百葉窗(mbb /手)來衡量，Libratus決定性地以147萬桶/手擊敗人類。在撲克術(shù)語中，這是每場比賽14.7個大盲注

“Libratus中的技術(shù)不使用專家領(lǐng)域知識或人類數(shù)據(jù)，也不是撲克專用的，”Sandholm和Brown在論文中說。“因此，他們適用于一系列不完善的信息游戲。” 他們指出，這些隱藏的信息在現(xiàn)實世界的戰(zhàn)略互動中無處不在，包括商業(yè)談判，網(wǎng)絡(luò)安全，金融，戰(zhàn)略定價和軍事應用。

Libratus包括三個主要模塊，第一個模塊計算游戲的抽象，比游戲中的所有10161(數(shù)字1后跟161個零)可能的決策點更小，更容易解決。然后它為德州撲克的早期輪次制定了自己的詳細策略，并為后續(xù)輪次制定了粗略策略。這種策略稱為藍圖策略。

撲克中這些抽象的一個例子是將類似的手放在一起并對它們進行相同的處理。

“直覺上，King-high flush和Queen-high flush之間幾乎沒有區(qū)別，”Brown說。“將這些牌視為相同的牌會降低游戲的復雜性，從而使計算更容易。” 同樣，類似的投注大小也可以組合在一起。

但是在游戲的最后幾輪中，第二個模塊根據(jù)游戲狀態(tài)構(gòu)建一個新的，更細粒度的抽象。它還實時計算了這個子博弈的策略，使用藍圖策略來指導不同子游戲中的策略 - 需要采取一些措施來實現(xiàn)安全的子游戲解決。在1月份的比賽中，Libratus使用匹茲堡超級計算中心的Bridges計算機進行了這項計算。

每當對手進行不在抽象中的移動時，模塊計算該子游戲的解決方案，包括對手的移動。桑德霍爾姆和布朗稱這個嵌套的子游戲解決了。

DeepStack是由阿爾伯塔大學創(chuàng)建的用于單挑，無限制德州撲克的人工智能，也包括一個類似的算法，稱為持續(xù)重新解決; 然而，DeepStack尚未針對頂級職業(yè)選手進行測試。

第三個模塊旨在隨著競爭的進行改進藍圖策略。通常，Sandholm說，AI使用機器學習來找到對手戰(zhàn)略中的錯誤并利用它們。但如果對手改變策略，這也會使人工智能受到剝削。

相反，Libratus的自我改進模塊分析了對手的賭注大小，以發(fā)現(xiàn)Libratus藍圖策略中的潛在漏洞。然后Libratus添加這些缺失的決策分支，為它們計算策略，并將它們添加到藍圖中。

除了擊敗人類專業(yè)人士之外，Libratus還被評估為最佳撲克AI。其中包括Baby Tartanian8，這是由Sandholm和Brown開發(fā)的機器人，贏得了與人工智能促進協(xié)會年會一起舉辦的2016年度計算機撲克比賽。

嬰兒Tartanian8在比賽中以12(加/減10)mbb /手和24(加/減20)mbb /手擊敗接下來兩個最強的AI，Libratus以63(加/減28)mbb /手擊敗Baby Tartanian8 。作者指出，DeepStack尚未針對其他AI進行測試。

“我們開發(fā)的技術(shù)在很大程度上與領(lǐng)域無關(guān)，因此可以應用于其他戰(zhàn)略不完美信息交互，包括非娛樂應用，”Sandholm和Brown總結(jié)道。“由于隱藏信息在現(xiàn)實世界的戰(zhàn)略互動中無處不在，我們相信Libratus中引入的范例對于AI的未來發(fā)展和廣泛應用至關(guān)重要。”

該技術(shù)已獲得由Sandholm成立的公司Strategic Machine，Inc。獨家授權(quán)，將戰(zhàn)略推理技術(shù)應用于許多不同的應用。

Brown和Sandholm關(guān)于嵌套子博弈解決方案的論文最近在神經(jīng)信息處理系統(tǒng)(NIPS 2017)會議上獲得了最佳論文獎。Libratus在2017年高性能計算，網(wǎng)絡(luò)，存儲和分析國際會議(SC17)上獲得了HPCwire讀者選擇最佳AI使用獎。

標簽：頂級職業(yè)選手