2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
卡內(nèi)基梅隆大學(xué)的研究人員報(bào)告稱,今年早些時(shí)候在無限制德州撲克中擊敗四位頂級(jí)職業(yè)撲克玩家的人工智能,使用三管齊下的方法來掌握比宇宙中原子更多決策點(diǎn)的游戲。 。
在今天由科學(xué)雜志在線發(fā)表的論文中,計(jì)算機(jī)科學(xué)教授Tuomas Sandholm和博士Noam Brown博士。計(jì)算機(jī)科學(xué)系的學(xué)生,詳細(xì)說明他們的AI如何通過將游戲分解為計(jì)算可管理的部分來實(shí)現(xiàn)超人的表現(xiàn),并且基于其對(duì)手的游戲玩法,在比賽期間修復(fù)其策略中的潛在弱點(diǎn)。
人工智能程序在跳棋,國際象棋和Go-all挑戰(zhàn)性游戲中擊敗了頂級(jí)人類,但兩個(gè)玩家在任何時(shí)候都知道游戲的確切狀態(tài)。相比之下,撲克玩家應(yīng)對(duì)隱藏的信息 - 他們的對(duì)手持有什么牌以及對(duì)手是否虛張聲勢(shì)。
2017年1月,在匹茲堡里弗斯河賭場舉行的為期20天的競賽中,有12萬人參賽,Libratus成為第一個(gè)在頭頂無限制德州撲克中擊敗頂級(jí)人類玩家的人工智能 - 這是不完美的主要基準(zhǔn)和長期挑戰(zhàn)問題AIs的信息游戲解決方案。
Libratus在雙人游戲中單獨(dú)擊敗每個(gè)玩家,共籌集超過180萬美元的籌碼。用不完全信息游戲人工智能研究人員使用的標(biāo)準(zhǔn),以每手毫米百葉窗(mbb /手)來衡量,Libratus決定性地以147萬桶/手擊敗人類。在撲克術(shù)語中,這是每場比賽14.7個(gè)大盲注
“Libratus中的技術(shù)不使用專家領(lǐng)域知識(shí)或人類數(shù)據(jù),也不是撲克專用的,”Sandholm和Brown在論文中說。“因此,他們適用于一系列不完善的信息游戲。” 他們指出,這些隱藏的信息在現(xiàn)實(shí)世界的戰(zhàn)略互動(dòng)中無處不在,包括商業(yè)談判,網(wǎng)絡(luò)安全,金融,戰(zhàn)略定價(jià)和軍事應(yīng)用。
Libratus包括三個(gè)主要模塊,第一個(gè)模塊計(jì)算游戲的抽象,比游戲中的所有10161(數(shù)字1后跟161個(gè)零)可能的決策點(diǎn)更小,更容易解決。然后它為德州撲克的早期輪次制定了自己的詳細(xì)策略,并為后續(xù)輪次制定了粗略策略。這種策略稱為藍(lán)圖策略。
撲克中這些抽象的一個(gè)例子是將類似的手放在一起并對(duì)它們進(jìn)行相同的處理。
“直覺上,King-high flush和Queen-high flush之間幾乎沒有區(qū)別,”Brown說。“將這些牌視為相同的牌會(huì)降低游戲的復(fù)雜性,從而使計(jì)算更容易。” 同樣,類似的投注大小也可以組合在一起。
但是在游戲的最后幾輪中,第二個(gè)模塊根據(jù)游戲狀態(tài)構(gòu)建一個(gè)新的,更細(xì)粒度的抽象。它還實(shí)時(shí)計(jì)算了這個(gè)子博弈的策略,使用藍(lán)圖策略來指導(dǎo)不同子游戲中的策略 - 需要采取一些措施來實(shí)現(xiàn)安全的子游戲解決。在1月份的比賽中,Libratus使用匹茲堡超級(jí)計(jì)算中心的Bridges計(jì)算機(jī)進(jìn)行了這項(xiàng)計(jì)算。
每當(dāng)對(duì)手進(jìn)行不在抽象中的移動(dòng)時(shí),模塊計(jì)算該子游戲的解決方案,包括對(duì)手的移動(dòng)。桑德霍爾姆和布朗稱這個(gè)嵌套的子游戲解決了。
DeepStack是由阿爾伯塔大學(xué)創(chuàng)建的用于單挑,無限制德州撲克的人工智能,也包括一個(gè)類似的算法,稱為持續(xù)重新解決; 然而,DeepStack尚未針對(duì)頂級(jí)職業(yè)選手進(jìn)行測試。
第三個(gè)模塊旨在隨著競爭的進(jìn)行改進(jìn)藍(lán)圖策略。通常,Sandholm說,AI使用機(jī)器學(xué)習(xí)來找到對(duì)手戰(zhàn)略中的錯(cuò)誤并利用它們。但如果對(duì)手改變策略,這也會(huì)使人工智能受到剝削。
相反,Libratus的自我改進(jìn)模塊分析了對(duì)手的賭注大小,以發(fā)現(xiàn)Libratus藍(lán)圖策略中的潛在漏洞。然后Libratus添加這些缺失的決策分支,為它們計(jì)算策略,并將它們添加到藍(lán)圖中。
除了擊敗人類專業(yè)人士之外,Libratus還被評(píng)估為最佳撲克AI。其中包括Baby Tartanian8,這是由Sandholm和Brown開發(fā)的機(jī)器人,贏得了與人工智能促進(jìn)協(xié)會(huì)年會(huì)一起舉辦的2016年度計(jì)算機(jī)撲克比賽。
嬰兒Tartanian8在比賽中以12(加/減10)mbb /手和24(加/減20)mbb /手擊敗接下來兩個(gè)最強(qiáng)的AI,Libratus以63(加/減28)mbb /手擊敗Baby Tartanian8 。作者指出,DeepStack尚未針對(duì)其他AI進(jìn)行測試。
“我們開發(fā)的技術(shù)在很大程度上與領(lǐng)域無關(guān),因此可以應(yīng)用于其他戰(zhàn)略不完美信息交互,包括非娛樂應(yīng)用,”Sandholm和Brown總結(jié)道。“由于隱藏信息在現(xiàn)實(shí)世界的戰(zhàn)略互動(dòng)中無處不在,我們相信Libratus中引入的范例對(duì)于AI的未來發(fā)展和廣泛應(yīng)用至關(guān)重要。”
該技術(shù)已獲得由Sandholm成立的公司Strategic Machine,Inc。獨(dú)家授權(quán),將戰(zhàn)略推理技術(shù)應(yīng)用于許多不同的應(yīng)用。
Brown和Sandholm關(guān)于嵌套子博弈解決方案的論文最近在神經(jīng)信息處理系統(tǒng)(NIPS 2017)會(huì)議上獲得了最佳論文獎(jiǎng)。Libratus在2017年高性能計(jì)算,網(wǎng)絡(luò),存儲(chǔ)和分析國際會(huì)議(SC17)上獲得了HPCwire讀者選擇最佳AI使用獎(jiǎng)。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。