蒙特卡洛樹搜索加冕《指環(huán)王》,游戲越復(fù)雜,AI越厲害
AI又來(lái)征服游戲了,這次的目標(biāo)是《指環(huán)王》!這是一款以團(tuán)隊(duì)協(xié)作為中心的經(jīng)典卡牌游戲。新模型基于蒙特卡洛樹搜索 (MCTS) 算法,游戲難度越高越厲害!
AI再次入侵游戲領(lǐng)域!
與之前的即時(shí)策略類、對(duì)戰(zhàn)類游戲不同,這次的目標(biāo)是在國(guó)外非常流行的卡牌游戲《指環(huán)王》。
說(shuō)起來(lái),自從AlphaGo橫空出世,擊敗人類最優(yōu)秀的職業(yè)圍棋手之后,AI開始在越來(lái)越多戰(zhàn)略游戲中與人類對(duì)戰(zhàn)。
機(jī)器學(xué)習(xí)算法和其他計(jì)算工具開始變得越來(lái)越先進(jìn),許多計(jì)算機(jī)科學(xué)家開始通過(guò)訓(xùn)練他們?cè)诓煌挠螒蛑信c人類競(jìng)爭(zhēng)來(lái)測(cè)試他們的能力。
實(shí)際上,在過(guò)去10年左右的時(shí)間里,開發(fā)人員已經(jīng)訓(xùn)練了許多模型在戰(zhàn)略游戲、棋盤游戲、電腦游戲和紙牌游戲中與人類對(duì)戰(zhàn)。其中一些AI取得了顯著成果,擊敗了公認(rèn)的人類冠軍和游戲?qū)<摇?nbsp;
比如,Deepmind的AlphaStar模型就在《星際爭(zhēng)霸2》中超過(guò)了99.8%人類玩家水平,達(dá)到了最高的宗師級(jí)段位。
近日,華沙理工大學(xué)的研究人員最近著手開發(fā)一種基于蒙特卡洛樹搜索 (MCTS) 算法的技術(shù),可以玩由 Fantasy Flight Games 于 2011 年發(fā)布的《指環(huán)王》 (LotR) 經(jīng)典紙牌游戲。
MCTS 算法是一種通用的啟發(fā)式?jīng)Q策方法,可以在隨機(jī)游戲(playouts)中來(lái)優(yōu)化給定游戲或場(chǎng)景中的搜索解決方案空間。研究人員在 arXiv 的一篇最新論文中介紹了他們的 MCTS 技術(shù)。
“我們是《指環(huán)王》游戲的粉絲,但我們發(fā)現(xiàn)沒(méi)有現(xiàn)有AI可以玩這個(gè)游戲,”進(jìn)行這項(xiàng)研究的兩位研究人員 Bartosz Sawicki 和 Konrad Godlewski 表示?!氨M管如此,我們還是發(fā)現(xiàn)了樹搜索方法在類似的紙牌游戲中的應(yīng)用,比如萬(wàn)智牌或《爐石傳說(shuō)》。”
《指環(huán)王》為什么之前沒(méi)有AI來(lái)嘗試呢?
主要原因是開發(fā)這款游戲的AI具有很高的挑戰(zhàn)性。這是一款合作紙牌游戲,游戲策略的解決方案空間巨大,邏輯結(jié)構(gòu)復(fù)雜,并且有隨機(jī)事件發(fā)生的可能性。這些特點(diǎn)使得游戲的規(guī)則和策略很難通過(guò)計(jì)算方法獲得。
“2016 年圍棋人機(jī)大戰(zhàn),是人類玩家有機(jī)會(huì)和 AI 競(jìng)爭(zhēng)的最后時(shí)刻?!?/strong>Sawicki 和 Godlewski 解釋說(shuō)?!拔覀冋撐牡哪繕?biāo)是為《指環(huán)王》游戲?qū)ふ颐商乜鍢渌阉鞯拇??!?nbsp;
與其他著名的紙牌游戲,如《爐石傳說(shuō)》和萬(wàn)智牌相比,《指環(huán)王》的游戲模式有著很大的不同。事實(shí)上,《指環(huán)王》的中心策略是團(tuán)隊(duì)合作,而不是與其他玩家競(jìng)爭(zhēng)。
游戲中的決策過(guò)程非常復(fù)雜,游戲玩法包括多個(gè)階段,其中大部分玩法策略要取決于前一階段的結(jié)果。
盡管面臨這些挑戰(zhàn),Sawicki 和Godlewiski 還是能夠開發(fā)出一種可以玩 LotR 的基于 MCTS 的方法。然后,他們?cè)谟螒蚰M器上進(jìn)行了一系列測(cè)試,評(píng)估了他們開發(fā)的技術(shù)。
“我們的 MCTS 玩家的勝率明顯高于基于規(guī)則的人類專家級(jí)玩家,”Sawicki 和 Godlewski 說(shuō)?!按送?,我們的方法將領(lǐng)域知識(shí)添加到擴(kuò)展策略和 MCTS 中,進(jìn)一步提高了模型的整體效率?!?nbsp;
這一成果證明,通過(guò)結(jié)合不同的人工智能和計(jì)算技術(shù),AI模型可以實(shí)現(xiàn)復(fù)雜和協(xié)作式的策略游戲的精通。盡管如此,采用MCTS 來(lái)處理這些復(fù)雜的游戲也有很大的局限性。
“主要問(wèn)題是 MCTS 將游戲邏輯與AI 算法相結(jié)合,所以在構(gòu)建游戲樹時(shí)必須知道合法的走法,不過(guò),調(diào)試具有顯著分支因素的游戲樹是一場(chǎng)噩夢(mèng)。
在很多情況下,程序可以運(yùn)行順利,但游戲勝率為零,我們不得不手動(dòng)檢查整個(gè)游戲樹?!?Sawicki 和 Godlewski 解釋道。
未來(lái),這項(xiàng)技術(shù)可以被《指環(huán)王》游戲愛好者與 AI 合作玩游戲。還可以激發(fā)其他人工智能工具的開發(fā),這些工具可以玩復(fù)雜的、戰(zhàn)略性、多階段的游戲。
另外,這項(xiàng)研究未來(lái)還打算探索《指環(huán)王》游戲中訓(xùn)練的深度強(qiáng)化學(xué)習(xí) (RL) 代理的潛力和性能。
研究人員表示:“目前的工作重點(diǎn)是使用強(qiáng)化學(xué)習(xí)來(lái)進(jìn)一步提高 AI 在游戲中的性能。給定一個(gè)游戲狀態(tài),神經(jīng)網(wǎng)絡(luò)返回一個(gè)由環(huán)境(即游戲模擬器)執(zhí)行的動(dòng)作。
這很困難,因?yàn)椴煌瑺顟B(tài)下動(dòng)作的數(shù)量不同,而策略網(wǎng)絡(luò)只能有一個(gè)固定的數(shù)量輸出。到目前為止,我們的結(jié)果很有希望?!?nbsp;
參考鏈接
https://arxiv.org/pdf/2109.12001.pdf
https://techxplore.com/news/2021-10-monte-carlo-tree-algorithms-lord.html
本文來(lái)自微信公眾號(hào)“新智元”(ID:AI_era),作者:新智元,編輯:David,36氪經(jīng)授權(quán)發(fā)布。