AI 攻陷撲克的 9 個問題

A+A-
本年 1 月,Libratus 在 20 天馬拉松比賽中,連勝世界 4 大撲克牌高手。 圖片來源:Carnegie Mellon University
本年 1 月,Libratus 在 20 天馬拉松比賽中,連勝世界 4 大撲克牌高手。 圖片來源:Carnegie Mellon University

人類不斷開發人工智能(AI),讓它們在遊戲中與人類博奕,從國際象棋的「深藍」到圍棋的 AlphaGo,每一次 AI 擊敗人類都會引起害怕它們將超越人類的憂思。最新被 AI 攻陷的戰場是德州撲克,分別有兩支開發團隊在連續對賽中賭贏人類撲克高手。

第一場是在去年 12 月,名為 DeepStack 的 AI 先拔頭籌,由加拿大阿爾伯塔大學及捷克兩所大學的團隊共同研發,團隊日前在「科學」期刊發表了相關詳情。在一個月後,另一個由美國卡內基美隆大學開發的人工智能 Libratus,也在賭枱上做出驚人成績。他們努力不懈要 AI 擊倒人類撲克玩家,到底 AI 攻陷撲克意義何在?「自然」期刊日前就作出精簡分析:

1. 為何 AI 研究者要關注撲克?

撲克與以往的對奕遊戲不同之處在於,撲克比棋盤遊戲更加複雜。撲克玩家並不知道對方底牌,要在不完全掌握局面資訊下制定策略,需要考慮對手可能擁有甚麼手牌,及考慮對手會如何猜度自己有何手牌。「不完全資訊」遊戲更貼近日常生活會遇到的處境,例如投標與金融談判。撲克便是 AI 在此領域的試金石,而這次 DeepStack 與 Libratus 挑戰的是無限注的雙人德州撲克。

2. 戰況如何?

DeepStack 在去年 11 月,與 11 名專業玩家對局,當中擊倒了 10 名對手,每位對手均進行了 3,000 局。Libratus 則於本年 1 月,與 4 名專業玩家對賭了總共 12 萬局,電腦最終贏了約 180 萬美元的法碼。

3. 演算法背後的數學理論是甚麼?

兩款 AI 均以不落敗為目標,無論有多少的對手。而因為一對一的撲克是零和遊戲,即一方得逞另一方便會損失,博奕論中便涉及這種策略。人類玩家可乘對手出錯而大勝對方,但 AI 的策略卻更加穩紮,不會受突如其來的舉動動搖。

先前的撲克遊戲演算法一般是運用「遊戲樹」來計算遊戲的所有可能局面,但涉及的數目非常巨大,可達 10160 ,逐一計算近乎不可能。研究者會對比當下與先前已計算過的局勢,以最接近的答案來應對局面。

人機對決元年:2016 年李世石對 AlphaGo 五番棋。
人機對決元年:2016 年李世石對 AlphaGo 五番棋。

4. 兩者的策略有何分別?

DeepStack 正是利用與 AlphaGo 相同的方法——「深度學習」(deep learning),參考神經網路發展出的技術,電腦本身從過百萬種遊戲局勢中,從經驗中找出最佳的結果,減少電腦所需計算的可能性,即時決定。另一邊 Libratus 的團隊則尚未完整公布背後的程式理論。目前所知,它也涉及「學習」的元素,但沒有使用神經網路,主要靠強化學習,利用已計算的機會率,強調「除錯」,從錯誤中制定策略。

5. 他們可以「唬人」?

可以。一般人看來在下注中「唬嚇人」(虛張聲勢)是帶有人性;但對於電腦而言,在牌局上虛張聲勢只是數學運算的事,以確保玩家的下注模式和牌面不會被對手看穿。

6. 哪一款 AI 更強?

兩款 AI 目前都有極高得勝率,Libratus 已進行的對局數目比 DeepStack 多很多,但因為 DeepStack  的設計本身能以較少局數來「學習」;而 Libratus 能戰勝比 DeepStack 的對手強的專業玩家;平均而言, DeepStack 則以較大比數勝出。

DeepStack 研究團隊中的阿爾伯塔大學電腦科學家 Michael Bowling 強調,AI 對賽是有限制,勝方不必然是較佳的機器,也許其中一方的程式意外擊中對手的策略漏洞,但不必然是某一款策略的漏洞較多。

7. 兩款 AI 會互相對賭嗎?

這是有可能的,但癥結在於兩者的運算能力有所不同,難以找出雙方同意的遊戲規則。DeepStack 的研究團隊表示期望與 Libratus 對賭,而 Libratus 團隊則表示他們希望 DeepStack 能先擊倒團隊早期和較弱的 AI 「Tartanian8」。

圖片來源:Carnegie Mellon University
圖片來源:Carnegie Mellon University

8. 網上德州撲克將要完結?

大多網絡德州撲克賭場是禁止使用電腦參賽。不過,頂級的專業玩家亦開始著力鑽研對抗 AI 的技術。

9. 下一步是甚麼?

下一步理所當然是要挑戰多人對賽。目前兩款 AI 只是應用在單對單的零和賭局,假如有多於兩者玩家,情況就更為複雜,因為其中一名對手的失誤,可能另一名對手得益。DeepStack 方面表示已應用相似的方法來進行三人對賽,初步的成績卻令他們有所驚喜。

另一方面,科學家希望即使不提供遊戲的規則下,AI 也能自行摸索出來,使其具備更高的自我學習和解難能力。這才更符合真實世界人類所面對的疑難,如在金融世界與網絡保安等領域。