繼國際跳棋、國際象棋和圍棋等棋類遊戲後,人工智能(AI)再攻破新關口:贏得多人對戰的得州話事啤。美國科網巨擘facebook跟知名學府合作開發的Pluribus,7月在一場雲集多名世界頂尖選手的6人得州話事啤比賽中大勝,被形容是AI研究的重要里程碑,因為多人賽局涉及理解人類互動等複雜技能。
位於匹茲堡的卡內基梅隆大學(CMU)兩年前開發出Libratus的AI系統,成為了雙人「得州話事啤」(Texas Hold'em)的明星玩家。這次跟fb合作開發的Pluribus,進而挑戰多人版得州話事啤——在長達12日的過萬次賽局中,Pluribus在兩種形式的作賽都獲勝,前後擊敗了12名頂尖選手,包括兩名世界冠軍。第一種形式是一套Pluribus系統跟5名人類玩家同場作賽,第二種形式則是5套Pluribus系統(各系統單獨運作)跟一名人類玩家作賽。
雙晶片運作 遠少於以往作賽AI
結果Pluribus平均每局贏得5美元,每小時贏到1000美元左右,研究人員形容這是「決定性的取勝差距」。有份領導設計Pluribus的fb人工智能研究部門科學家布朗(Noam Brown)稱:「可以肯定的是,我們(研發的系統)處於超人類水平。」落敗者之一、6屆世界系列賽冠軍弗格森(Chris Ferguson)慨嘆道:「Pluribus是很難應付的對手,很難確認它手持哪手牌。」
根據製作團隊的介紹,Pluribus作賽時以雙晶片運作,使用少於128GB的記憶體。對比之下,只作單對單比賽的Libratus要用上100枚晶片,IBM的「深藍」對國際象棋棋王卡斯帕羅夫時要用上480枚特別設計的晶片,Google母公司旗下的AlphaGo對上韓國圍棋大師李世石時更用上1920枚晶片。
有別於以往AI對人類的例子都是單對單作賽,Pluribus這次的突破在於探索了多人賽局的領域。《華爾街日報》稱,多人得州話事啤玩家需要大量複雜技巧,尤其是理解人類互動,並運用這知識去把握對手犯錯和弱點。
布朗形容,同時跟多人作賽意味紞luribus無法預測終局,它要有力即時理解最新情G,這全賴系統跟其他5個「分身」對賽訓練了數萬億場賽局所得——在每輪作賽後,它會分析自身決定,倘若能帶來勝利,系統未來會更傾向採取類似手法。
懂得虛張聲勢 迷惑對手
布朗稱,Pluribus甚至意識到可以在手上的牌不佳時虛張聲勢,迷惑到對方放棄已投入的籌碼退局。他說:「人們主張(虛張聲勢)是人類非常獨有的能力——這關乎如今看懂對手雙眼。但這實際上是關乎數學,即這(Pluribus能迷惑對手)發生的情G,我們可以創造出在虛張聲勢能力更勝任何人類的AI演算法。」
(華爾街日報/The Verge)