photo=pixabay
photo=pixabay

페이스북 산하 인공지능(AI) 개발팀이 인간을 뛰어넘는 포커 실력을 보여주는 AI를 발표했다고 4일 기가진이 전했다.

‘ReBeL’로 명명된 이 AI는 게임에 참여하는 플레이어가 취할 수 있는 행동의 확률을 따지는 방법으로, 지금까지 AI가 취약했던 종류의 게임에서도 뛰어난 실력을 보여줬다. 미래에 부정행위 감지나 사이버 보안 분야 등의 분야에서의 활약을 기대할 수 있다고 기가진은 내다봤다.

게임 이론에서, 게임은 장기나 체스처럼 각 플레이어가 상대의 의사결정 내용이나 게임 전개 과정을 완전히 파악할 수 있는 ‘완전 정보 ​​게임’과 포커처럼 각 플레이어가 자신의 패를 숨겨 과정을 알 수 없는 ‘불완전한 정보 게임’으로 분류된다.

2016년에, 구글의 AI ‘알파고’가 이세돌 9단을 상대로, 이전까지 “인류가 아직 AI에 뒤지지 않는 유일한 보드 게임”으로 인식돼 온 바둑에서 압승을 거둬, AI는 ‘완전 정보 ​​게임’에서 인간을 뛰어넘었다.

알파고의 승리가 있고 3년 후인 2019년에는 페이스북과 카네기멜론대학이 공동으로 개발한 AI ‘플루리버스(Pluribus)’가 6명이 붙은 포커 게임에서 프로 선수를 격파해 ‘불완전 정보 ​​게임’에서도 인간을 능가하게 됐다. 다만 ‘완전 정보 ​​게임’에 비하면 여전히 인간에 고전하고 있다.

페이스북의 AI 연구팀에 따르면 AI가 ‘불완전 정보 ​​게임’에서 약점은 AI가 지닌 ‘강화학습(RL)+검색(Search)’라는 알고리즘이 ‘불완전 정보 ​​게임’에서는 작동하지 않는 점이다.

알파고 등도 채용하고 있는 ‘RL+검색’ 알고리즘은 특정 행동이 선택될 확률에 관계없이 각 행동에 고정 값을 할당해 계산해 버리는 경향이 있다. 체스 같은 게임에서는 플레이어가 자주 사용하는 손인지 아닌지에 관계없이 묘수는 묘수, 악수는 악수이기 때문에, 이런 문제는 그다지 표면화하지 않는다. 하지만 포커에서는 ‘허세’를 자주 사용하면 ‘허세’가 읽히듯이 특정 행도의 가치는 사용 빈도에 따라 변동이 생기기 때문에 행동이 선택되는 확률이 매우 중요하다.

그래서 페이스북이 이번에 발표한 AI ‘ReBeL’는 각 플레이어가 가질 수 있는 다양한 ‘신념 (belief)’의 확률 분포를 계산해 행독을 결정하도록 했다. 그 결과, ReBeL는 포커에서 가장 인기 있는 ‘텍사스 홀덤’에서 카네기멜론대학에서 개발한 포커 AI ‘Baby Tartanian8’ 등 2개의 포커 AI를 물리치고, 인간 톱 플레이어도 뛰어넘는 성적을 거두었다. 또한 상대의 거짓말을 간파하는 게 필요한 주사위 게임인 ‘라이어스 다이스(Liar's dice)’에서도 내쉬 균형(게임 이론)에 가까운 결과를 보여, 포커 이외의 ‘불완전 정보 ​​게임’에서도 강자임을 입증했다.

페이스북 연구팀은 “ReBeL은 종래의 AI에 비해 주어진 정보가 훨씬 적은 상황에서도 초인적 인 성능을 보여주었다. 이것은 보편적이고 폭넓은 용도를 가진 기술을 개발하는 데 있어 큰 성과이며, 부정행위 감지나 사이버 보안과 같은 현실 세계에서 활약하는 AI의 개발을 향한 전진이라고 생각한다”고 말했다.

저작권자 © 테크데일리(TechDaily) 무단전재 및 재배포 금지