본문 바로가기

IT & Insight/IT News

인공지능 숨바꼭질 실력 ‘놀랍네’

오픈AI가 공개한 다요소 학습과 강화학습 전략을 구사하는 술래잡기 인공지능. 오픈AI 제공


인공지능이 숨바꼭질 게임에서 연구진이 예상치 못한 도구 사용법과 적응능력을 학습하며 자체 진화하는 능력을 구현했다. 일런 머스크 등이 미국 샌프란시스코에 설립한 비영리 인공지능 연구기관인 오픈 AI는 17일(현지시각) 숨바꼭질 게임을 통한 인공지능의 한층 개선된 학습 능력을 구현해냈다는 논문을 공개했다.

‘MIT 테크놀로지 리뷰’ 보도와 오픈AI에 따르면, 실험은 인공지능 학습의 두 가지 아이디어를 기반으로 진행됐다. 하나는 다요소 학습(multi agent learning)으로 경쟁과 협력을 위해 다양한 알고리즘을 사용하는 것이고, 또다른 하나는 시행착오를 통한 강화학습 전략이다.

실험은 가상공간에서 숨바꼭질 게임을 응용한 테스트로, 인공지능의 뛰어난 학습능력을 입증했다. 인공지능은 술래팀 2명과 은신팀 2명으로 구성되었으며 두 팀에겐 사전학습없이 각각 높은 점수를 얻으라는 목표치만 제시됐다. 은신팀이 안전하게 숨으면 1점이 주어지고 술래팀에겐 1점이 차감된다. 술래가 은신팀을 찾으면 점수가 반대로 적용된다.

은신팀은 술래보다 몇초 앞서 움직일 수 있고, 블록과 경사로를 올라타거나 이동시킬 수 있고 상대가 움직일 수 없게 고정할 수 있고 이를 이용해 숨을 수 있다. 술래는 블록 등으로 제한되지 않은 시야에서 은신팀을 발견하면 점수를 얻는다. 오픈AI 사이트엔 동영상(▶ 바로가기)도 공개되어 있어, 인공지능간 실제 진행된 게임 내용을 확인할 수 있다.

오픈AI가 공개한 다요소 학습과 강화학습 전략을 구사하는 술래잡기 인공지능. 블록을 이용해 은신처를 만드는 2단계다. 오픈AI 제공
오픈AI가 공개한 다요소 학습과 강화학습 전략을 구사하는 술래잡기 인공지능. 블록을 이용해 은신처를 만드는 2단계다. 오픈AI 제공

5억여회 게임이 진행되는 동안 인공지능은 단계별로 현격한 특징을 보이며 시간이 지날수록 고도로 진화하는 모습을 구현했다.

실험 초기 1단계에 인공지능은 블록과 경사로 이동을 시도하지 않고 서로 숨고 추격하는 방식으로만 게임을 했다. 2500만회 게임이 진행된 2단계에서 은신팀은 블록을 움직여 고정시키고 바리케이드를 만들어 술래팀이 찾지 못하도록 하는 전략을 터득했다.

3단계인 1억회를 넘어서는 술래팀이 은신팀의 전략을 역으로 이용하는 방법을 학습했다. 술래팀처럼 블록을 이동시킬 뿐 아니라, 경사로를 이용해 장애물을 넘어가는 방법을 구사한 것이다. 4단계에서는 은신팀이 술래팀이 경사로를 이용할 수 없도록 게임이 시작하자마자 경사로를 자신들의 은신처(요새) 안에 숨기고 고정하는 방법을 알아냈다.

오픈AI가 공개한 다요소 학습과 강화학습 전략을 구사하는 술래잡기 인공지능. 술래가 은신팀이 전략을 거꾸로 학습해 경사로를 이용해 은신처로 진입하는 3단계 장면이다. 오픈AI 제공
오픈AI가 공개한 다요소 학습과 강화학습 전략을 구사하는 술래잡기 인공지능. 술래가 은신팀이 전략을 거꾸로 학습해 경사로를 이용해 은신처로 진입하는 3단계 장면이다. 오픈AI 제공

연구진은 애초 4단계가 게임의 마지막 단계일 것이라고 예상했으나, 인공지능은 새로운 방법들을 발견해 구현했다. 3억8000만번 게임이 진행된 단계에서 2가지 추가 방법이 등장했다. 하나는 술래팀이 고정된 경사로를 통해 벽으로 올라간 뒤에 고정되지 않은 블록 위로 올라타고 이동하는 법을 찾아내고, 블록을 쌓아 만든 요새도 뛰어넘어가는 방법을 발견한 것이다. 마지막 단계에서 은신팀은 요새를 짓기 전에 모든 경사로와 블록들을 시작단계에서 고정하는 방법을 알아냈다.

오픈AI가 공개한 다요소 학습과 강화학습 전략을 구사하는 술래잡기 인공지능. 오픈AI 제공
오픈AI가 공개한 다요소 학습과 강화학습 전략을 구사하는 술래잡기 인공지능. 오픈AI 제공

논문 저자의 일원인 보웬 베이커는 “우리는 술래팀과 은신팀에 게임 전략을 알려주지 않았지만 다요소(멀티 에이전트) 경쟁을 통해 새로운 전략을 만들어내고 상대 팀은 그에 적응하는 모습을 구현했다”고 말했다. 연구진은 이러한 실험이 인공지능을 학습을 통해 복잡한 고도의 단계로 스스로 진화할 수 있는 유망한 방법을 제시할 것이라고 기대했다.




출처 : http://www.hani.co.kr/arti/science/future/910089.html