인간을 뛰어넘는 바둑 : 알파고, 알파고 딥마인드, 알파고 제로

참고 용어 : 알파고의 '고'

Go : 일본어로 바둑을 뜻하는 碁(바둑 기. 일본어 음독은 "고")를 의미한다.

Go : 일반적으로 서구 언론에서 바둑을 의미할 때 "고"란 말을 쓴다.

 

 

알파고

 

■ 알파벳의 구글 딥마인드에서 개발한 바둑 인공지능 프로그램

■ 프로기사를 맞바둑으로 최초로 이긴 프로그램

■ 자기 자신과의 자가대국을 통한 학습이 가능하다.

■ 객원기사 자격으로 한국기원에 등록되었다.

■ 다른 바둑 인공지능 프로그램과 대국 :  495전 494승 1패

■ 개발한지 1년이 조금 넘은 지금 현재까지의 인공지능을 압도한다.

■ 2016.03.15 알파고 九단 획득 : 한국기원에서 (명예) 프로 九단 단증을 수여 받았다.

■ 세계 바둑 Elo 레이팅 점수 1위 : 현재는 알파고 개발진측에서 물러나기로 선언한 뒤로 모든 기록이 말소되었다. 참고 : Elo 레이팅 - 미국의 물리학 교수이자 체스 플레이어인 아르파드 엘뢰(Arpad Elo) 박사가 체스에서 플레이어들의 실력을 표현하기 위해 만든 레이팅. 플레이어끼리 대결을 하는 게임에서, 플레이어의 상대적인 실력을 평가하는 점수를 부여해서 비슷한 점수인 플레이어끼리 매치메이킹을 시키려는 목적으로 Elo 레이팅 또는 이를 응용한 레이팅을 사용하기도 한다.

 

↓TPU 알파고 실물이라고 한다. 링크

 

초기 하드웨어로 CPU와 NVIDIA GPU를 이용한 병렬 계산을 사용했다. 병렬연결된 상태의 알파고 vs 싱글 알파고 간 승률 = 77% vs 23%. 개별 컴퓨터 20% 이상의 승률은 학습이 잘 되어있다는 증거이다.

 


✔ 판후이와의 대결 : 알파고는 1202개의 CPU와 176개의 GPU를 사용

✔ 2016.03 이세돌 九단과의 대결 : GPU대신 48개의 TPU를 사용

✔ 마스터 버전과 제로 버전에서는 대폭 줄여 4개의 TPU만을 사용

TPU : 딥 러닝에서 주로 사용되는 벡터/행렬 계산을 병렬처리할 수 있게끔 특화된 하드웨어로

GPGPU에 비해 TPU는 넘사벽급의 와트당 전성비를 자랑한다.

결국 구글은 1년 전부터 TPU를 사용하고 있었고 딥 러닝 오픈소스 툴 텐서플로우도 TPU용으로 개발된 것이었으며, 외부에 공개한 TensorFlow는 GPU용으로 이식한 것이다. 

 

 

딥 러닝 : Deep Learning - 심층학습

 

Deep Learning. 영어 그대로 딥 러닝으로 잘 알려져 있다. 

 

딥 러닝 기술로 10년 넘게 바둑 인공지능을 개발하던 한국, 중국, 일본을 발라버렸다. 컴퓨터 비전이나 음성 인식 등 패턴 인식류 AI 쪽에서 딥러닝이 나오면서 최근 2년 동안의 결과가 지난 30~40년간의 결과를 다 발라버리는 사례는 비단 바둑뿐만은 아니다. 

 

왜 생산성이 없는 게임에 이렇게 투자를 한 것일까. 구글이 딥러닝을 개발하는 이유는 궁극적으로 범용인공지능을 개발하기 위한 하나의 도전과제이기 때문이다. 범용인공지능을 개발은 장기적 관점의 투자라고 해야 할 것이다.

입력과 출력 사이에 있는 인공 뉴런들을 여러개 층층이 쌓고 연결한 인공신경망 기법을 주로 다루는 연구이다. 인공신경망을 여러 개 쌓으면 Deep learning, RNN을 여러 계층으로 쌓으면 Deep RNN, ... 같은 식. 

인공신경망 자체는 꽤 오랫동안 존재해 왔으나 컴퓨터의 연산성능으로는 사실상 쓸만한 모델구현이 불가능했다. 2006 DBN이 발표되면서부터 이러한 연구구조가 변했고, 2009 인공지능 분야의 구세주로 추앙받고 있다. 그리고 알파고가 기존 바둑 프로그램과의 가장 큰 차이를 보이는 부분은 하드웨어가 아닌 소프트웨어의 알고리즘이라고 한다. 

 

 

구글 딥마인드

 


데미스 허사비스 : 구글 딥마인드 최고경영자(CEO) - 16세부터 Bullfrog에서 다수의 게임 인공지능을 프로그래밍하였으며, 블랙 앤 화이트에 구현했던 강화 학습 인공지능이 계기가 되었는지, 2018년 현재도 강화 학습을 중심으로 한 인공지능들을 개발하고 있다. 

아자 황(Aja Huang) : 구글 딥마인드 연구원이자, 알파고의 핵심 개발자.

 

주요목표는 기계학습(machine learning)과 신경과학(neuroscience)를 기반으로 인간 지능을 분석, 구현하는 것. 인공물에 인공 지능을 탑재하는 것 뿐만 아니라 인간 지능의 궁극적인 이해를 목표로 두고 있다.

 

대국 내역

 

■ 2015.10 : vs 판 후이 - 5전 5승 0패 
■ 2016.03 : vs 이세돌 - 5전 4승 1패 
■ 2017.05 : vs 커제 - 3전 3승 0패

■ 2017.05 기준 : 프로 바둑 기사와의 공식 전적은 총 13전 12승 1패

 

비공식 대국


■ vs 판 후이 (속기전) : 5전 3승 2패 (기보 미공개) 
■ 인터넷 대국 (속기전) : 한중일 정상급 기사를 상대로 60전 60승 0패
■ vs 중국기사 5명 (상담기) : 1국을 두어 승리

기보를 남긴 대전을 기준으로 하면 총 74전 73승 1패

판후이와의 속기전은 기보가 공개되지 않았다. 판후이는 알파고 개발에 깊게 관여했었기에, 그 이후로도 알파고와 자주 바둑을 둔다고 한다. 

 

기타 대국


■ 페어 바둑 : 양쪽팀에서 알파고가 같이 두었기에, 승패에 의미를 부여할 순 없다. 그래도, 기보는 남았다. 
■ 자체 대국 : 딥마인드는 알파고의 은퇴 발표후, 알파고끼리 대전한 기보 중 50개를 추려 공개하였다.

 

 

판후이와의 대결

→ 알파고는 1202개의 CPU와 176개의 GPU를 사용

 

2016년 3월 이세돌 九단과의 대결

→ GPU대신 48개의 TPU를 사용

매치 4국에서 알파고가 첫 ‘항복’ 선언을 하면서 처음으로 모니터에 팝업창이 뜨자 현장 컴퓨터는 우분투 PC였다는 사실이 드러났다. 우분투Ubuntu 는 개방형 OS로 유명하다.

팝업창은 “AlphaGo resigns(알파고가 물러난다)”라는 제목으로 “The result ‘W+resign’ was added to the game information(게임정보에 백돌 패배 결과가 입력됐습니다)”라는 메시지를 담았다. 이 창은 우분투의 팝업창이다.

 

 

마스터 버전과 제로 버전

→ 4개의 TPU만을 사용

TPU는 딥 러닝에서 주로 사용되는 벡터/행렬 계산을 병렬처리할 수 있게끔 특화된 하드웨어이다. 물론 GPU도 해당 목적으로 사용되기는 하지만 GPGPU에 비해 TPU는 넘사벽급의 와트당 전성비를 자랑한다. 

 

결국 구글은 1년 전부터 TPU를 사용하고 있었고 딥 러닝 오픈소스 툴 텐서플로우도 TPU용으로 개발된 것이었으며, 외부에 공개한 TensorFlow는 GPU용으로 이식한 것. 


초중반이 매우 강하다

 

원래 바둑 AI들이 등장했을 때, 사람들은 '기계라 계산에 강할 것이므로 후반에는 강하지만 초중반에는 사람의 직관을 따라올 수 없을 것이다.'라고 생각했으나 이는 AI의 알고리즘을 정확히 이해하지 못한 생각이었던 것으로 드러났다. 실제 절예나 딥젠고 등의 다른 바둑 AI들도 초중반에서 극강의 모습을 보여준다. 초중반에는 후반보다 판단해야 할 가짓수가 많고 변화도 복잡할 수 있어 인간도 철저한 계산보다는 직관을 통해 유불리를 판단하는 수준인데, 딥러닝을 통해 인간의 직관을 모방한 기계의 대세 판단 능력이 오히려 인간을 능가하고 있다. 

좀 더 자세히 설명하자면, 계산해야 하는 가지수가 적은 후반에는 인간이 기계의 계산 능력에 대항할 수 있지만, 그 경우의 수가 무시무시하게 많은 초중반에는 세력이니 직관이니 하는 인간의 어설픈 시각이 기계의 계산능력을 따라가지 못하는 것이다. 결국 알파고는 ‘모든 것은 계산으로 감당할 수 있다’는 새로운 사실을 바둑계에 뼈저리게 알려주었다.

초중반을 유리하게 가져갔다면 후반에는 마치 실수나 버그인 것처럼 보일 정도로 철저하게 물러서면서 설렁설렁 두기 시작한다. 초중반에 수십 집을 벌어놓고 후반에 다 내주는 경우도 흔하다. 다만 딱 이길 만큼만 물러난다. 커제와의 3국에서 커제가 어디까지 봐주나 보자라는 식으로 강수를 남발하자 '더 이상 내주면 역전당한다'라고 판단했는지 커제의 대마를 깔끔하게 잡아버린다.

 

 

사활과 중 후반

 

사활에 약하다. 퀴즈를 위해 강제로 이상한 모양을 만든 경우 거의 동작하지 않는다고 보면 된다. 비슷한 딥러닝 알고리즘을 사용하는 절예나 딥젠고의 경우 인간이 무리없이 계산하는 후반의 사활과 끝내기에서 실수를 보여 역전당하는 경우가 있었다. 중국 프로가 찾아낸 알파고 제로의 실수에서도 볼 수 있듯이 패가 걸려있는 복잡한 상황에서 알파고를 비롯한 다른 인공지능들이 잘못된 선택을 하는 것을 알 수 있다. 알파고의 초중반이 워낙 막강해 버티는 것이 불가능할 뿐 일단 중후반까지 팽팽하게 갔다면 의외의 모습을 보일 수도 있다는 말. 문제는 인간을 상대로 이 상황까지 온적이 이세돌 4국 딱 한번뿐. 

 

축 버그

 

인공지능의 대표적인 버그라고 할 정도로 유명하다. 축의 결과를 보려면 수십수짜리 수읽기를 해야되기 때문에 사람의 경우 축머리만 확인하도록 교육받고, 구식 인공지능도 이 부분에 예외 코드를 넣어서 처리했다. 하지만 별도의 지식 주입 없이 강화학습만을 사용하는 제로계열 인공지능은 실제로 될때까지 두어보고 학습되기를 바라는 수밖에 없다. 카카오에서 개발한 인공지능 '오지고'도 축이 학습되지 않아 인간에게 싱겁게 패했다. 

 

 

인공지능은 확실한 반집승과 불확실한 대승 중 전자를 선택하지만, 덤이 한집 차이나게 되면 확실한 반집승은 확실한 반집패가 되어버린다.

 

별도의 지식 주입 없이 학습했다는 말은 반대로 덤의 차이 같은 미묘한 페널티를 인식시킬 수 없으며, 이를 해결하기 위해선 덤을 바꾼 규칙으로 밑바닥에서부터 다시 학습을 시작해 별개의 버전을 만드는 수밖에 없다는 소리이다. 그래서 인공지능으로 덤이 지금(중국식 7.5집)보다 더 적거나 없던 시절의 바둑을 검토할 땐 인공지능을 100% 신뢰해서는 안된다. 또 인공지능으로 접바둑을 둘 경우 흑이 덤은 그대로 가진 상태에서 백이 돌만 깔고 두는 이상한 규칙을 사용할 수밖에 없다.

 

 

알파고 이후

알파고가 인간 바둑계에 내려준 가장 큰 선물이라 불리고 있다.


■ 기존의 바둑 이론들에 대한 의심과 파훼 되었다.

■ 고정관념 탈피, 인간 바둑 전체에 대한 전면적인 재검토가 진행되고 있다.

■ 프로 기사들이 AI로 훈련하자, 결국 인간의 바둑이 상향 평준화되었다. 

■ 3-3 수법이 대중화되고 이전보다 포석이 다양해졌다.

■ 바둑의 해설에도 영향을 주어 실시간으로 승률을 분석할 수 있게 되었다.

 

인공지능은 바둑 세계 최강자의 조건을 새롭게 정의했다.

 

"개성은 없어도 되지만 약점이 있으면 안 된다"

 

대표적으로 예전에는 상대의 화점에 대해 바로 3의 3으로 침투하는 것은 지나치게 실리적인 수여서 불리하다고 했지만, 인공지능은 묻지마 33이다. 현재 극초반 3.3 침투는 누구나 다 하는 정수가 되었다. 
간단하게 말하면 기존에도 중요했지만 복기의 중요성이 훨씬 더 크게 올라갔다. 복기를 통해 여러가지 수를 시험해보고 그 수를 다른 대국에서 써먹어야 한다는 것. 기존에 복기를 할 때에는 어느정도 고정관념 하에서 서로 아는 부분은 제외하고 문제 수들만 복기하곤 했는데, 이제는 전면적으로 처음부터 끝까지 복기를 해야하는 시대가 개막하였다.

 

 

명예 프로 九단 수여

 

 

제 001호 
명예 九단 알파고 

귀하는 평소 기도연마에 정진하고 기사로서 인격도야에 힘써 기품이 입신의 역에 이르렀으므로 九단을 면허합니다.

 

2016년 3월 15일 
재단법인 한국기원 
총재 홍석현

 

 

이세돌 9단과의 5국 종료 이후 홍석현 중앙일보 회장(한국기원 총재 겸임)이 한국기원 총재 자격으로 알파고한테 명예 프로 九단 단증을 수여했다. 

당초에는 전통적으로 하던 것처럼 한자에 붓글씨로 직접 쓴 단증을 수여하려고 하였다가, 한국인과 영국계 기업 간의 대결이었다는 점을 고려해 한글/영문으로 병기된 단증을 수여하는 것이 어떠냐는 지적을 받아들여, 한국기원에서 부랴부랴 새 단증을 뽑았다. 다만 이것도 九단이 9단으로 표기되어 별로 좋지는 않다. 대국 후 기자회견에서 둘 다 수여(한글/영문본은 사진찍는 대외용, 원본은 기자회견 직전에 수여되었다고 한다)되었다.

 

 

인터넷 바둑


허사비스 딥마인드 대표는 2017년 초 알파고가 다시 활동할 것이라고 언급했으며, 실제로 2016년 12월 말부터 2017년 1월초까지 한국의 타이젬 바둑과 중국의 텐센트에서 서비스하는 한큐바둑(구리 九단이 회장)에서 ‘Magister(P)’(타이젬), ‘Master(P)’(한큐)이라는 ID로 활동하며 한·중·일 정상급 기사들에 60연승을 거둬 전세계 바둑계를 경악시켰다.

 

격파된 일류 기사들만 해도 커제, 박정환, 안성준, 스웨, 렌샤오, 탄샤오, 양딩신, 강동윤, 김지석, 구리, 이야마 유타, 김정현, 신진서, 저우루이양, 판팅위, 탕웨이싱, 리친청 등 쟁쟁한 기사들이다. 자신을 최초로 이기는 사람에게 상금 10만 위안(한화 1천7백만 원)을 지급하겠다고 밝힌 바 있다.

 

여담으로 이 60번의 대국 중에 흉내바둑을, 그것도 맞바둑에서 먼저 두는 흑으로 흉내낸 용자가 있었으니 대만의 저우쥔신(周俊勳) 9단이다, 물론 알파고가 60연승을 한 걸 보면 알듯 안 먹힌다.

정체를 밝히기 전부터 ID가 한국 국적이며 (P)는 프로 기사에게 주어지는 점을 들어 한국에서 명예 9단을 수여받은 알파고일 것이라고 추측되었다. 그리고 결국 해당 계정이 알파고가 맞음이 관계자의 트위터를 통하여 확인되었다. 기사 이때 하사비스가 알파고를 소개하면서 '새로운 프로토타입'이라고 했기 때문에 단순 업그레이드 버전이 아니라 신경망 구조 또는 학습방법이 다른 새로운 버전인 것으로 추측된다.인터넷에서 기보를 정리하고 있으나 빠진 대국이 아직 많다.

 

참고로 이세돌과 붙은 알파고 버전과 이 버전(밑에서 나오는 커제와 붙은 버전이기도 하다)는 이세돌 버전보다 3점 더 차이가 난다고 한다. 이 정도면 실력면에선 알파고 자신말고는 당해낼 자가 없는 셈.

 

 

바둑계 은퇴 선언


구글 딥마인드의 허사비스 최고경영자는 '바둑의 미래 포럼' 폐막 기자회견에서 "이번 행사가 알파고가 참가하는 마지막 바둑 대국"이라고 밝혔다. 공식 전적은 총 13전 12승 1패. 기보를 남긴 대국 기준으로는 총 74전 73승 1패. 이후 알파고를 교육용도로 공개할 수는 있다고 밝혔다. 

알파고의 진정한 정체는 모든 IT 서비스에 적용되는 단일 인공지능을 목표로 개발되는 물건. 일련의 바둑대전은 그 인공지능이 바둑이라는 게임 상대로 어느정도의 성과를 낼 수 있는지 시험해보는 테스트 성격이었고, 이제 충분히 연구가 진행되었으니 더 이상 여기에 자원을 투자할 필요가 없는 것. 

이후 구글은 알파고 자체의 기보를 50개 공개했다. 5월 27일부터 하루에 10판씩 공개하기로 했지만, 28일에 남은 40판이 모두 나왔다. 

2017.10월 네이처지의 논문을 통해 알파고 제로 버전이 공개.

이는 4월에 제출한 논문이 심사 끝에 10월에 공개된 것이므로 은퇴를 번복한 것은 아니다. 레딧에서 있었던 개발자 문답에 따르면 알파고의 HW는 이미 다른 용도로 사용중이며, 이 버전으로 새로운 대결을 할 예정도 없다고 한다. 

2017.12월 arXiv에 올린 논문을 통해 알파 제로가 공개. 

알파고 제로의 알고리즘을 다른 게임에도 적용할 수 있도록 일반화해서 바둑, 체스, 쇼기에서 기존 세계 최고 알고리즘들을 꺾었다.

 

 

개발 완전 종료 선언


2017년 12월 14일(미국시간), 아자 황 박사가 알파고와의 여정을 종료(The End)한다며, 알파고의 모든 자원을 다른 인공지능 개발자원으로 변경할 것이라고 밝혔다.

 

 

 

알파고 제로 (알파고 2.0)


인간의 기보 입력 없이 자체 학습만으로 기력을 향상하는 버전.


2017.10.19일 네이처에 발표한 논문을 통해 알파고 제로라는 이름으로 공개됐다. 하드웨어는 마파고와 동일한 TPU 4개를 사용하며, 소프트웨어적으로는 가치망과 정책망 2개의 신경망을 사용했던 기존 버전들과는 달리 새로운 신경망 1개만을 사용하도록 변경되었다. 주어진 기보 없이 한 수에 0.4초씩 걸리는 속기를 통해 학습을 진행했다.

 

학습 결과

 

구글이 추정한 ELO 레이팅은 5185. 인간의 방식을 전혀 사용하지 않고, 강화학습만을 통해 말 그대로 無(ZERO)에서 神의 경지까지 오른 것이다. 

 

■ 36시간 만에 돌파고(이세돌과 상대한 버전) 수준을 능가

■ 72시간(490만판)을 학습 뒤에는 돌파고와 실전과 동일한 조건으로 뒀을 때(제한시간 2시간) 100전 100승

■ 40일(2900만판)을 학습한 후에는 마파고(커제와 상대한 버전)를 압도. 100전 89승 11패

 

하지만 아쉽게도 이후 훈련을 멈추었다고 한다.

 

제작자 Q&A에서 왜 40일만 훈련했냐는 물음에 "만약 우리가 3개월 동안 훈련했다면 왜 6개월 동안 안했냐고 물을거잖아?"라고 답변했다. 이 버전으로 인간과 대국할 계획도 없으며, 이미 알파고의 하드웨어와 연구원들은 다른 일에 투입된 상태라고 한다. 


참고로, 알파고 제로의 학습에는 TPU 2000개가 투입되었다. 이는 약 90PFLOPS에 해당되는 무지막지한 연산 성능이고, 이러한 연산 자원을 한 달 넘게 온전히 바둑 연구에만 투입한다는 것은 구글이 아니면 감히 흉내내기 어려운 짓이기는 하다. (2017년 현재 슈퍼컴퓨터 1위의 성능이 93PFLOPS, 2위 성능이 34PFLOPS) 

 

 

 

 

알파 제로


2017.12 arXiv를 통해 공개

알파고 제로에서 '고'가 빠진 것에서 알 수 있듯이 기존 알파고 제로의 알고리즘을 일반화시켜 다른 게임에도 적용할 수 있도록 한 것.

 

논문에서는 바둑, 체스, 쇼기를 학습했으며, 기존 최강급 알고리즘을 모두 꺾었다. 논문에서는 체스를 위주로 설명했으며, Stockfish를 상대로 승리한 기보 10개를 공개했다. 

 

체스

 

4시간부터 이기기 시작해 9시간(4400만판) 트레이닝 후 Stockfish를 상대로 백으로 25승 25무, 흑으로 3승 47무로 100 판 종합전적 28승 72 무승부 무패로 완승,. Stockfish 는 전통적인 탐색 트리 방식의 체스 프로그램으로 최고의 레이팅 기록을 가진 프로그램. 알파고의 방식이 고속 탐색 방식보다 우월함을 보여주고 있다.

 


쇼기

 

2시간부터 이기기 시작해 12시간(2400만판) 트레이닝 후 Elmo을 상대로 백으로 43승 2무 5패, 흑으로 47승 3패로 압승.

 

 

 

우분투 Ubuntu

 

2016.03.13 서울 광화문 포시즌 호텔에서 열린 '구글 딥마인드 챌린지 매치' 4국에서 이세돌이 알파고에 180수 만에 불계승을 거두었다.  알파고가 항복하면서 띄운 팝업창의 모습을 보면 최소한 모니터가 설치된, 클라이언트에 해당하는 컴퓨터에서는 우분투인 것으로 나타났다. 이것은 알파고의 착점을 알려주는 컴퓨터 운영체제(OS)로서 개방형 OS로 유명하다. 다만 분산 컴퓨팅을 하는 알파고의 특성상 여러 개의 컴퓨터와 연동되어 작동하게 되어 있는데, 나머지 시스템의 OS도 우분투라고 확신할 수는 없다.

 

우분투 기사 : 알파고 ‘항복’에 드러난 대국장 PC 정체는..‘우분투’

 

팝업창은

제목 : AlphaGo resigns - 알파고가 물러난다 라는 의미

내용 : The result ‘W+resign’ was added to the game information - 게임정보에 백돌 패배 결과가 입력됐습니다

이 창은 우분투의 팝업창이다.

사업자 정보 표시
사업자 등록번호 : -- | TEL : --

댓글