알파고의 등장

■ 알파벳의 구글 딥마인드에서 개발한 바둑 인공지능 프로그램. 

■ 프로기사를 맞바둑으로 최초로 이긴 프로그램

■ 이름에서 "Go"란 일본어로 바둑을 뜻하는 碁(바둑 기. 일본어 음독은 "고")를 의미

■ 일반적으로 서구 언론에서 바둑을 의미할 때 "고"란 말을 쓴다.
■ 2016년 03월 15일 한국기원에서 (명예) 프로 九단 단증을 수여, 알파고 九단

■ 객원기사 자격으로 한국기원에 등록되었다.

■ 세계 바둑 ELO 레이팅 점수 1위

 

 

관련인물 설명

 

딥마인드


데미스 허사비스: 구글 딥마인드 최고경영자(CEO).
아자 황(Aja Huang): 구글 딥마인드 연구원이자, 알파고의 핵심 개발자. 손이 없는 알파고 대신 바둑알을 놓는 인물. 인류 최초의 배신자

 

바둑 기사


판후이: 2015년 10월 알파고와 대국
이세돌: 2016년 3월 알파고와 대국하였다. 알파고에게 통산 유일한 1패를 안긴 단 한명의 기사
커제: 2017년 5월 알파고와 대국

 

 

대국 내역

 

68전 67승 1패로 집계하는 경우도 있는데, vs 이세돌, vs 커제, 인터넷 속기전 60전을 기준으로 나온 전적이다. 

 

2017년 5월 27일 기준. 프로 바둑 기사와의 공식 전적은 총 13전 12승 1패

 

vs 판 후이 : 5전 5승 0패
vs 이세돌 : 5전 4승 1패
vs 커제 : 3전 3승 0패

 

비공식 대국


vs 판 후이 (속기전) : 5전 3승 2패 (기보 미공개)
인터넷 대국 (속기전) : 한중일 정상급 기사를 상대로 60전 60승 0패
vs 중국기사 5명 (상담기) : 1국을 두어 승리

기보를 남긴 대전을 기준으로 하면 총 74전 73승 1패이다. 판후이와의 속기전은 기보가 공개되지 않았다. 여담으로, 판후이는 알파고 개발에 깊게 관여했었기에, 그 이후로도 알파고와 자주 바둑을 둔다고 한다.

 

기타 대국


페어 바둑 : 양쪽팀에서 알파고가 같이 두었기에, 승패에 의미를 부여할 순 없다. 그래도, 기보는 남았다.
자체 대국 : 딥마인드는 알파고의 은퇴 발표후, 알파고끼리 대전한 기보 중 50개를 추려 공개하였다.

 

 

초기엔 하드웨어로는 CPU와 NVIDIA GPU를 이용한 병렬 계산을 사용한다고 발표했다. 이렇게 병렬 계산의 알파고 vs 싱글 알파고 간의 바둑에선 77% vs 23%의 승률이 나왔다고 한다. 개별 컴퓨터가 20% 이상의 승률을 보여줬다는 것만으로도 얼마나 학습이 잘 되어 있는지를 알려주는 대목.

 

판후이와의 대결

→ 알파고는 1202개의 CPU와 176개의 GPU를 사용

 

2016년 3월 이세돌 九단과의 대결

→ GPU대신 48개의 TPU를 사용

매치 4국에서 알파고가 첫 ‘항복’ 선언을 하면서 처음으로 모니터에 팝업창이 뜨자 현장 컴퓨터는 우분투 PC였다는 사실이 드러났다. 우분투Ubuntu 는 개방형 OS로 유명하다.

팝업창은 “AlphaGo resigns(알파고가 물러난다)”라는 제목으로 “The result ‘W+resign’ was added to the game information(게임정보에 백돌 패배 결과가 입력됐습니다)”라는 메시지를 담았다. 이 창은 우분투의 팝업창이다.

 

 

마스터 버전과 제로 버전

→ 4개의 TPU만을 사용

TPU는 딥 러닝에서 주로 사용되는 벡터/행렬 계산을 병렬처리할 수 있게끔 특화된 하드웨어이다. 물론 GPU도 해당 목적으로 사용되기는 하지만 GPGPU에 비해 TPU는 넘사벽급의 와트당 전성비를 자랑한다. 

 

결국 구글은 1년 전부터 TPU를 사용하고 있었고 딥 러닝 오픈소스 툴 텐서플로우도 TPU용으로 개발된 것이었으며, 외부에 공개한 TensorFlow는 GPU용으로 이식한 것. 


자기 자신과의 자가대국을 통한 학습이 가능

 

사내 테스트 결과 다른 바둑 인공지능 프로그램들을 상대로 495전 494승 1패를 기록했다. 이 중 한 판은 알파고의 '실수'로 졌다고 하며 그 약점은 이미 보완이 끝났기 때문에 명실공히 현 최강의 인공지능 프로그램으로 군림하고 있다. 현재까지 나온 모든 바둑 인공지능을 성능으로 압도하여 바둑 인공지능 대회인 UEC를 계속 지속해야 하는가 등을 투표하는 등 굉장한 충격을 받고 있다.  

덤으로 서로 바둑 최강국임을 자부하며 10년 넘게 바둑 인공지능을 개발해오던 한국, 중국, 일본의 개발자들은 그 모든 기술과 노하우들이 고작 개발이 1년 좀 넘은 정도인 알파고가 발표됨과 동시에 전부 따라잡히며 성능으로도 처참하게 발려버리는 엄청난 격차가 생겨 순식간에 모든 프로그램을 한물 간 프로그램으로 만들어버리는 안습한 상황이 벌어졌다. 딥 러닝 기술의 위엄이 드러나는 대목.

컴퓨터 비전이나 음성 인식 등 패턴 인식류 AI 쪽에서 딥러닝이 나오면서 최근 2년 동안의 결과가 지난 30~40년간의 결과를 다 발라버리는 사례는 비단 바둑뿐만은 아니다. 그러나 딥러닝은 나름대로의 최신 트렌드인데다 이미지, 음성, 자연어 처리같이 해야 할 일이 산더미 같은 상황에 바둑에 연구진을 투입할 수 있는 여유를 가진 곳은 드물다. 

 

AI와 하드웨어, 분산 처리 모두에 풍부한 박사급 인력을 가진 구글에서나 해볼 만한 일이며, 현 시점 한중일에서는 비슷한 것을 시도해 볼 수 있는 회사는 없다고 보면 된다. 쉽게 말해 돈 안 되는 사업에 최고급 인력과 자본, 시간을 양동이채로 퍼붓는 양상이 가능한 회사만이 할 수 있는 일이다. 다만, 구글이 이걸 개발하는 이유는 궁극적으로 범용인공지능을 개발하기 위한 하나의 도전과제이기 때문이다. 다시 말하자면, 범용인공지능을 개발하면 벌 수 있는 막대한 돈을 생각한 장기적 관점의 투자인 것이다.

흔히 알파고의 강점이 엄청난 하드웨어를 바탕으로 한 계산량이라고 생각하는 경우가 많다. 그러나 알파고가 기존 바둑 프로그램과의 가장 큰 차이를 보이는 부분은 하드웨어가 아니라 소프트웨어의 알고리즘이다. 알파고는 일반 컴퓨터에서도 돌릴 수 있다. 단지 지금보다 기력이 떨어질 뿐 컴퓨터 1대에서 돌아가는 알파고를 CPU 1,000개가 넘어가는 알파고가 이길 확률이 고작 77%였다. 

 


초중반이 매우 강하다

 

원래 바둑 AI들이 등장했을 때, 사람들은 '기계라 계산에 강할 것이므로 후반에는 강하지만 초중반에는 사람의 직관을 따라올 수 없을 것이다.'라고 생각했으나 이는 AI의 알고리즘을 정확히 이해하지 못한 생각이었던 것으로 드러났다. 실제 절예나 딥젠고 등의 다른 바둑 AI들도 초중반에서 극강의 모습을 보여준다. 초중반에는 후반보다 판단해야 할 가짓수가 많고 변화도 복잡할 수 있어 인간도 철저한 계산보다는 직관을 통해 유불리를 판단하는 수준인데, 딥러닝을 통해 인간의 직관을 모방한 기계의 대세 판단 능력이 오히려 인간을 능가하고 있다.

좀 더 자세히 설명하자면, 계산해야 하는 가지수가 적은 후반에는 인간이 기계의 계산 능력에 대항할 수 있지만, 그 경우의 수가 무시무시하게 많은 초중반에는 세력이니 직관이니 하는 인간의 어설픈 시각이 기계의 계산능력을 따라가지 못하는 것이다. 결국 알파고는 ‘모든 것은 계산으로 감당할 수 있다’는 새로운 사실을 바둑계에 뼈저리게 알려준 셈.

초중반을 유리하게 가져갔다면 후반에는 마치 실수나 버그인 것처럼 보일 정도로 철저하게 물러서면서 설렁설렁 두기 시작한다. 김성룡 9단은 이를 '닦아버린다'고 표현. 초중반에 수십 집을 벌어놓고 후반에 다 내주는 경우도 흔하다. 다만 딱 이길 만큼만 물러난다. 커제와의 3국에서 커제가 어디까지 봐주나 보자라는 식으로 강수를 남발하자 '더 이상 내주면 역전당한다'라고 판단했는지 커제의 대마를 깔끔하게 잡아버린다.

 

 

중후반 끝내기

 

딥러닝으로 중반 이후를 학습하기 위해선 그 시점까지 미세하게 진행된 엄청난 양의 기보가 필요한데, 이는 알파고끼리의 강화학습에서도 잘 나오지 않는다. 비슷한 딥러닝 알고리즘을 사용하는 절예나 딥젠고의 경우 인간이 무리없이 계산하는 후반의 사활과 끝내기에서 실수를 보여 역전당하는 경우가 있었다. 중국 프로가 찾아낸 알파고 제로의 실수에서도 볼 수 있듯이 패가 걸려있는 복잡한 상황에서 알파고를 비롯한 다른 인공지능들이 잘못된 선택을 하는 것을 알 수 있다. 알파고의 초중반이 워낙 막강해 버티는 것이 불가능할 뿐 일단 중후반까지 팽팽하게 갔다면 의외의 모습을 보일 수도 있다는 말. 문제는 인간을 상대로 이 상황까지 온적이 이세돌 4국 딱 한번뿐이라는 점.

 

사활

 

사활에 약하다. 퀴즈를 위해 강제로 이상한 모양을 만든 경우 거의 동작하지 않는다고 보면 된다.

 

축 버그

 

인공지능의 대표적인 버그라고 할 정도로 유명하다. 축의 결과를 보려면 수십수짜리 수읽기를 해야되기 때문에 사람의 경우 축머리만 확인하도록 교육받고, 구식 인공지능도 이 부분에 예외 코드를 넣어서 처리했다. 하지만 별도의 지식 주입 없이 강화학습만을 사용하는 제로계열 인공지능은 실제로 될때까지 두어보고 학습되기를 바라는 수밖에 없다. 카카오에서 개발한 인공지능 '오지고'도 축이 학습되지 않아 인간에게 싱겁게 패했다. 

 

 

인공지능은 확실한 반집승과 불확실한 대승 중 전자를 선택하지만, 덤이 한집 차이나게 되면 확실한 반집승은 확실한 반집패가 되어버린다.

 

별도의 지식 주입 없이 학습했다는 말은 반대로 덤의 차이 같은 미묘한 페널티를 인식시킬 수 없으며, 이를 해결하기 위해선 덤을 바꾼 규칙으로 밑바닥에서부터 다시 학습을 시작해 별개의 버전을 만드는 수밖에 없다는 소리이다. 그래서 인공지능으로 덤이 지금(중국식 7.5집)보다 더 적거나 없던 시절의 바둑을 검토할 땐 인공지능을 100% 신뢰해서는 안된다. 또 인공지능으로 접바둑을 둘 경우 흑이 덤은 그대로 가진 상태에서 백이 돌만 깔고 두는 이상한 규칙을 사용할 수밖에 없다.

 

 

알파고 이후


기존의 바둑 이론들에 대한 의심과 파훼 노력, 고정관념 탈피, 인간 바둑 전체에 대한 전면적인 재검토가 진행되고 있다. 이게 바로 알파고가 인간 바둑계에 내려준 가장 큰 선물이라 불리고 있다.


대표적으로 예전에는 상대의 화점에 대해 바로 3의 3으로 침투하는 것은 지나치게 실리적인 수여서 불리하다고 했지만, 인공지능은 묻지마 33이라고 부를만큼 이 수를 자주 썼다. 현재 극초반 3.3 침투는 누구나 다 하는 정수가 되었다.
간단하게 말하면 기존에도 중요했지만 복기의 중요성이 훨씬 더 크게 올라갔다. 복기를 통해 여러가지 수를 시험해보고 그 수를 다른 대국에서 써먹어야 한다는 것. 기존에 복기를 할 때에는 어느정도 고정관념 하에서 서로 아는 부분은 제외하고 문제 수들만 복기하곤 했는데, 이제는 전면적으로 처음부터 끝까지 복기를 해야하는 시대가 개막하였다.


프로 기사들이 AI로 훈련하자, 결국 인간의 바둑이 상향 평준화되었다. 

3-3 수법이 대중화되고 이전보다 포석이 다양해졌다.

바둑의 해설에도 영향을 주어 실시간으로 승률을 분석할 수 있게 되었다.

 

 

인공지능은 바둑 세계 최강자의 조건을 새롭게 정의했다. 

 

개성은 없어도 되지만 약점이 있으면 안 된다.

 

 

명예 프로 九단 수여

 

 

제 001호
명예 九단 알파고

귀하는 평소 기도연마에 정진하고 기사로서 인격도야에 힘써 기품이 입신의 역에 이르렀으므로 九단을 면허합니다.

 

2016년 3월 15일
재단법인 한국기원
총재 홍석현

 

 

이세돌 9단과의 5국 종료 이후 홍석현 중앙일보 회장(한국기원 총재 겸임)이 한국기원 총재 자격으로 알파고한테 명예 프로 九단 단증을 수여했다. 기사 명예 프로라고 하지만 실제로 한국기원 데이터에도 九단 명단에 포함시킬 예정(객원기사 자격)이라고 한다. 이제 진짜로 알파고가 프로 九단이 되는 것.

당초에는 전통적으로 하던 것처럼 한자에 붓글씨로 직접 쓴 단증을 수여하려고 하였다가, 한국인과 영국계 기업 간의 대결이었다는 점을 고려해 한글/영문으로 병기된 단증을 수여하는 것이 어떠냐는 지적을 받아들여, 한국기원에서 부랴부랴 새 단증을 뽑았다. 다만 이것도 九단이 9단으로 표기되어 별로 좋지는 않다. 대국 후 기자회견에서 둘 다 수여(한글/영문본은 사진찍는 대외용, 원본은 기자회견 직전에 수여되었다고 한다)되었다.

 

 

인터넷 바둑


허사비스 딥마인드 대표는 2017년 초 알파고가 다시 활동할 것이라고 언급했으며, 실제로 2016년 12월 말부터 2017년 1월초까지 한국의 타이젬 바둑과 중국의 텐센트에서 서비스하는 한큐바둑(구리 九단이 회장)에서 ‘Magister(P)’(타이젬), ‘Master(P)’(한큐)이라는 ID로 활동하며 한·중·일 정상급 기사들에 60연승을 거둬 전세계 바둑계를 경악시켰다.

 

격파된 일류 기사들만 해도 커제, 박정환, 안성준, 스웨, 렌샤오, 탄샤오, 양딩신, 강동윤, 김지석, 구리, 이야마 유타, 김정현, 신진서, 저우루이양, 판팅위, 탕웨이싱, 리친청 등 쟁쟁한 기사들이다.

자신을 최초로 이기는 사람에게 상금 10만 위안(한화 1천7백만 원)을 지급하겠다고 밝힌 바 있다.

 

여담으로 이 60번의 대국 중에 흉내바둑을, 그것도 맞바둑에서 먼저 두는 흑으로 흉내낸 용자가 있었으니 대만의 저우쥔신(周俊勳) 9단이다, 물론 알파고가 60연승을 한 걸 보면 알듯 안 먹힌다.

정체를 밝히기 전부터 ID가 한국 국적이며 (P)는 프로 기사에게 주어지는 점을 들어 한국에서 명예 9단을 수여받은 알파고일 것이라고 추측되었다. 그리고 결국 해당 계정이 알파고가 맞음이 관계자의 트위터를 통하여 확인되었다. 기사 이때 하사비스가 알파고를 소개하면서 '새로운 프로토타입'이라고 했기 때문에 단순 업그레이드 버전이 아니라 신경망 구조 또는 학습방법이 다른 새로운 버전인 것으로 추측된다.인터넷에서 기보를 정리하고 있으나 빠진 대국이 아직 많다.

 

참고로 이세돌과 붙은 알파고 버전과 이 버전(밑에서 나오는 커제와 붙은 버전이기도 하다)는 이세돌 버전보다 3점 더 차이가 난다고 한다. 이 정도면 실력면에선 알파고 자신말고는 당해낼 자가 없는 셈.

 

 

바둑계 은퇴 선언


구글 딥마인드의 허사비스 최고경영자는 '바둑의 미래 포럼' 폐막 기자회견에서 "이번 행사가 알파고가 참가하는 마지막 바둑 대국"이라고 밝혔다. 공식 전적은 총 13전 12승 1패. 기보를 남긴 대국 기준으로는 총 74전 73승 1패. 이후 알파고를 교육용도로 공개할 수는 있다고 밝혔다.

사실 알파고는 바둑에서만 손을 뗀 거지 다른 일은 여전히 다른 이름으로 하고 있다. 알파고의 진정한 정체는 모든 IT 서비스에 적용되는 단일 인공지능을 목표로 개발되는 물건이라는 것이다. 일련의 바둑대전은 그 인공지능이 바둑이라는 게임 상대로 어느정도의 성과를 낼 수 있는지 시험해보는 테스트 성격이었고, 이제 충분히 연구가 진행되었으니 더 이상 여기에 자원을 투자할 필요가 없는 것.

이후 구글은 알파고 자체의 기보를 50개 공개했다. 5월 27일부터 하루에 10판씩 공개하기로 했지만, 28일에 남은 40판이 모두 나왔다. 알파고의 자체대국 내용은 알파고 vs 알파고 문서참조.

2017년 10월 네이처지의 논문을 통해 알파고 제로 버전이 공개.

이는 4월에 제출한 논문이 심사 끝에 10월에 공개된 것이므로 은퇴를 번복한 것은 아니다. 레딧에서 있었던 개발자 문답에 따르면 알파고의 HW는 이미 다른 용도로 사용중이며, 이 버전으로 새로운 대결을 할 예정도 없다고 한다.

2017년 12월 arXiv에 올린 논문을 통해 알파 제로가 공개. 

알파고 제로의 알고리즘을 다른 게임에도 적용할 수 있도록 일반화해서 바둑, 체스, 쇼기에서 기존 세계 최고 알고리즘들을 꺾었다.

 

 

개발 완전 종료 선언


2017년 12월 14일(미국시간), 아자 황 박사가 알파고와의 여정을 종료(The End)한다며, 알파고의 모든 자원을 다른 인공지능 개발자원으로 변경할 것이라고 밝혔다.

 

 

 

알파고 제로 (알파고 2.0)


인간의 기보 입력 없이 자체 학습만으로 기력을 향상시킨다고 한 버전. 


2017년 10월 19일 네이처에 발표한 논문을 통해 알파고 제로라는 이름으로 공개됐다. 하드웨어는 마파고와 동일한 TPU 4개를 사용하며, 소프트웨어적으로는 가치망과 정책망 2개의 신경망을 사용했던 기존 버전들과는 달리 새로운 신경망 1개만을 사용하도록 변경되었다. 주어진 기보 없이 한 수에 0.4초씩 걸리는 속기를 통해 학습을 진행했다.

 

 

학습 결과

 

구글이 추정한 ELO 레이팅은 5185. 인간의 방식을 전혀 사용하지 않고, 강화학습만을 통해 말 그대로 無(ZERO)에서 神의 경지까지 오른 것이다. 

 

■ 36시간 만에 돌파고(이세돌과 상대한 버전) 수준을 능가

■ 72시간(490만판)을 학습 뒤에는 돌파고와 실전과 동일한 조건으로 뒀을 때(제한시간 2시간) 100전 100승

■ 40일(2900만판)을 학습한 후에는 마파고(커제와 상대한 버전)를 압도. 100전 89승 11패

 

하지만 아쉽게도 이후 훈련을 멈추었다고 한다. 제작자 Q&A에서 왜 40일만 훈련했냐는 물음에 "만약 우리가 3개월 동안 훈련했다면 왜 6개월 동안 안했냐고 물을거잖아?"라고 답변했다. 이 버전으로 인간과 대국할 계획도 없으며, 이미 알파고의 하드웨어와 연구원들은 다른 일에 투입된 상태라고 한다.
참고로, 알파고 제로의 학습에는 TPU 2000개가 투입되었다. 이는 약 90PFLOPS에 해당되는 무지막지한 연산 성능이고, 이러한 연산 자원을 한 달 넘게 온전히 바둑 연구에만 투입한다는 것은 구글이 아니면 감히 흉내내기 어려운 짓이기는 하다. (2017년 현재 슈퍼컴퓨터 1위의 성능이 93PFLOPS, 2위 성능이 34PFLOPS) 

 

 

 

 

알파 제로


2017년 12월 arXiv를 통해 공개

알파고 제로에서 '고'가 빠진 것에서 알 수 있듯이 기존 알파고 제로의 알고리즘을 일반화시켜 다른 게임에도 적용할 수 있도록 한 것.

 

논문에서는 바둑, 체스, 쇼기를 학습했으며, 기존 최강급 알고리즘을 모두 꺾었다. 논문에서는 체스를 위주로 설명했으며, Stockfish를 상대로 승리한 기보 10개를 공개했다. 이를 본 외국의 체스팬들 역시 스카이넷 드립을 쳤다.

체스

 

4시간부터 이기기 시작해 9시간(4400만판) 트레이닝 후 Stockfish를 상대로 백으로 25승 25무, 흑으로 3승 47무로 100 판 종합전적 28승 72 무승부 무패로 완승,. Stockfish 는 전통적인 탐색 트리 방식의 체스 프로그램으로 최고의 레이팅 기록을 가진 프로그램. 알파고의 방식이 고속 탐색 방식보다 우월함을 보여주고 있다.

 


쇼기

 

2시간부터 이기기 시작해 12시간(2400만판) 트레이닝 후 Elmo[32]을 상대로 백으로 43승 2무 5패, 흑으로 47승 3패로 압승.

 


바둑

 

36시간(2100만판) 트레이닝 후 알파고 제로를 상대로 백으로 31승 19패, 흑으로 29승 21패로 60% 승률. 단, 알파고 제로는 20블럭 3일 트레이닝 버전으로 최강급 기력(40블럭, 40일)은 아니다. 마스터보다 약하지만 그래도 돌파고보다는 쎄다. 알파고가 3일간 트레이닝한 것을 알파는 36시간만에 넘어섰는데, 이는 트레이닝에 사용된 하드웨어 연산량이 더 높았기 때문으로 보인다.

 

 

 

 

 

참고문헌 : 나무위키-알파고

사업자 정보 표시
사업자 등록번호 : -- | TEL : --

댓글