"알파고는 스스로 '요리 레시피'를 만들어 낼 수 있을까"
서일홍 한양대 융합전자공학 교수

서일홍 한양대 융합전자공학 교수

 

인간의 지능은 인간의 의식을 관장하는 뇌로부터 만들어진다.

'마음의 미래(The future of the mind)'의 저자 미치오 카쿠는 이 의식의 수준을 4단계로 나눈다.

0단계 의식은 개체의 움직임이 전혀 없거나 극히 제한된 운동만 할 수 있으며 단 몇 개의 변수(온도 등)만으로 이루어진 피드백 회로를 이용해 자신이 속한 세계의 모형을 만들어 낸다.

1단계 의식은 감각정보를 이용해 공간 속에서 자신의 물리적 위치를 말해주는 모형을 만들 수 있다. 곤충이나 파충류처럼 이동할 수 있으며 중앙 신경계가 있다.

2단계 의식은 집단 속에서 자신의 사회적 위치를 말해주는 모형을 만들어낸다. 1단계보다 더 많은 변수와 감정을 사용한다. 강아지, 침팬지 등의 포유류처럼 작은 집단속에서 사회적 교감도 어느 정도 할 수 있는 모형을 만들어 낸다.

3단계 의식은 상상 속에서 시간을 미래로 이동해 모형을 시뮬레이션할 수 있다. 이 의식수준에 도달한 생명체는 호모 사피엔스뿐이다. 그런데 각 의식 수준마다 공통점이 있다. 

그것은 바로 각각의 수준에 따라 자신이 속한 외부환경모형을 만들고 이를 토대로 필요한 예측을 수행한다는 점이다. 

이때 외부환경모형을 만드는 과정을 학습이라고 하는데 결론적으로 각 의식 수준마다 학습과 예측을 통해 존재를 지속할 수 있다. 인간은 행동을 행하기 전 3단계 의식을 통해 미래를 예측하고 시뮬레이션해 생존에 필요한 혹은 욕구를 충족하기 위한 최적의 결정을 찾아낸다.

'딥러닝' 인공지능은 '인간'처럼 사고할 수 있을까..

그렇다면 우리는 인간의 지능을 구현해 인간과 비슷하게 사고하는 인공지능 컴퓨터를 만들 수 있을까?

이 문제는 앞선 정의에 의하면 인간이 만드는 외부환경모형과 유사한 모형을 인공지능 컴퓨터가 학습할 수 있는가 그리고 그러한 학습에 기반해 인공지능이 최적의 행동을 선택할 수 있는 가로 다시 표현될 수 있다.

1940년대에 인공신경망이라는 기계학습 모델이 처음 개발됐는데 이 모델은 인간의 뇌에서의 정보 처리과정을 모방해 만든 모델로서 다수의 뉴런과 뉴런 사이를 연결하는 시냅스라는 선으로 이루어진 생체모방형 기계학습 모델이었다. 

이 모델은 인간 혹은 다른 단계의 의식 수준처럼 외부환경모형을 학습할 수 있는데 데이터를 입력으로 받아 그 데이터가 가진 중요한 패턴을 발견해 내고 최적의 예측을 하도록 자신의 시냅스에 할당된 값을 수정해 자신을 향상시킨다.

인공신경망은 영상처리, 인공지능, 제어 등 다양한 분야에 적용됐는데, 90년대에 이르러 이내 한계가 보이기 시작하더니 곧 암흑기를 만나게 됐다. 

그 이유는 더 복잡한 외부환경모형을 학습하기 위해서는 더 복잡한 모델을 사용해야 하는데 즉, 인공신경망의 뉴런과 시냅스의 개수가 증가해야 하는데 이 경우 최적의 성능을 나타낼 수 있는 시냅스의 값을 찾는 것이 어렵기 때문이었다.

이러한 복잡한 형태의 인공신경망의 학습문제를 해결하는 새로운 기술들을 '딥러닝'이라고 한다.

이 딥러닝 기술은 2007년도부터 캐나다 토론토대 제프리 힌튼 교수에 의해서 크게 주목을 받기 시작했고 2012년도에는 세계적인 화상인식대회(ILSVRC)에 참가한 제프리 힌튼 교수 연구진이 새로 개발한 딥러닝 기술을 통해 이미지 인식의 오류율을 26%에서 단번에 15%까지 낮추며 우승을 차지했다. 

이러한 딥러닝 기술의 발전과 더불어 GPU(그래픽 처리 장치) 기술의 발전으로 컴퓨터 상에서 알고리즘의 대규모 병렬처리가 가능하진 점, 대용량의 데이터를 이전보다 쉽게 구할 수 있게 된 점, 이 세 가지를 기반으로 해 인공신경망과 딥러닝은 컴퓨터 과학계의 최고의 '핫 키워드'가 됐다.

이렇게 성능이 좋아져서 핫 키워드가 된 이유는 딥러능이 데이터 속에서 스스로 어떤 것이 주목해야 하는 특징이고 또 어떤 중요한 특징들끼리 모여서 주목해야 하는 패턴이 있는지를 찾아내는 점이며, 이를 통해 인간 지능의 구현도 멀지 않은 것처럼 느껴지게 됐다.

구글은 2015년 딥러닝과 강화학습이라는 기계학습 기술을 기반으로 팀을 꾸려 인공지능으로는 불가능하다고 평가됐던 분야인 바둑에 도전장을 냈다. 

바둑은 최고의 학습 능력과 예측 능력을 지닌 3단계 의식 수준을 지닌 인간에게도 쉽지 않은 영역이다. 바둑은 최적의 착점을 정하기 위한 탐색공간의 크기가 250의 150 제곱으로, 이는 알려진 우주의 원자 개수가 10의 80 제곱임을 고려하면 계산 불가능의 복잡도를 가진 문제임을 알 수 있다.

따라서 프로기사가 바둑을 둘 때 매번 착점을 정하는 방식은 이러한 엄청난 크기의 경우의 수를 다 탐색해 최적의 착점을 구하는 것이 아니라 경험과 직관으로 가능한 수의 개수를 줄이고 가능한 몇 개의 수로부터 몇 수 앞을 시뮬레이션 해 착점을 구하게 된다.

그동안 인공지능이 프로바둑 기사에게 승리할 수 없었던 이유는 바로 이런 직관과 경험을 통해 효율적으로 탐색공간을 줄이고 시뮬레이션 시에 효율적인 경우의 수를 선택하는 방식이 프로기사보다 뒤떨어졌기 때문이다.

하지만 구글이 개발한 인공지능 두뇌인 알파고는 2015년 하반기에 드디어 유럽의 프로바둑 챔피언을 지낸 판후이 2단에게 다섯 번을 내리 이겼다. 

알파고는 알려진 대로 수의 위치를 계산하는 '정책망'으로 가능한 탐색의 경우의 수를 좁히고, 승률을 계산하는 '가치망'이 탐색의 깊이를 좁혀 착점을 시뮬레이션 함으로써 인간의 직관력을 모방한다.

이때 정책망과 가치망은 바둑게임에 대한 모형을 학습하고 있는 굉장히 복잡한 인공신경망인데 바로 앞서 설명한  딥러닝 방식을 사용했고, 여기에는 3천 만건 이상의 바둑기사들의 데이터를 이용했다.

이렇듯 알파고는 딥러닝 기술에 기반한 인공지능의 대표적 성공사례가 됐다. 하지만 판후이 2단과의 대결 후에도 개량된 인공지능에 대한 놀라움은 있었지만 이세돌과 같은 최고 수준의 프로기사에는 못 미칠 것이라는 평가가 지배적이었다. 

알파고 스스로와 수천만 번 대국, 인간은 할 수 없는 '강화학습'..그럼에도 인간은... 

하지만 알파고는 이세돌과의 일전을 통해서 프로기사들도 탄성을 자아낼 정도의 독창적인 수를 보였으며 대중들에게는 인공지능에 대한 놀라움을 넘어 경외감과 나아가 두려움까지 불러일으키게 됐다.

이러한 알파고의 강함은 앞서 말한 직관을 학습할 줄 아는 딥러닝과 훈련을 통해 실력을 키우는 강화학습이라는 기계학습 기술 때문이고 추가적으로 게임이라는 특수성과 GPU와 멀티 CPU(중앙 처리 장치)를 이용하는 대규모 병렬처리 기술의 발전에 기인한다.

알파고는 딥러닝을 통해 프로기사들이 선호하는 착점을 학습해 수의 위치를 읽는 '정책망' 초기 단계를 탄생시키게 된다.

그 후에는 딥러닝과 강화학습의 조합을 통해 바둑판 상황에서 단순히 프로기사가 선호하는 착점이 아니라 승리를 결정하는 중요한 착점을 학습한다. 

구제적으로, 초기 버전의 정책망은 초기버전의 자신과 몇 천만번 이상의 대결을 하면서 더 좋은 착점을 학습한다.

강화학습의 기본원리는 수많은 시도와 그 시도로 인한 에러를 통해 최적의 선택이 무엇인지 찾는 것인데 찾아진 선택은 더 많은 시도를 함에 따라서 점점 더 진정한 최적의 선택에 가까워진다.

현실 세계에서는 물리적 한계 때문에 수많은 시도를 할 수 없지만, 게임에서는 가능하고 특히 대규모 병렬처리 기술의 발전으로 알파고는 엄청나게 많은 경기를 할 수 있다.

즉 초기 버전의 정책망은 이러한 학습 과정을 통해 이길 수 있는 최적에 가까운 선택을 하는 더 상위 버전의 정책망이 된다.

이 상위 버전의 정책망은 역시 향상된 자신과 다시 무수히 많은 경기를 한다. 즉 이 경기들은 이전 버전들간의 대결보다는 고수들의 대결이 된다. 이전 정책망은 이번의 학습을 통해서는 고수들의 대결 간에서도 이길 수 있는 최적의 착점을 학습할 수 있고 한 단계 윗 버전의 정책망이 돼 간다.

이런 식으로 정책망은 시간이 지나갈수록 끝도 없이 실력이 향상되고 더 수준 높은 고수를 이길 수 있는 창의적인 수를 발견하게 된다.

이러한 상위 버전의 정책망은 승률을 계산하는 '가치망'을 학습시키는데 사용된다. 알파고는 대전시에 이러한 정책망과 가치망을 사용해 이세돌과의 대전에서 보인 독창적이고 획기적인 착점을 보여 줄 수 있다.

하지만 알파고의 창조적인 수는 백만 번, 천만 번이 넘는 엄청난 수의 시도와 그에 따른 에러에 기반을 둔 강화학습이라는 기계학습 방법의 산물이다.

사람은 경험과 직관으로 가설을 설정하고 그 가설을 검증하기 위한 실험을 수행해 배우지 않았던 창조적인 생각과 발견을 한다.

즉 새로운 발견을 위한 탐색공간을 랜덤하게 다 탐색하지 않고 세련되게 줄인다.

알파고와 인간, 결정적 차이...알파고는 스스로 '요리 레시피'를 창조해 낼 수 있을까

따라서 알파고 방식은 앞서 말했듯이 바둑과 같은 컴퓨터 게임에서 새로운 수를 배우는 데는 가능할지 몰라도 실제 물리세계에서는 엄청난 수의 시도를 하기가 힘들기 때문에 새로운 발견에 한계가 있을 것이다. 즉, 알파고가 이세돌을 이기더라도 인간의 의식수준과 유사하다고는 할 수 없다.

더 생각해볼 점은 알파고를 음식에 비유해 볼 수 있다. 알파고 자체는 아주 훌륭한 음식으로 볼 수 있고, 딥러닝과 강화학습은 이 요리를 위한 요리기계로 볼 수 있다.

많은 양의 데이터는 재료로 볼 수 있고, 알파고가 바둑을 두기 위해 구글 엔지니어들이 설계한 세부적 요인들, 예를 들면 여러 가지 특징 추출방법이나 세부적 알고리즘들은 요리를 위한 레시피로 볼 수 있다.

즉 훌률한 요리기계, 재료, 레시피를 통해 알파고 라는 훌륭한 음식이 만들어졌다. 현재 수준의 인공지능은 아직까지는 각각 다른 요리를 만들기 위해 다른 요리기계, 다른 재료와 다른 레시피가 필요하다.

레시피는 사람이 만들어 준 것이다. 사람과 같이 레시피를 만드는  세련된 창조적 사고과정은 아직은 인공지능에게 갖춰지지 않은 지적 능력이다.

만약 학습하는 방법을 학습하는 메타 러닝(meta learning)기술이 나온다면 궁극적으로는 모든 재료를 요리할 수 있는 요리기계와 통합된 레시피가 가능한 수준의 인공지능 가능하겠지만, 아직은 시간이 더 필요할 듯하다.

인공지능 기술의 급격한 진보로 인해 인공지능 기술이 우리 삶에 직접적 영향을 크게 미치는 날이 머지않아 보인다.

많은 사람들은 인공지능으로 인해 사람들은 노동으로부터의 자유를 얻고 더 많은 여가와 자유와 물질적 풍요를 누릴 수 있을 거라고 생각한다.

하지만 인공지능을 대하는 일반 사람들의 반응은 모두 긍정적이지만은 않은 것 같다. 사람들은 지능을 갖춘 기계를 인간의 경쟁상대로 생각하기도 하고 두려워하기도 한다.

특히 알파고처럼 사람만큼 학습 능력과 예측능력이 있어, 보이는 인공지능 두뇌의 등장은 그 두려움을 더 가중 시킬 수도 있다. 하지만 지능을 갖춘 기계는 생명이 있는 존재가 아니다.

생명이 있는 존재는 미치오 카쿠가 분류한 '의식의 수준 0단계'에 있는 생물이라도 자신의 존재를 유지하거나 종족을 번식하기 위해 학습을 하고 예측을 수행한다.

하지만 지능을 갖춘 기계에게는 존재 유지의 목적이나 종족 번식의 목적이 없다. 다만 인간이 정해준 목적을 위해 학습하고 예측한다.

더군다나 아직은 세련된 창조적 사고도 할 수 없다. 적어도 꽤 오랜 시간 안에는 인간이 의도적으로 좋지 않은 목적을 인공지능 두뇌에 심어놓지 않는 한 인공지능이 인간을 경쟁 상대로 여기고 대립하고자 하는 일은 없을 것 같다.

<서일홍 교수 약력>

KAIST 전기전자공학 박사
한국 뇌공학회 회장
IEEE 석학 회원
한국공학한림원(NAEK) 정회원
2016 세계 지능로봇 총회(IROS 2016)의장
한양대 융합전자공학 교수

econews@eco-tv.co.kr

저작권자 © 그린포스트코리아 무단전재 및 재배포 금지