데이터가 부족하면, 데이터가 없으면 인공지능은 어떻게 될까?

딥마인드 챌린지
2016년 3월 9일 구글이 만든 인공지능 프로그램과 인류 1위 바둑 기사 이세돌 프로의 대국이 개최되었습니다. 이세돌 프로는 4대1 또는 5대0으로 이길 것이라고 자신했습니다. 구글 CEO 에릭 슈밋은 누가 이기든 인류의 승리하고 말했습니다. 알파고와 이세돌의 대국이 있기 전까지 많은 인공지능 프로그램이 등장했습니다. 하지만 프로기사를 이긴 바둑 프로그램은 없었습니다. 때문에, 컴퓨터가 아무리 발전해도 사람을 뛰어넘을 수 없다는 생각이 지배적이었습니다. 결과는 충격적이었습니다. 알파고는 시종일관 압도했고 이세돌은 무기력했습니다. 4승 1패로 알파고가 승리를 거뒀습니다. 이세돌은 알파고의 버그를 일으킨 묘수를 찾아내서 4국에 승리했습니다. 그리고 한동안 이세돌은 인공지능을 이긴 마지막 인간으로 남았습니다. 인공지능이 인류 1위보다 똑똑하다는 사실은 큰 충격을 주었습니다. 이 일을 계기로 사람들은 인공지능의 가능성을 인정하게 되었습니다. 구글은 IBM 왓슨으로 대표되었던 인공지능 인지도를 구글로 바꾸는 데 성공했습니다.

인공지능의 겨울 끝
인공지능의 겨울을 끝나게 한 사건이 왜 대한민국 서울에서 열리게 되었을까요? 그것은 대한민국의 이세돌 기사가 세계 1위 바둑 기사였기 때문입니다. 전 세계에서 바둑 인구가 가장 많은 나라는 중국입니다. 전 세계에서 바둑 상금이 가장 많은 나라도 중국입니다. 그런데도 불구하고 전 세계 1위 바둑 기사는 대한민국 기사들이 차지한 경우가 많았습니다. 그리고 2016년 당시 세계 1위는 이세돌 기사였습니다.

디지털 세상과 닮은 바둑
여기서 또 한 가지 의문이 듭니다. 구글은 왜 바둑을 택했을까요? 1997년에 IBM의 인공지능 딥블루가 세계 체스 챔피언을 상대로 승리를 거두기도 했습니다. 당시 IBM의 인공지능이 주목받기는 했지만, 이는 신기한 뉴스 정도였습니다. 구글이 바둑을 택한 이유를 추정해보겠습니다.

첫째, 바둑의 경기 규칙은 디지털스럽습니다. 바둑판에 놓이는 것은 흑돌 또는 백돌로, 이 외의 다른 선택지는 없습니다. 바둑판은 가로세로 19줄입니다. 돌을 놓는 곳은 19 곱하기 19로 361곳입니다. 경우의 수가 유한한 것입니다. 이처럼 바둑 규칙은 컴퓨터가 다루기 쉽습니다.

둘째, 새로운 접근법을 시도할 수 있었습니다. 당시 구글은 딥마인드를 인수하고 신경망을 이용한 딥러닝과 강화학습 기술을 기반으로 한 인공지능 개발에 큰 관심을 두고 있었습니다. 이전까지 바둑에 적용된 인공지능은 전문가시스템 방식이었습니다. 그리고 성과는 아마추어 고수 수준을 넘지 못했습니다. 바둑에 데이터 학습 기반의 새로운 접근법을 시도하면 어떤 성과를 낼 수 있을지 기대되는 상황이었던 것입니다. 또 현존하는 바둑 대국과 관련된 데이터는 무척 많습니다. 그러한 데이터는 무료이고 쉽게 구할 수 있습니다. 즉, 바둑은 학습 데이터를 충분히 구할 수 있는 분야입니다.

인공지능 여름의 시작
딥마인드 챌린지 결과는 대성공이었습니다. 대회가 진행된 며칠 만에 이세돌은 세계적인 스타가 되어 있었습니다. 또한 딥마인드와 알파고는 인공지능의 새로운 가능성을 활짝 열었습니다. 컴퓨터에게 로직을 가르치는 것보다 데이터를 주고 스스로 학습하게 하는 것이 훨씬 더 뛰어난 성과를 낸다는 사실이 입증되었습니다. 2022년 11월 말 ChatGPT가 출시되었습니다. 그리고 2023년 3월 14일 GPT-4가 등장했습니다. 이로 인해 인공지능 붐이 크게 일었습니다. 인공지능의 봄을 지나 뜨거운 여름이 시작된 느낌입니다. 인공지능 전문가들이 갑작스럽게 늘어났습니다. 인공지능의 활용과 미래에 대한 세미나도 폭발적으로 증가했습니다. 정부도 거대 인공지능을 정책 어젠다에 빠르게 포함하고 있습니다. 인공지능이 앞으로 더욱 빠르게 발전할 것이라는 점은 누구나 인정할 것입니다. 하지만 인공지능의 발전이 인류에게 어떤 의미인지에 대해서는 논란이 분분합니다. 인공지능 바둑이 등장한 2016년 이후 바둑 생태계는 여러 가지 변화가 있었습니다. 바둑에서 인공지능으로 인해 생겨난 일들을 참고해봅시다.

인공지능과 데이터
머신러닝 인공지능은 데이터가 있어야 합니다. 지금의 인공지능 시대가 열리게 된 것은 빅데이터의 역할이 결정적입니다. 인공지능이 학습하기에 충분한 데이터를 구할 수 있는 환경이 된 것입니다. 그렇다면 데이터를 구할 수 없는 환경에서 인공지능은 가능할까요?

제조 공정에서 불량품은 예외적으로 발생합니다. 품질을 식스 시그마 수준으로 관리하고 있다면 불량품이 발생할 확률은 백만분의 일 수준으로 떨어집니다. 정상품의 데이터와 비교하여 불량품의 데이터는 매우 적은 것입니다. 불량품을 데이터로 특정할 수 없다면, 인공지능은 불량품을 어떻게 찾아낼 수 있을까요?

기존에 출시된 제품을 어떤 고객이 언제 어떻게 구매했는가에 대한 데이터는 충분합니다. 하지만 새로 출시될 제품에 대해서는 고객 구매 데이터가 존재하지 않습니다. 인공지능 추천 알고리즘은 데이터가 없는 신제품을 어떤 고객이 필요로 하는지 알 수 있을까요? 신제품의 시장 확대를 위해 무엇을 해야 하는지 분석해낼 수 있을까요?

바둑 인공지능의 진화
처음에 등장한 알파고는 인간이 바둑을 둔 데이터를 학습했습니다. 그러나 사람들이 많이 둔 수가 반드시 가장 좋은 수는 아니기 때문에, 어떤 수가 좋은 수 인가를 알려주는 지도학습 과정을 거쳤습니다. 이를 자체 경기를 통한 강화 학습으로 훈련했습니다. 그 결과, 기존에 나와 있는 모든 인공지능 바둑 프로그램들을 물리칠 수 있었습니다. 유럽 바둑 챔피언인 판후이를 5대0으로 꺾은 후 이세돌 프로에게 도전하게 되었습니다.

알파고는 전체적으로 이세돌을 압도했지만 네 번째 대국에서 패했습니다. 이세돌 프로가 알파고가 예상하지 못한 수를 두었기 때문입니다. 이는 과거의 바둑 데이터를 통해서는 대응법을 찾을 수 없는 수였습니다. 이세돌의 창의적인 한 수를 당한 후 알파고는 스스로 무너졌습니다. 연달아 버그를 일으키며 엉뚱한 수를 두더니 기권하고 말았습니다.

과거 데이터가 없는 새로운 경우의 수를 해결하기 위해서는 어떻게 해야 할까요? 이 문제를 해결하기 위하여 알파고 마스터가 개발되었습니다. 알파고 마스터는 ‘적 알파고’를 만들어 경쟁하는 방식을 적용했습니다. 알파고 마스터는 학습 시간을 줄임은 물론 더 뛰어난 실력을 보여주었습니다.

이어 등장한 알파고 제로는 아예 사람이 둔 바둑 데이터를 사용하지 않았습니다. 스스로 바둑을 두고 공부하는 방식을 택했습니다. 딥러닝을 완전히 생략하고 강화학습만을 수행했습니다. 3일 동안 자신과 490만 판의 바둑을 두었습니다. 그리고 이세돌을 이긴 알파고 버전과 대국하여 100전 100승을 기록했습니다.

바둑 인공지능의 교훈
인공지능 바둑이 진화하는 과정에서 경험한 문제는 현실 세계에서도 발생합니다. 그 문제는

첫째, 데이터가 무엇이 정답인지를 알려주지는 않는다는 것입니다. 편향되어 있거나 오류가 있는 데이터를 그대로 믿으면 답도 편향되거나 오류가 됩니다. 알파고는 사람이 둔 기보들을 학습한 후 어떤 수가 승리를 높이는 선택인지를 알기 위해 강화학습 과정을 거쳤습니다. 단순히 기존 데이터만을 학습하면 사람들이 어떤 수를 가장 많이 두는가를 아는 것에 그치게 됩니다.

둘째, 데이터가 충분하지 않은 문제도 있습니다. 특히 이상치를 찾아내야 하는 분석 주제의 경우, 어떤 경우에 이상치로 분류할 것인지 패턴을 정하기 어렵습니다. 알파고 마스터는 이를 해결하기 위해 적대적 알고리즘을 만들어 경쟁했습니다. 정답을 알려주기보다는 두 개의 모델이 적대적으로 경쟁하는 방식을 적용하여 성과를 낼 수 있었습니다.

셋째, 데이터가 현실 세계에 존재하지 않는 때도 있습니다. 알파고 제로는 기존의 데이터를 활용하지 않고 자기와 바둑을 두어서 데이터를 만들고 이를 학습하는 방식을 택했습니다. 스스로 학습하기 위한 데이터를 만들어 낸 것입니다. 인간이 둔 바둑 데이터가 갖고 있었던 고정 관념들을 제거함으로써 학습 시간을 줄임과 동시에 더욱 뛰어난 실력을 갖출 수 있게 되었습니다.

데이터가 없으면, 인공지능은?
인공지능은 데이터를 기반으로 학습하고 작동합니다. 데이터는 인공지능 모델이 패턴을 학습하고 의사결정을 내리는데 필요한 정보를 제공합니다. 인공지능 모델을 훈련시키기 위해 많은 양의 데이터가 필요한 이유입니다. 실제로 데이터의 양이 충분하지 않으면 인공지능 모델의 성능이 보장되지 않는 경우도 있습니다. 우리나라 정부가 데이터 댐 사업을 적극적으로 추진하는 이유입니다.

데이터가 없을 때 인공지능 모델을 적용하는 방법으로 사전 훈련된 모델(Pre-trained model)이라는 개념이 등장했습니다. 사전 훈련된 모델은 대규모 데이터셋으로 미리 학습된 모델입니다. 사용자는 모델을 불러서 쓰기만 하면 됩니다. 이러한 모델은 자연어 이해, 이미지 분류, 음성 인식 등과 같은 작업에서 높은 성능을 발휘합니다.

데이터가 부족한 상황에서는 데이터 증강(Data augmentation) 기법을 사용합니다. 기존 데이터를 변형하거나 합성함으로써 데이터의 다양성을 높일 수 있습니다. 이미지 데이터, 텍스트 데이터, 음성 데이터 등에 적용될 수 있습니다. 데이터 증강은 모델의 일반화 성능을 향상시킵니다. 메타버스와 디지털 트윈을 이용할 수도 있습니다. 현실 세계를 그대로 옮길 수 있는 메타버스가 있고, 대상물과 완전하게 일치하는 디지털 트윈을 운용할 수 있다면 데이터를 만들 수 있을 것입니다. 하지만 이를 현실 세계 문제에 적용하는 것은 제한적입니다. 항공기 부품, 공장 설비, 유전자 분석 등 특수한 경우를 제외하고는 현실 세계와 완전하게 일치하는 시뮬레이션 환경을 만들기가 쉽지 않기 때문입니다.

인공지능은 데이터를 먹고 자랍니다. 인공지능은 많은 데이터를 쉽게 생산하기도 합니다. 현재 웹사이트에 떠도는 콘텐츠의 50%는 사람이 아닌 인공지능의 생산물이라는 이야기도 있습니다. 그리고 앞으로는 90%에 이를 것이라고도 합니다. 인공지능은 자신이 만든 데이터를 학습하여 성과를 낼 수 있을까요? 더 나아가서 학습을 위한 데이터를 생산하는 인공지능은 출현할 수 있을까요? 인공지능 바둑 프로그램 알파고 제로는 가능성을 보여주었습니다. 하지만, 현실 세계는 바둑 세상보다 훨씬 더 복잡합니다. 오리지널 데이터는 사람에 의해 만들어집니다. 인공지능 학습에는 오리지널 데이터가 필수적입니다.

김인현 다른 콘텐츠 보기