AI도 창작할 수 있을까? 1편ㅣDALLEㅣOpenAIㅣ머신러닝ㅣ딥러닝ㅣ구글

AI에 대한 많은 논의는 실제 비즈니스 현장에서의 활용과 인간과 비슷한 수준까지 AI를 발전시키는 것에 대한 관심으로 흘러가고 있다. 비즈니스 현장은 혁신적으로 AI를 적용할 수 있는지에 주목하고 있다. 사고 수준이 지능화되고 있는 AI는 인간의 창의적 영역까지도 영향력을 끼치고 있다.

딥러닝 선구자이자 석학으로 불리는 요슈아 벤지오, 얀 르쿤, 제프리 힌튼은 AI 연구를 통해 학계와 AI 발전에 대한 방향을 이끌고 있다. 요슈아 벤지오는 인간 수준의 AI를 실현시키는 연구를 진행 중이다. 메타(전 페이스북)의 AI 연구소 과학자이자 세계에서 가장 영향력 있는 얀 르쿤은 기계가 인간이나 동물처럼 행동하도록 만드는 것이 인생의 목표라고도 밝혔다. 제프리 힌튼은 딥러닝을 통해 인간과 같은 지능을 구현할 수 있다고 하였다.

AI는 다양한 경험을 제공해 주는 방식으로 발전할 것이다. AI에 대한 몇 가지 질문을 해보았다. AI에 대한 여섯 가지 질문에 대해 리서치를 하면서 정리된 생각과 내용을 나눠본다.

1. 머신러닝과 딥러닝은 무엇이 다른가?

AI는 인간과 같이 생각할 수 있도록 컴퓨터가 지능을 가질 수 있도록 하는 기술이다. 1956년 다트머스 회의에서 AI라는 용어가 구체화되었다. AI 구현은 머신러닝과 딥러닝이라는 구체적 방식을 통해 가능하다.

머신러닝은 1959년에 데이터로부터 학습하여 실행할 수 있는 알고리즘으로 정의가 되었다. 1980년대 이후부터 기업은 규칙 기반 알고리즘을 적용하기 시작하였고 머신러닝에 대한 관심은 커져 왔다. 머신러닝은 AI의 한 분야로 컴퓨터가 데이터를 가지고 학습할 수 있도록 하는 알고리즘을 의미한다.

딥러닝은 2000년대부터는 본격적으로 사용하면서 AI의 중흥기를 이끌고 있다. 딥러닝은 AI의 머신러닝 중에서 인공신경망에 기반을 둔 기술이다. 딥러닝은 머신러닝과 같이 스스로 학습한다는 점에서는 동일하나 분류를 위한 특징을 스스로 학습한다는 점에서 다르다.

사진을 보고 개와 고명이를 구별하는 인공지능 모델을 만드는 경우, 머신러닝과 딥러닝의 방법은 서로 다르다.

머신러닝은 개와 고양이에 대한 특징을 나타내는 귀, 눈, 얼굴모양, 크기 등에 따라 예측하는 모델을 만들고 사진을 훈련시키는 방식이다. 딥러닝은 개와 고양이의 수많은 사진을 보고 개와 고양이라고 정답을 예측하도록 모델을 만드는 방식이다.

딥러닝은 이미지 인식, 자연어 처리, 자동화와 같은 범위로 확대되면서 인식, 예측 등 영역에서 두각을 나타내고 있다.

2. 딥러닝 프레임워크는 어떠한 것이 있는가?

딥러닝 프레임워크는 개발자가 딥러닝의 복잡한 문제를 해결할 수 있도록 검증된 라이브러리와 서전에 학습까지 완료된 다양한 딥러닝 알고리즘을 묶어 놓은 패키지이다.

딥러닝 프레임워크는 딥러닝이 주목을 받기 시작하면서 등장하였다. 딥러닝을 개발시 다양한 상황, 조건이 존재하고 모든 것을 커버할 수 없기 때문에 다양한 딥러닝 프레임워크가 등장하였다. 이러한 딥러닝 프레임워크는 이미지, 영상 데이터를 분류하는데 사용되고 있으며 글씨 인식, 자연어 처리 등에도 활용되고 있다.

딥러닝 프레임워크를 사용하는 이유는 분석을 하거나 예측하려는 대상에 따라 적합한 프레임워크를 선택하면 좋은 결과를 얻을 수 있기 때문이다. 예를 들면 영상 분류, 영상 속 특정 객체를 식별하는 경우에는 합성곱 신경망(CNN, Convolutional Neural Network)을 지원하는 프레임워크를 사용하면 좋을 결과를 얻을 수 있다. 딥러닝 프레임워크는 목적별로 만들어졌으며 고유한 기능과 특성을 가진다.

산업계의 경우 구글에서 텐서플로우(TensorFlow), 메타(전 페이스북)에서 파이토치(PyTorch) 딥러닝프레임워크를 개발하였다. 학계의 경우 몬트리올 대학에서 테아노(Theano)라는 딥러닝 프레임워크를 개발하였다. 그리고 구글에서 프로젝트(ONEIROS, Open-ended Neuro-Electronic Intelligent Robot Operating System) 연구를 통해 케라스(Keras) 딥러닝 프레임워크가 개발되었다.

텐서플로우(TensorFlow)는 다양한 신경망 학습에 사용된다. 이미지 인식, 반복 신경망 구성, 필기 숫자 판별 등 신경망 학습에 유용한다. 파이토치(PyTorch)는 절차가 간단하고 그래프를 동적으로 변화시킬 수 있다. GPU를 이용한 유연한 연산에 유용하다. 테아노(Theano)는 다차원 배열 수학식을 정의하고 최적화할 수 있다. 미분, 선형대수와 같은 수치계산에 유용하다. 케라스(Keras)는 다중 출력 등 복잡한 모듈 구성이 가능하다. 시퀀스 모델로 원하는 레이어를 쉽게 순차적으로 쌓는데 유용하다.

3. AI도 창작할 수 있는가?

AI는 인간에게 창의적 아이디어를 제공해 주는 역할까지 하고 있다. AI는 입력된 명령을 이해하고 스스로 이미지를 그리거나 글을 쓰는 것이 가능하다.

OpenAI는 2021년 1월에 DALL·E라는 AI를 공개하였다. DALL·E는 보고 싶은 대상을 텍스트로 설명하면 디지털 이미지로 생성해 주는 AI이다. DALL·E는 자연어로 표현할 수 있는 광범위한 개념에 대해 텍스트로부터 이미지를 만들어 내는 신경망을 훈련시켜 탄생시킨 AI이다.

DALL·E를 탄생시킨 OpenAI에 대해 먼저 살펴보겠다. OpenAI는 2015년에 설립한 비영리 AI 연구단체이며 특정 기업에 종속되지 않는 오픈소스로 AI를 개발하고 공개하여 AI 기술이 상업적으로 사용되지 않도록 하는 취지로 설립되었다. 현재는 OpenAI는 마이크로소프트의 10억 달러를 투자 받고 마이크로소프트 AI 플랫폼을 개발하는 파트너십을 맺었다.

DALL·E는 아이디어를 결합해 사물을 합성할 수 있는 능력을 가진 AI이다. 개를 산책시키는 아기 무는 현실에서는 존재하지 않지만 DALL·E는 개, 무 이미지를 조합해 새로운 이미지를 창조했다.

[그림3] ‘개를 산책시키는 아기 무’ 명령을 수행한 AI DALL·E(https://openai.com/blog/dall-e/)

DALL·E는 아보카도 모양의 의자라는 자연어에 대해 이미지를 결합하여 인간과 유사하게 사고를 하여 이미지를 결합하는 능력을 보여 주었다.

[그림4] ‘아보카도 모양을 한 안락의자’ 명령을 수행한 AI DALL·E(https://openai.com/blog/dall-e/)

OpenAI는 DALL·E보다 4배 더 높은 해상도로 보다 정확한 이미지를 생성하는 DALL·E 2를 2022년에 선보였다. DALL·E 2는 자연어로 된 설명에서 사실적인 이미지를 생성할 수 있도록 더욱 발전되었다.

[그림5] DALL-E2 AI (https://openai.com/dall-e-2/)

DALL·E2는 복잡한 배경, 사실적인 그림자, 음영 및 반사가 포함된 사진같은 고해상도 이미지를 생성할 수 있도록 발전하였다. DALL-E2는 텍스트 설명에서 나타내는 개념, 특성, 스타일을 결합하여 독창적이고 사실적인 이미지를 만들 수 있다.

DALL·E2에서 테디 베어(Teddy Bear), 화학물을 혼합하는 과학자들(mixing sparkling chemicals as mad scientists), 디지털 아트와 같은(as digital art) 텍스트 설명에 따라 테디베어 과학자들이 화학물을 혼합하는 이미지를 디지털 아트 형식으로 생성하였다.

[그림6] ‘테디 베어 과학자들이 화학물을 혼합하는 모습을 디지털 아트 형식으로’ 명령을 수행한 DALL·E 2(https://openai.com/dall-e-2/)

국내에서는 카카오브레인의 AI 아티스트 칼로가 이미지를 생성하는 AI이다. 칼로는 특정 키워드와 화풍을 입력하면 맥락을 이해하고 이미지를 생성해 준다.

칼로는 카카오브레인의 민달리(minDALL-E), RQ-트랜스포머(RQ-Transformer) 초거대 이미지 생성 AI 모델을 발전시켜 하나의 페르소나로 재탄생한 AI 아티스트다. 1억 2천만 장 규모의 텍스트, 이미지 데이터 셋을 학습하여 이해한 문맥을 바탕으로 다양한 화풍과 스타일로 이미지 생성을 할 수 있다.

[그림7] ‘나무에 매달린 녹는 시계를 살바도르 달리 화가 스타일로 그려줘’ 명령을 수행한 AI 칼로

AI가 이제는 시를 창작하기도 한다. 카카오브레인은 시를 쓰는 AI 시아를 통해 주제어, 명령어 입력을 통해 입력된 정보의 맥락에 맞게 이해하고 시를 창작해 낸다. 시아는 카카오브레인의 초거대 AI 언어 모델 KoGPT를 기반으로 만들어졌다. 시아는 인터넷 백과사전, 뉴스를 읽어 한국어를 학습하였다. 시아는 1만 3천여 편의 시를 학습하여 시를 쓸 수 있는 능력을 가졌다.

김대성 다른 콘텐츠 보기