AI, 현재와 미래 - 1부. 인공지능 기술은 어떻게 분류되는가?
상태바
AI, 현재와 미래 - 1부. 인공지능 기술은 어떻게 분류되는가?
  • 박소연 선임, 이창엽 선임, 안찬형 컨설턴트
  • 승인 2020.11.17 13:43
  • 조회수 21741
  • 댓글 0
이 콘텐츠를 공유합니다

인공지능의 상업화 현황

인공지능 기업인 딥마인드는 세계적인 바둑기사들을 연이어 격퇴하며 유명세를 탄 ‘알파고(AlphaGo)’를 개발하여 주목을 받았다. 그 후 바둑, 스타크래프트 등 다양한 게임에서 우수한 승률을 보이며 인공지능이 인간을 넘어서는 시기가 올 것이라는 이야기들이 많았다. 

그러나 딥마인드는 2016년 약 1억 5천만 달러, 2017년 3억 4천만 달러, 2018년 5억 7천만 달러 규모의 적자를 기록했으며 아직 상업적 가치가 크지 않은 것으로 나타나고 있다. 인공지능에 대한 회의론이 대두되고 있으며 환상을 버려야 한다는 담론이 이어지고 있다.

이러한 회의론이 대두되는 것에는 일반 대중의 인공지능에 대한 기대치가 너무 높기 때문인 것으로 보인다. 여러 미디어 콘텐츠에서 등장하는 인공지능은 강인공지능으로, 현실에서 구현되기에는 아직 넘어야할 벽이 너무 많다.

MIT 미디어랩 디렉터인 알렉스 샌디 펜트랜드 교수(Alex Sandy Pentland)는 중앙일보와의 인터뷰(2020.03)에서 인공지능에 대해 ‘방대한 데이터를 가장 효율적으로 분석하는 도구’라고 정의하였다. 많은 사람들이 인공지능에 갖고 있는 환상과는 달리 특정한 목적을 달성하기 위한 기계에 불과하다는 것이다.

실제로 여러 미디어 콘텐츠에서 등장하는 사람과 거의 유사한 수준의 인공지능은 아직 먼 미래이지만 여러 산업 분야에서 현실적인 수준의 인공지능이 활용되고 있으며 성과를 보이고 있다. 본 고에서는 실제로 산업 현장에서 활용되고 있는 인공지능의 주요 기술에 대해 살펴보고자 한다.


인공지능 기술의 단계

인공지능이 일련의 작업을 수행하기 위해서는 상호작용, 학습, 추론, 수행의 단계를 거쳐야 한다. 먼저 상호작용은 인간 혹은 대상 시스템으로부터 입력 받은 데이터를 컴퓨터가 이해할 수 있는 방식으로 변환하는 영역이다. 

학습 영역은 보유한 데이터를 기반으로 판단을 위한 패턴을 학습하는 영역으로 목적과 데이터 형태에 따라 지도 학습, 비지도 학습, 머신 러닝 등의 기법을 활용한다. 다음 추론 영역은 학습된 패턴을 바탕으로 상호작용을 통해 입력된 데이터의 의미를 판단하거나 결과를 예측하는 영역이다. 수행 영역은 추론 결과를 바탕으로 물리적인 행동을 수행하거나 시스템에 Transaction을 발생시키는 등 실제적인 작업을 수행하기 위한 기술이다. 

실제 기업들이 인공지능 관련 솔루션이나 제품 등을 출시하는 경우 단일 기술 영역만을 다루는 경우는 많지 않다. Microsoft, IBM, Amazon, Google 등 빅테크 기업부터 시작해서 다양한 규모의 스타트업 및 기업들은 이러한 4단계의 일부 혹은 전체를 포함하는 서비스를 제공하고 있다(실제 이들 기업이 제공하고 있는 비즈니스 서비스에 대해서는 2부 – 인공지능 비즈니스 사례에서 자세히 다룬다).


5대 인공지능 기술 분야

인공지능 기술을 어떻게 분류하는 것이 좋을까? 모든 인공지능 기술에 공통으로 적용할 수 있는 분류체계는 아직 없다. 현실에는 다양한 종류의 인공지능이 존재하고, 이들 인공지능들의 지향점이나 목표가 다르기 때문이다. 따라서 각 연구마다 필요 기술과 주요 기술이 다르게 나타나고, 각자의 분류 체계에 따라 주요 기술을 정리하고 있다. 그럼에도 불구하고, 여러 연구들이나 보고서를 살펴보면 공통적으로 다루고 있는 기술들이 있다.

[그림 1] 연구 사례별 인공지능 주요 기술

[그림 1]은 인공지능 기술과 관련된 각 기관의 연구 자료에서 분류하고 있는 기술 체계를 정리한 내용이다. 기관에 따라서 인공지능 관련 기술을 각각 다른 체계로 분류하고 있으며 그 개수와 영역에서도 차이를 보이고 있다. 14개 기관의 연구에서 자주 지목되는 기술 영역들이 있다. 시각지능(11개), 언어지능(11개), 기계학습(11개), 음성지능(7개), 로봇공학(6개), 전문가시스템(6개) 등이다. 

이 중 다른 분야에 공통으로 활용되는 기술인 기계학습을 제외하면 총 5개의 영역을 많은 연구에서 주요 기술로 다루고 있는 것을 알 수 있다. 본 문에서는 언어적 개념을 포함하고 있는 음성 지능을 언어 지능에 포함하여 총 4개의 영역에 대해서 다루고자 한다.

인공지능의 기술 영역과 기술 분야를 맵핑 하면 [그림 2]와 같이 표현할 수 있다.

[그림 2] 인공지능 기술 분야별 기술 요소

※ 각 단위 기술들은 이해의 편의를 위해 나눈 내용으로 독립적으로 해당 영역에 독립적·배타적으로 귀속된다고 볼 수는 없다.

 

1. 시각지능

시각지능 분야는 이미지 또는 영상 데이터를 인식하여 상황을 판단하거나 데이터를 가공하여 새로운 이미지 또는 영상을 생성하는 기술 분야이다. 

① 상호작용: 

시각지능의 상호작용 기술로는 영상/이미지 검색이 있다. 첩보 영화에서 자주 등장하는 범죄자 얼굴 검색을 한 가지 예로 생각할 수 있다. 물론 아직 기술적 수준이 매체에서 비춰지는 수준까지는 이르지 못한다. 그러나 이제는 일상적인 스마트폰의 지문, 홍채, 안면 인식부터 공항, 공연장 등 공공시설에서의 범죄자 식별 등 다양한 부문에서 활용되고 있으며 기술 수준이 높아지고 있다.

[그림 3] 객체 탐지의 개념(출처: sas korea blog)

② 학습: 

시각지능에서 학습의 목표는 입력된 이미지 데이터에서 객체를 인식하는 것에 있다. 먼저 전체 이미지에서 배경과 구분되는 객체 영역을 식별한 후 분리된 객체 영역의 특징을 분석하여 객체를 인식한다. 이 과정에서 다량의 이미지 데이터를 학습할 필요가 있으며 지도 또는 비지도 학습의 방식이 모두 활용된다. 

대표적인 알고리즘으로는 이단계 방식(Two-Stage Methods)인 Faster R-CNN(Convolution Neural Network), R_FCN(Fully Convolution Network) 등의 알고리즘과 단일 단계 방식(Single-Stage Methods)인 YOLO(You Only Look Once), RetinaNet 등이 있다.

③ 추론: 

추론 단계에서는 인식된 객체를 기반으로 이미지가 나타내고 있는 상황을 판단한다. 최근 한국전자통신연구원(ETRI)에서는 CCTV 영상에 나타난 보행자의 관절 움직임, 쓰레기 봉투의 위치 등을 분석하여 쓰레기를 무단 투기하는 보행자를 식별하고 경고 메시지를 송출하는 기술하는 등 시각 인식을 기반으로 하는 상황 추론을 실생활에 적용하고 있다.

④ 수행: 

수행 단계에서는 상황 판단에 근거하여 실제적으로 영상 및 이미지를 조작하는 기술이 주를 이룬다. 대표적인 예로는 이미지 합성, 이미지 변환, 영상 편집 등의 기술이 있다. 이미지 합성 기술은 이미지에서 객체를 인식하고 해당 객체의 구조에 맞는 이미지를 합성하는 방식으로 이루어진다. 

스마트폰 카메라를 활용한 이미지 보정 기능부터 시작해서 최근 사회 문제로 대두되고 있는 딥페이크 등의 이미지 합성이 있다. 이미지 변환의 경우 훼손되거나 해상도가 낮은 이미지를 고해상도 이미지로 변환하거나 복원하는 등에 활용되고 있으며, 영상 편집의 경우 촬영된 영상의 중요 부분을 AI가 자동으로 추출하여 하이라이트로 제공하는 등에 활용되고 있다. 대표적인 예로는 윔블던 테니스 대회에서 IBM의 왓슨을 활용하여 주요 선수들의 표정과 움직임 등을 토대로 하이라이트를 편집하여 제공한 사례가 있다.


2. 언어지능

언어지능은 인간이 사용하는 일상적인 방법으로 언어를 이해하고 대화하는 것을 지향점으로 삼는 분야로, 자연어 처리(Natural Language Processing)를 중심으로 연구가 진행되고 있다.

① 상호작용: 

언어지능 분야의 상호작용은 매우 다양한 방식으로 이루어진다. 대표적인 방식으로는 음성, 텍스트, 이미지 상호작용 방식을 꼽을 수 있다. 음성 상호작용 방식은 아날로그 신호인 인간의 목소리를 디지털 신호로 변환하는 방식으로 이루어지며, 음성신호의 주기성과 동기성을 추출하여 의미 있는 주파수 영역을 분리하는 방식을 사용한다. 
다음으로 텍스트 상호작용 방식은 일반적으로 챗봇 등에서 활용하는 방식으로, 사용자가 직접 입력한 디지털 텍스트를 통해 대화가 이루어진다. 마지막으로 이미지 상호작용의 경우 사진, 영상 등의 이미지를 분석하여 텍스트 영역을 추출하는 방식으로 이루어진다. 이 때, 시각지능을 활용하게 되며 OCR(Optical Character Recognition) 등의 기술들을 활용한다. 

부수적인 분야이지만 현재 수화 이미지를 통해 상호작용하는 기술들도 연구되고 있다. 상호작용 기술의 핵심은 잡음, 오타, 이미지 모호성 등으로 인한 의미 해석의 오류를 최대한 방지하고 데이터를 전처리 하여 시스템이 올바른 문장으로 이해할 수 있도록 하는 것에 있다.

② 학습/추론:

언어 이해 기술의 구성은 연구자마다 다소 차이가 있지만 크게 형태소 분석, 구문 분석, 개체명 분석, 의미 분석, 담화 분석 과정으로 이루어진다. 이에 대한 시스템 예시로는 [그림 4]를 들 수 있다.

[그림 4] 시스템 구성도 예시(출처: 동아대학교 “지능형 시스템 실험실”) 

먼저 형태소 분석은 형태소 사전 등을 활용한 ‘형태소 후보 분석’과 규칙 또는 기계 학습을 통한 ‘품사 부착(Part of Speech Tagging)’ 방법으로 이루어진다. 입력된 문장을 음절 단위로 분석하고 띄어쓰기 상태, 형태소 사전을 참조하여 각 형태소에 품사를 부착한다. 주로 전통적인 통계 기법인 HMM(Hidden Markov Model) 또는 CRF(Conditional Random Field) 등을 활용하며 최근에는 딥러닝을 결합한 방법들을 적용하고 있다.

구문 분석 단계에서는 문장을 구성하는 단어 또는 어절들 사이의 문법적 관계를 분석한다. 구문 분석 방법에는 의존구조 분석(Dependency parsing) 방법과 구문 구조 분석(Phrase structure parsing) 방법 등이 사용되는데, 어순이 비교적 자유롭고 주어, 목적어 등의 생략이 빈번한 한글의 경우 의존구조 분석 방법을 활용하는 것이 일반적이다. 주로 사용되는 알고리즘으로는 CKY(Cocke-Younger-Kasmi) 알고리즘, 그래프 알고리즘의 일종인 MST(Maximum Spanning Tree) 등이 있다.

개체명 분석은 사람, 조직, 시간, 지명 등의 개체에 이름을 부여하기 위한 과정이다. 특정 어절의 개체명 분석을 통해 단순한 형태소를 넘어 해당 단어의 유형을 분류하기 위해 사용한다. 주로 일반적인 사회 통념에 따른 개체명을 각 영역에 맞춰 미리 부여한 말뭉치(Corpus)를 구성한 후 분석을 수행한다. 전통적인 알고리즘인 CRF를 주로 사용하며 최근에는 딥러닝을 결합한 LSTM(Long Short Term Memory)-CRF, LSTM-RNN(Recurrent Neural Network) 방법 등이 사용되고 있다.

의미 분석: 형태소 분석, 구조 분석, 개체명 분석을 통해 추출한 각 어절 간 관계를 기반으로 의미론적으로 옳은 문장으로 해석하기 위한 과정이다. 예를 들어 “나는 오늘 빨간 사과를 먹었다.”라는 문장이 있을 때, “나는”의 경우 행위주역, “오늘”의 경우 비의미역, “빨간 사과를”의 경우 대상역, “먹었다”의 경우 술어로 나뉜다. 이러한 분석을 통해 ‘행위주역’이 ‘대상역’을 술어했다의 의미론적 관계를 설정할 수 있다. 한글의 경우 서술어를 중심으로 분석하는 경우가 많다.

담화 분석: 담화 분석은 대화 문맥을 파악하여 상호 참조를 해결하고 의도를 파악하는 단계로, 각 문장 간의 연결 관계를 분석하여 전체 글이나 대화의 의도를 추출한다.

③ 수행: 

언어지능의 수행 단계에서는 학습/추론 단계에서 이해한 자연어에 대응하여 응답을 생성한다. 이 때, 코퍼스 기반 대화 모델(Corpus-based Dialog Model), 예제 기반 모델, 자연어 생성(Natural Language Generation) 등의 방법을 사용한다. 

현재는 준비된 예제 데이터베이스를 기반으로 대응하는 방식을 주로 사용하고 있으며 자연어 생성의 경우 단순한 구조의 질의응답 정도의 수준으로 구현되고 있다. 만약 응답이 음성으로 지원되어야 하는 경우, 음향모델링을 통해 디지털 신호를 다시 아날로그 신호인 ‘소리’로 변환할 필요가 있으며 이 때, 화자의 음향을 모방하여 음성을 합성하거나 다른 종류의 음향 모델로 변환하는 음성변조 등으로 활용되기도 한다. 

응답 생성 외에도 전체 담화의 의도를 분석하여 주요 내용을 추출하고 요약하거나 비슷한 담화 구조를 갖는 대화를 생성하는 등 다양한 방식으로 활용할 수 있다.

 

3. 로봇공학

로봇공학은 기계공학, 전기전자공학, SW공학, 통신 등 다양한 기술들로 이루어져 있다. 과거에는 정해진 작업을 수행하는 하드웨어 중심의 분야였으나 최근에는 한 발 더 나아가 지능적으로 일련의 임무를 수행하는 ‘지능형 로봇’을 중심으로 인공지능의 한 분야로 꼽히고 있다. 

본 고에서는 ‘지능형 로봇’ 기술의 구성 요소 중 하나인 ‘지능형 S/W’를 중심으로 다루며 핵심적인 기능은 외부 환경 인식, 자율적인 판단 및 동작 수행이다.

① 상호작용: 

로봇이 외부 환경을 인식하기 위해서는 다양한 종류의 센서를 필요로 한다. 이는 인간에게는 선천적으로 주어진 감각 기관의 역할을 수행하기 위한 것으로 접촉식/비접촉식 범용 센서, 기하학량/역학량 등에 관련된 계측용 센서, 운동량/열, 유체량 등을 감지하는 동작 제어용 센서 등 다양한 종류의 센서가 존재하며 새로운 종류의 센서가 개발되고 있다. 이들 센서를 통해 현실의 물리적인 공간을 기계가 이해할 수 있는 디지털 신호로 변환하는 것이 로봇공학에서의 상호작용 단계이다.

② 학습/추론: 

산업 분야와 센서의 종류, 그리고 주어진 개별 환경에 따라 매우 다양한 종류의 알고리즘을 활용하기 때문에 일반적인 방법을 특정하기는 힘들다. 하지만 개념적으로는 각 단말(Edge)에서 수집한 센서 데이터를 분석하여 상황을 인식하고, 수행해야할 작업을 판단하는 방식으로 이루어진다. 최근의 화두는 상호작용과 학습/추론 단계를 합친 지능형 센서의 개발이다.

[그림 5] 지능형 센서 아키텍처(출처: 김혜진 외)

[그림 5]와 같이 지능형 센서는 센서에 신호처리 시스템과 통신 시스템을 결합하여 단말에서 복잡도가 낮거나 반복적인 판단을 수행할 수 있도록 하는 일종의 엣지 컴퓨팅(Edge Computing)이다. 이를 통해서 서버가 수행해야 하는 연산의 부하를 낮추고 실시간으로 동작을 수행하는 것이 가능하며, 네트워크 단절로 인한 리스크를 일정 부분 해소하는 것이 가능하다. 

또한 서버의 부담을 낮추고 시스템 자원의 효율성을 높이기 때문에 서버는 수집된 다량의 데이터를 분석하여 알고리즘을 고도화하고 작업 효율을 개선하는 등에 집중할 수 있게 된다.

③ 수행: 

로봇공학의 수행 단계의 핵심 기술은 실시간 동작 제어 기술이다. 아무리 다양한 센서를 부착하더라도 모든 상황을 관찰하기는 쉽지 않으며 인간이나 다른 로봇 등과 협업하는 과정에서 다양한 변수가 발생하기 때문이다. 따라서 위험 예측 기반의 정밀 제어 기능이 필수적이다. 

앞서 언급한 지능형 센서가 수행 단계에서도 매우 중요하다. 발생할 수 있는 위험과 확률에 대한 계산, 그리고 행동 원칙은 서버에서 수립하더라도, 현장의 센서에서 수집한 정보를 바탕으로 위험 요인을 식별하고 대응하는 것은 단말에서 이루어져야 하기 때문이다. 

특히 의료용 로봇이나 자율 주행 자동차 같은 ‘인간 대상 서비스 로봇’의 경우 인간의 생명과 직접적으로 연결되어 있기 때문에 매우 중요하며, ‘산업용 로봇’도 인간과의 협업이 증가함에 따라 그 중요성이 더욱 높아질 것으로 예상된다.


4. 전문가 시스템

전문가 시스템은 특정 분야의 인간 전문가가 가진 지식을 필요한 사람이 활용할 수 있도록 구성한 시스템으로, 1960년대에 인공지능 2차 부흥기를 이끌었다.
 

[그림 6] 전문가 시스템 아키텍처(출처: https://www.ques10.com/p/13534/draw-and-describe-the-architecture-of-expert-sys-1/ 자료 재구성)

① 상호작용: 

전문가 시스템의 상호작용은 전통적인 정보시스템의 사용자 인터페이스와 크게 다르지 않다. 크게 두 영역으로 나눌 수 있는데, 먼저 전문가의 지식을 필요로 하는 사용자가 활용하는 사용자 인터페이스와 전문가 및 지식공학자가 지식을 등록하기 위한 전문가 인터페이스이다. 

사용자 인터페이스는 사실에 대한 분석 결과를 조회하기 위해 추론 엔진, 비전문가에게 해당 지식이 갖는 의미에 대해 설명할 수 있는 해석 시스템과 연결된다. 전문가 인터페이스는 지식 획득 시스템과 연결되어 지식을 등록하고, 이미 등록되어 있는 기반 지식을 바탕으로 등록되는 지식에 오류가 없는지 확인해주는 기능을 갖는다. 

② 학습/추론: 

전문가 시스템에서 학습 및 추론은 기반 지식(Knowledge Base)을 토대로 사용자가 질의한 사례를 분석하고 결과를 도출하는 과정이다. 추론 엔진을 구성하는 방법에는 크게 규칙 기반 전문가 시스템(Rule Based Expert System)과 사례 기반 전문가 시스템(Case Based Expert System)의 두 가지 분야로 나눌 수 있다. 

규칙 기반 전문가 시스템에서는 확보된 ‘사실’을 기반으로 IF-THEN 구조의 추론 사슬(Inference Chain)을 만들고 이에 따라 판단을 수행한다. 추론 사슬을 구축하는 방법에는 순방향 연결과 역방향 연결 방법을 목적에 따라 선택하게 된다.

사례 기반 전문가 시스템은 과거의 사례를 현재에 주어진 문제를 해결하기 위해 과거의 동일하거나 유사한 사례를 활용하는 방법이다. 크게 검색(Retrieved Module), 재사용(Reuse Module), 수정(Revise Module), 저장(Retain Module)의 네 가지 모듈로 구성된다. 

먼저 검색 모듈을 통해 Case Library의 과거 사례와 현재의 사례와 비교하여 동일하거나 유사한 사례를 찾는다. 만약 바로 문제 해결이 가능한 경우 재사용 모듈을 적용하며, 문제 해결이 불가능한 경우 수정 모듈을 통해 변수에 변화를 부여함으로써 대안을 생성한다. 그 후 문제 해결 결과를 저장 모듈을 통해 저장함으로써 사례 학습과 모델 고도화에 사용한다.

규칙 기반 전문가 시스템과 사례 기반 전문가 시스템 모두 관측되지 않았거나 누락된 사실이 발생할 경우 추론하지 못하는 약점이 있다. 이에 전문가 시스템에 대한 관심도가 많이 떨어졌으나 최근에는 딥러닝을 적용하여 이러한 약점을 보완하는 방안이 활발히 논의되고 있다.

③ 수행: 

전문가 시스템의 수행 영역은 사용자가 원하는 지식을 제공하는 단순한 지식 큐레이션부터, 직접 작업을 수행하는 RPA까지 다양한 유형이 존재한다. 그러나 아직 독립적으로 업무를 수행할 수 있는 능력은 부족하는 것이 일반적인 견해이다. 에스토니아 등 일부 국가에서 AI 판사를 시범 도입하는 등 그 영역을 넓혀가고 있으나 어디까지나 보조 수단으로 사용하고 있다.

 

관련 글

AI, 현재와 미래 - 2부. 인공지능 비즈니스 모델 패턴

 

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.