데이터 패브릭(Data Fabric)에 대해 알아보자
상태바
데이터 패브릭(Data Fabric)에 대해 알아보자
  • 김찬수
  • 승인 2022.12.05 16:18
  • 조회수 7336
  • 댓글 0
이 콘텐츠를 공유합니다

 

1. 개요

등장 배경
o 빅데이터와 클라우드 시대의 활성화로 점점 더 많은 새로운 데이터가 이기종의 다양한 시스템에 분산저장되고 있으며, 이에 대한 빠른 접근과 활용, 그리고 통합적 관리가 어려운 환경에 직면
o 기업에서 데이터를 자산화하고, 데이터 활용을 민주화 하기 위해서는 모든 직원이 필요한 데이터에 대해 빠르고 쉽게 접근·활용할 수 있는 환경 제공 필요

데이터 패브릭(Data Fabric)의 정의
o ‘데이터 패브릭(Data Fabric)’은 다양한 이기종 시스템에 분산되어 저장된 데이터에 대한 통합된 접근과 활용을 위한 솔루션으로써 최근 각광받고 있음
  - 가트너에서는 2022년 이후 12대 전략기술 중 하나로 선정
o 즉, “다양한 시스템에 분산된 대규모 데이터에 대한 통합적인 접근과 공유를 위한 정보네트워크 체계”라 정의할 수 있음

데이터 패브릭(Data Fabric)의 구성요소 : 개요

 

[ 그림 1. 데이터 패브릭의 구성요소 ]

o 구성요소1 : ‘확장된 데이터 카탈로그’를 통한 분산된 데이터에 대한 통합적인 접근 기반 제공
  - 데이터 패브릭을 실체화하기 위한 가장 핵심 요소
o 구성요소 2 : ‘데이터 포털’을 통해 사용자들이 데이터 카탈로그의 메타데이터를 쉽고 빠르게 검색하고 요청할 수 있는 데이터 접근 및 분석 활용 체계 제공
o 구성요소 3 : 검색-요청된 다양한 형태의 분산된 데이터 저장소에서 데이터를 추출-통합하여 전달하는 ‘데이터 준비 및 전달 체계’

 


2. 기술 동향

1) 확장된 데이터 카탈로그

데이터 카탈로그의 정의
o 데이터 카탈로그는 조직에서 보유한 데이터 자산에 대한 인벤토리임
o 즉, 메타데이터를 수집하여 구성하여 데이터 관리작업 및 사용자의 검색을 통한 접근활용을 지원하는 메타 데이터 기반 데이터 인벤토리 관리체계임

데이터 카탈로그의 확장[자동화 기술관점] : Passive Meta Data vs. Active Meta Data
o 기존의 메타데이터 관리는 데이터 선별과 등록이 ‘사람’의 ‘판단’ 의해 ‘간헐적’인 ‘수작업’으로 이루어지는 ‘정적이고 수동적인 방식(Passive Meta Data)’이었음
o 그러나 다양한 새로운 데이터가 끊임없이 생성되어 분산된 시스템에 저장되는 현재의 환경에서,  수동적인 메타데이터 관리 방식으로 데이터를 인지등록하기에는 불가능해지고 있음
o 또한 개별 개별의 새로운 데이터를 인지하는 문제 뿐만 아니라, 데이터와 데이터 간의 유의미한 관계를 사람이 판단하는 데에도 한계에 봉착
o 이러한 문제점을 해결하기 위해 ‘상시 작동’하면서, ‘지능적으로 생성’하고, ‘처방’으로 이어지는 ‘플랫폼’ 기반의 능동 메타데이터(Active Meta Data) 체계로의 전환이 이루어지고 있음

Active Meta Data의 특징

[ 표  1. Active Meta Data의 특징 ]

o 즉, Active Meta Data 관리활용 체계란 항상 새로운 데이터 발생과 사용을 감시하여 수집하고(상시 작동), 데이터 간의 관계에 대한 지능화 된 파악을 통해 연결하고(지능적 관계 생성), 나아가 최적화 된 데이터 운용 및 데이터 사용현황 기반 시스템 운용을 제안해주고(처방), 데이터에 대한 검색과 협업이 원활이 지원(플랫폼)되는 것을 의미함

Active Meta Data의 기술 요소

o 메타데이터 레이크(Meta Data Lake)
모든 종류의 메타데이터를 원시 및 추가 처리된 형식으로 저장하는 통합 저장소로, 단순 데이터 저장소로서의 기능 뿐만 아니라 개방형 API를 통해 쉽게 액세스 할 수 있는 기능 제공

o 지식 그래프 분석(Knowledge Graph Analytics)
메타데이터를 개별 개별 등록하는 것에서 나아가, 데이터 간의 관계를 지능화 된 네트워크 분석을 통해 인지하여 생성

o 증강 분석(Augmented Analytics)
규칙 기반 프로그래밍에 의존하지 않고 데이터에서 학습하는 머신러닝과 구조화 되지 않은 데이터를 분석할 수 있는 자연어처리(Natural Language Processing) AI를 통합적으로 활용하는 분석을 통해 데이터에 대한 통찰력 발굴을 자동화하고, 사용자에게 자연어로 데이터를 쿼리할 수 있는 환경 제공

o 증강 데이터 관리(Augmented Data Management)
지속적으로 증가하는 데이터 관리 작업 부하를 개선하고 자동화 하기 위한 AI 기술이 적용된 데이터 관리체계

[ 표  2. 증강 데이터 관리 적용 대상별 활용 방법 ]

 

데이터 카탈로그의 확장[업무 활용관점] : IT Meta Data, Biz. Meta Data, Operational Meta Data
o 데이터 카탈로그는 기존의 IT관리 중심의 기술 메타데이터 정보에서, 비즈니스 현업 조직이 이해하고 활용할 수 있는 비즈니스 메타데이터와 운영 메타데이터로 확장되어 제공

 

[ 그림 2. 업무활용을 위한 메타데이터의 확장 ]

o 비즈니스 메타데이터는 현업 사용자들이 더 쉽게 검색(Where, How)하고, 이해(What, Why, Who, When) 할 수 있도록 업무적인 관점에서 데이터를 정의하고 설명한 것임(출처 : Modern Metadata Strategies, 2018)

 

[ 그림 3. Biz. 메타와  IT 메타 연결 및 활용 ]
[ 그림 4. Biz. 메타 관리항목 예시 ]

o 운영 메타데이터는 누가, 언제, 어떤 시스템에서, 어떻게 사용했는지에 대한 데이터 접근/활용 현황에 대한 정보와 데이터 품질/접근권한/보안사항 등에 대한 정보를 제공
o 또한 데이터 카탈로그는 데이터 자체에 대한 메타데이터 뿐만 아니라, 데이터가 어떻게 생성됐고, 어떤 과정을 거쳐 변경되었으며, 어디에 쓰이고 있는지에 대한 데이터 흐름 가시성 확보를 위한 데이터 계보(Data Lineage) 정보로 확장되어 제공


2) 데이터 포털

데이터 포털의 정의
o 데이터 카탈로그(메타데이터)에 대해 자연어 기반으로 검색(Pull)하고, 사용자에게 데이터 사용량이 많은 인기 데이터나 검색한 데이터와 연관된 데이터를 추천(Push) 하는 검색엔진을 제공하는 데이터 검색과 활용을 위한 업무포털
o 또한 데이터 관리, 접근 및 활용을 위한 사용자간 협업(토론, 알람, 신청승인 워크플로우, 크라우드 소싱 등)을 위한 도구가 데이터 포터 내에 통합되어 운영

데이터 포털 구성요소
o 데이터 포털은 데이터 자산 등록/관리, 데이터 검색 및 요청, 데이터 접근관리, 데이터 분석/활용 환경제공으로 구성

 

[ 그림  5.데이터포털 제공 기능 ]

o 데이터 검색
사용자가 직접 키워드를 입력하여 검색하는 기본적인 방식 이외에도, 인기 검색 데이터 및 사용자 업무 관련성 기반 추천 데이터를 先제시 해주는 데이터 큐레이션 방식, 데이터의 분류 디렉토리를 기반으로 찾아갈 수 있는 데이터 맵 방식, Graph 분석을 통해 사용자가 검색한 데이터와 관련성 높은 데이터를 네트워크 맵 형태로 제시해주는 방식으로 확장

o 데이터 검색 대상
IT 메타, Biz. 메타, 운영 메타, 데이터 계보(흐름) 정보를 대상으로 검색 서비스 제공

o 데이터 자산 등록/관리
내부/외부/공공 데이터(셋) 뿐만 아니라, 분석모델/쿼리/보고서를 포함하여 데이터 자산으로 인식하고 등록/관리하며, 데이터 오너십을 가진 부서에서 직접 데이터 품질을 관리할 수 있는 도구와 기능 제공

o 데이터 접근 관리
  - 데이터 포털에 대한 권한관리, 검색 및 검색결과 요청된DB에 대한 권한관리, 분석을 위해 요청하는 개인화 된 분석환경 및 분석도구에 대한 권한 관리 기능 제공
  - 사용자의 메타데이터 검색결과 수집요청한 데이터에 대한 요청/승인 프로세스 지원, 사용자 요청 데이터에 대한 추출/적재 기능 제공, 다양한 원천 소스 데이터에 대한 데이터 가상화 접근 환경 제공
   
o 데이터 분석/활용
  - 데이터 검색결과 사용요청한 데이터를 개인화 된 분석환경(샌드박스)을 구성하여 제공
  - 개인화 된 분석환경에는 수집요청하여 제공되는 데이터 뿐만 아니라, 분석을 위해 필요한 공간 및 분석도구(시각화 분석도구, 자동화 된 머신러닝 분석환경, R/Python, 각종 분석 라이브러리 등)를 제공
  - 또한 각종 분석 리포트 및 대시보드 자료 등 기존의 MIS(Management Information System: 경영정보시스템) 환경을 데이터 포털에서 통합적으로 접근할 수 있도록 함
  - 분석과제 관리를 위해 분석과제를 등록하고 분석에 사용한 데이터셋과 분석결과를 공유하고 분석모델의 성능지표를 모니터링 할 수 있는 환경 제공


3) 데이터 준비 및 전달

데이터 통합
o 데이터 포털을 통해 사용자가 요청한 데이터를 다양한 이기종의 원천 소스로부터 모든 유형의 데이터를 추출/변환/적재 하기위한 내장 변환 함수 및 커넥터 제공
o 또한 이러한 데이터 추출/변환/적재 작업에 대한 스케쥴링 및 모니터링을 위한 관제 기능 제공

데이터 서비스
o 수집요청에 따라 추출/변환/적재 된 다양한 유형의 데이터에 대해 손쉽게 접근/활용하기 위한 데이터 서비스 API 제공

 


3. 발전방향 및 시사점

데이터 패브릭 발전방향
o 데이터 패브릭 체계가 활성화 되기 위해서는 기존의 데이터 카탈로그 관리 방식 및 관리 범위에서 보다 확장된 방식과 범위로 변화해야 함
o 즉, 기존의 사람에 의한 수작업 기반 수동적 메타데이터 생성 및 업데이트 방식에서, 머신러닝/AI 기술을 활용한 자동화 되고 선제적인 관리가 가능한 능동적 방식으로 발전하고 있음
o 기반이 되는 머신러닝/AI 기술이 획기적으로 진화하고 있는 상황과 맞물려 능동적 메타데이터 관리 방식을 가속화 시키고 있음
o 또한 기존의 IT 운영관리 관점의 메타데이터 정보관리에서 각 비즈니스 현업의 원활한 데이터 이해와 접근/활용을 위해 비즈니스 용어로 표현된 메타데이터 정보관리로 확장되고 있음
o 데이터 자체에 대한 메타 정보 관리 뿐만 아니라, 이러한 데이터에 손쉽게 접근하고 활용하기 위한 업무환경으로써 많은 기업들이 데이터 포털 환경을 구성하기 시작했음
o 데이터 포털은 단순히 데이터셋에 대한 접근과 분석/활용의 관점 뿐만 아니라, 기업이 보유한 데이터를 자산으로 인식으로 이를 자산화 하여 활용하기 위한 관점으로 대상 데이터 자산의 관리 및 제공 범위를 확장해 나가고 있음  

데이터 패브릭의 시사점
o 과거의 중앙의 IT부서나 데이터분석팀에서 수행하던 데이터 분석/활용 업무는 전사의 비즈니스 현업이 직접 수행하는 방식으로 데이터 접근/활용에 대한 민주화가 진행되고 있음
o 또한 4차 산업혁명인 디지털 트랜스포메이션의 시대에 데이터를 또 하나의 가장 중요한 핵심 자산이자 기업 경쟁력의 원천으로 인지하기 시작했음
o 그러나 데이터 분석/활용의 민주화, 데이터 자산화를 위해서는 다양한 이기종의 원천시스템에서 발생/축적되는 모든 데이터를 쉽고 빠르게 찾아내고, 연결하고 접근할 수 있는 체계의 마련이 필수적임
o 즉, 데이터 패브릭 체계의 구현은 기업이 보유한 다양한 데이터를 자산화하여 관리하고, 전 조직원이 접근/활용할 수 있는 제반 환경을 제공한다는 점에서 디지털 트랜스포메이션을 통한 기업 경쟁력 강화를 위한 필수적 요소라고 할 수 있음


 

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.