Data Driven Enterprise가 되기 위한 방안, 데이터옵스 도입 [3부] - 프레임워크와 고려 사항
상태바
Data Driven Enterprise가 되기 위한 방안, 데이터옵스 도입 [3부] - 프레임워크와 고려 사항
  • 조형진 이사
  • 승인 2020.01.03 01:41
  • 조회수 2407
  • 댓글 0
이 콘텐츠를 공유합니다

 

데이터옵스 프레임워크

데이터옵스 프레임워크는 데이터 파이프라인을 축으로 데이터 기술, 데이터 프로세스, 데이터 사용자 관점에서 구성요소 등이 있다.

 

● 데이터 파이프라인

데이터 파이프라인은 데이터 수집, 데이터 엔지니어링, 데이터 분석의 3단계를 통해 소스 데이터를 비즈니스 사용자에게 이동시키는 자동화 된 데이터 흐름이다. 이러한 파이프라인은 다양한 비즈니스 사용자 및 응용 프로그램에서 사용 할 데이터를 처리, 정제, 보강하는 데이터 공급망을 나타낸다.

 

● 데이터 기술

데이터 기술은 데이터를 수집, 정제 및 분석 하는데 사용되는 주요 기술 범주를 나타낸다. 세부적으로는 데이터 캡처, 데이터 통합, 데이터 준비 및 데이터 분석과 같은 4가지 범주에 대한 기술들이 주목받고 있다.

데이터캡처는 빅데이터와 사물인터넷(IoT)을 지원하기 위해 배치 데이터에서 스트리밍 아키텍처로 이동하고 있는 조직에서 최근 인기있는 기술로서 대표적으로 Change Data Capture(CDC)가 있다.

데이터 통합 기술은 현재 기존 DW 프로젝트에서 발전한 기술이 주류를 이루고 있다.

데이터 준비 관련 기술은 데이터 분석가가 데이터 레이크와 같은 레파지토리의 데이터를 활용하여 데이터 세트를 모델링 할 수 있도록 설계된 기술들로써 데이터 카탈로그 등이 포함된다.

데이터 분석 기술은 비즈니스 사용자에게 쿼리, 분석, 시각화 및 인사이트를 공유하는 도구 등을 제공한다.

마지막으로 데이터 기술을 지원하는 데이터 스토리지는 DW, 데이터레이크 및 데이터 샌드박스 등을 포함하며, 스토리지 아래에는 컴퓨팅 인프라가 있다.

 

● 데이터 프로세스

데이터 기술만으로 파이프라인을 구축하고 관리하려는 조직은 실패할 가능성이 높다. 신규 또는 업데이터 된 기능을 구축, 변경, 테스트, 배포, 실행 및 추적하기 위해서는 잘 정의된 프로세스와 방법이 필요하다. 또한 이러한 프로세스에서 생성되는 코드, 데이터, 메타데이터, 스크립트, 메트릭스 등도 잘 관리되어야 한다. 데이터 기술을 조정하고, 개발, 테스트, 프로덕션 프로세스를 모니터링해야 한다.


- 개발 및 배포: 개발과 배포는 애자일 또는 데브옵스 방법론으로 잘 정의되어 있다. 목표는 일반적으로 2주이하의 짧은 스프린트로 기능적인 코드 작성 및 완벽한 테스트를 통해 새로운 기능을 개발하는 것이다.

- 오케스트레이션: 데이터옵스의 핵심은 오케스트레이션이다. 데이터 파이프라인을 통과할 때 데이터를 이동, 처리 및 보강하기 위해서는 수많은 종속성이 있는 워크플로우가 필요하다. 오케스트레이션 도구는 코드, 데이터, 기술 및 인프라와 같은 데이터 개발 프로젝트의 구성요소를 모두 조정할 수 있다.

- 지속적 테스트: 데이터옵스 환경의 마지막 구성요소가 테스트 환경이다. 지속적인 테스트 및 모니터링을 통해 데이터 팀은 목표 설정 및 결과를 측정하여 사이클타임 또는 품질을 지속적으로 개선해 나갈 수 있다.
 

투이톡_데이터옵스_1.jpg
[그림 1] 데이터옵스 구성요소 / 출처: https://www.eckerson.com

 

데이터옵스 기능 아키텍처

데이터옵스 기능 아키텍처는 애자일 반복 개발, 데브옵스, 통계적 프로세스 제어(SPC)에 대한 지원을 포함하여 전통적인 운영 기반의 데이터 아키텍처를 확장한다. 이러한 도구와 프로세스를 통칭하여 데이터 플랫폼이라고 한다.

데이터 플랫폼은 클라우드 또는 온-프레미스에 존재할 수 있으며, 최근에는 클라우드 환경으로 이동하는 추세에 있다.

데이터옵스 아키텍처는 환경 생성 및 관리를 지원한다. 이를 통해 별도의 개발, 테스트, 프로덕션 환경 생성이 가능해 오케스트레이션, 모니터링 및 테스트 자동화를 지원한다. 각 환경의 에이전트는 데이터옵스 플랫폼을 대신하여 코드 및 구성을 관리하고 작업을 실행 및 테스트를 수행한다. 데이터 플랫폼은 신속한 배포 및 고품질의 목표를 지원하는 여러가지 기능(버전관리, 인증 및 권한 관리, 메타데이터 등)을 통합한다.
 

투이톡_데이터옵스_2.jpg
[그림 2] 데이터옵스 기능 아키텍처 / 출처 : https://datakitchen.io, 2019,7


• 스토리지 / 리비전 제어 - 버전 제어는 인위적인 변경 사항을 관리.  거버넌스 및 반복 개발에 필수 (예 : git, dockerhub)

• 이력 및 메타 데이터 - 시스템 및 활동 로그 관리 (예 : MongoDB)

• 인증 및 권한 - 환경에 대한 액세스 제어 (예 : Auth0)

• 환경 비밀 – 환경 내 도구 및 리소스에 대한 역할 기반 액세스 (예 : Vault)

• 데이터옵스 지표 및 보고서 - 분석 및 데이터 팀의 상태에 평가에 대한 내부 분석 : CDO 대시 보드, (예 : Tableau)

• 자동 배포 – 하나의 환경(예 : 테스트 환경)에서 프로덕션 환경으로 코드/구성을 이동하는 과정 포함 (예 : Jenkins, CircleCI)

• 환경 생성 및 관리 – 하드웨어, 소프트웨어, 테스트 데이터 세트 등 필요한 모든 것을 가지고 작업 할 수 있는 환경을 생성할 수 있는 코드와 같은 인프라 취급

• 오케스트레이션, 테스트, 모니터링 - 파이프라인이 실행되는 동안 관련된 모든 도구를 오케스트레이션하고 테스트 및 모니터링하며 문제가 발생 시 경고(예: Grafana 등).

 

데이터옵스 프레임워크 구현 시 고려사항

데이터옵스는 부서 전체에서 데이터 활용 능력을 향상시키는 동시에 민첩성과 운용 효율성을 향상시킬 수 있다.

조직, 프로세스, 기술 등을 포함하는 데이터와 관련된 문화적 변화이다. 따라서 데이터 활용과 운영 관점에서 새로운 사고방식의 전환이 필요하다.

이를 위해 먼저 조직 내에서 데이터 활용 문화를 포용할 수 있도록 해야한다. 데이터가 무엇이고 어떻게 사용되고 있는지 이해할 수 있어야 한다. 데이터 관련 교육 제공을 통해 데이터 활용 문화를 조성해야 한다. 또한 경영진은 데이터 활용에 대한 열정을 가지고, 구성원들의 데이터 활용 역량을 이끌어내야 한다.

두 번째, 협업을 위한 데이터 프로세스 생성이 필요하다. 데이터가 일상적인 작업 또는 의사결정의 한 부분이 될 수 있도록 데이터 사용을 통해 협업을 촉진하는 프로세스가 필요하다. 이러한 프로세스는 데이터 중심의 의사결정을 위한 KPI를 만들 수 있다. 또한 데이터가 액세스를 제공하거나 누락된 데이터 세트가 필요할 때 어떤 지점에서 병목현상이 발생할 수 있는지 위치를 찾아낼 수 있다.

세 번째, 실용적인 기술을 구현해야 한다. 기술은 데이터옵스 프레임워크의 핵심이다. IT부서는 전사 데이터 통합 및 데이터 카탈로그 등과 같은 다양한 솔루션을 검토해야한다. 이런 솔루션은 조직에서 사용 가능한 모든 정보를 분석 목적으로 쉽게 액세스 할 수 있도록 통합하는 역할을 한다.

마지막으로, 데이터 활용을 측정해야한다. 데이터옵스는 지속적인 측정 및 개선을 통해 진화하는 프레임워크이다. 어떤 데이터 세트가 가장 자주 사용되는지? 데이터를 사용하기 쉽게 구체화 하는 방법은 없는지? 특정한 데이터 세트에 대한 지속적인 요청은 없는지 등 데이터 카탈로그를 통해 지속적으로 데이터 사용량을 점검해야 한다. 데이터의 사용방법과 데이터 가용성의 격차를 이해함으로써, 기업이 더 많은 데이터를 어떻게 활용할 수 있는지 여부를 확인할 수 있다. 

데이터옵스는 아직까지 초기 단계이다. 데이터분석은 분석, 적용, 성과 평가, 피드백 등의 순환을 통해 성과가 커진다는 점과 분석 결과는 애플리케이션 소프트웨어에 내재화되어 적용되어야 한다는 점에서 반드시 필요한 프랙티스로 평가된다. 다만 이를 적용하기 위해서는 갖추어야 할 기술 환경과 분석 전문가, 데이터엔지니어 등의 역량이 확보되어야 한다. 단기간에 확산되기는 쉽지 않겠지만 데이터옵스를 먼저 구축한 기업이 더 뛰어난 경쟁력을 가질 것이라는 점은 분명하다.

 

* ‘Data Driven Enterprise가 되기 위한 방안, 데이터옵스 도입 [2부]: 프로세스와 조직’에서 이어진 글입니다.

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.