빅데이터 분석을 위한 또 하나의 등장 - Data Lake
상태바
빅데이터 분석을 위한 또 하나의 등장 - Data Lake
  • 투이컨설팅
  • 승인 2015.09.16 15:08
  • 조회수 5217
  • 댓글 0
이 콘텐츠를 공유합니다

투이컨설팅 Data Science팀 이지은 수석 컨설턴트

가트너의 조사에 따르면 ‘빅데이터 분석에 투자할 계획이 있는가’라는 질문에 2013년에는 64%, 2014년에는 73%의 기업이 빅데이터에 투자할 것이라고 응답했다. 빅데이터 활용으로 기업의 경쟁은 더욱 가속화됐다.
.
빅데이터 활용에 어려움을 겪는 이유는 데이터의 확보, 정보보호 및 보안, 분석 인프라 구축을 위한 예산, 분석 역량 및 전문가의 부족 등을 들 수 있다. 하지만 무엇보다도 아직까지 우리나라 업무 현장에서 ‘분석의 필요성’을 정확하게 인지하지 못하고, ‘분석을 활용하는 문화’가 성숙되지 못한 것이 더 큰 이유라고 할 수 있다.


다양한 데이터를 사용해 데이터 분석을 시도하고 있는 기업 또한 정형데이터는 EDW 내 데이터마트(Datamart)를 통해 분석이 가능하고, 레거시 시스템(Legacy System)에서 발생하는 운영 데이터, CRM 등 고객 접촉 및 마케팅 데이터와 같은 다양한 기업 내부 데이터는 비즈니스 별로 쌓이고 관리되는 경우가 대부분이다. 빅데이터 분석에 열정이 있는 기업들조차 비용을 들여 구축한 하둡(Hadoop)을 유용하게 활용하지 못하고 있는 실정이다.

하이브리드(Hybrid)한 접근 가능성


분석을 통해 인사이트를 발견할 수 있는 역량을 향상시킴으로써 기업에 가져올 수 있는 ‘데이터의 가치’와 ‘데이터양’에는 상관관계가 존재한다. 다양하고 많은 양의 데이터 분석이 인사이트 발굴에 영향을 주며, 이를 위해 새롭게 거론되는 하둡 분석 플랫폼의 개념이 데이터 레이크(Data Lake)다. 데이터 레이크의 개념을 처음 만든 펜타호(Pentaho)의 CTO 제임스 딕슨(James Dixon)은 데이터 레이크를 다음과 같이 흥미롭게 정의했다.


“데이터마트가 고객에게 쉽게 판매 할 수 있도록 정수하고, 포장하고, 규격화한 생수병이라고 가정해 보자. 이에 반해 데이터 레이크는 그보다는 자연상태에 있는 강이라고 할 수 있다. 데이터 레이크의 콘텐츠들은 각 원천에서 생성돼 호수로 흘러가고, 사람들은 그 호수 주변으로 몰려와 주변을 조사하거나 깊이 들어가 보거나 견본을 가져가기도 한다.”

데이터 레이크 개념을 겸비한 하둡분석 플랫폼의 기술•개념적 특징의 첫 번째는 하이브리드(Hybrid)한 접근 가능성이다. 데이터 레이크를 구축하기 위해 기업들은 별도로 데이터 관리 플랫폼을 교체할 필요 없이 기존 데이터센터의 인프라를 확장시킬 수 있다. 데이터 레이크 개념을 가진 하둡 플랫폼들이 기존 데이터 분석 관련 소프트웨어들 또는 최상의 조합으로 데이터 분석 환경을 만들 수 있도록 시장에서 널리 사용되는 주요 데이터 관리 솔루션과 데이터 분석 솔루션과의 제휴를 시도하는 움직임을 보이고 있다. 데이터 레이크 개념의 가장 탁월한 부분은 관계형 데이터베이스, 데이터웨어하우스, 데이터마트와 같은 기존의 데이터 저장소 스펙트럼의 확장이 가능하다는 것이다. 이것이 중요한 이유는 하둡이 탁월하다 할지라도 때로는 여전히 전통적인 방법과 기존의 툴이 필요하기 때문이다.

두 번째는 오픈소스, 오픈 운영체계를 지원한다는 점이다. 하둡과 빅데이터 관련 프로젝트를 기반으로 한 오픈소스 소프트웨어들은 전통적으로 리눅스 운영체계를 지향해 왔다. 그러나 데이터 레이크 개념의 하둡 데이터 플랫폼은 리눅스와 윈도 두 개의 운영체계를 동시에 지원하기 시작했다.

기업이 분석할 주제를 정의하라


개념적 특징으로 데이터 레이크에는 모든 종류와 형태의 가공 데이터뿐만 아니라 매우 오래된 원시 데이터 등이 존재한다. 그리고 데이터 레이크는 모든 비즈니스 영역을 포함하며, 모든 형태의 데이터 접근에 유연성을 제공한다. 그로 인해 데이터 레이크는 배치 데이터, 대화식 데이터, 웹에서 크롤링한 데이터, 검색 데이터, 인메모리 데이터, 그리고 그 밖의 처리 엔진 등 모든 형태의 데이터에 접근해 분석이 가능하다. 새로운 데이터 아키텍처인 하둡의 도입은 데이터분석으로 새로운 가치를 창출하고자 하는 모든 기업이 고려해 볼만한 요소다. 그리고 이 하둡이 나아가야 할 방향성은 단일 애플리케이션에서 완전히 벗어난‘데이터 레이크’인 것이다.

기술적으로 모든 영역의 데이터에 접근이 가능하게 될지라도 각 비즈니스 담당자들은 정치적 이유로 이러한 데이터 공유에 반대할 수도 있다. 또 메타데이터 관리체계를 필요로 하며, 운영계 데이터의 복잡성으로 이해할 만한 데이터 품질을 끌어내야 한다. 이는 데이터 레이크 개념의 도입을 위해 몇 가지 극복해야 할 요소라 할 수 있다.


우리나라의 빅데이터시장은 기술측면의 접근이 먼저 시도되면서 아직까지 비즈니스 면에서 성과를 거두지 못했다. 기업들은 분석을 통해 ‘우리 기업이 분석할 주제는 무엇인가’를 먼저 정의함으로써 효과적이고 효율적인 인사이트를 도출할 수 있다. 또한 이와 더불어 다양한 데이터와 분석 시나리오를 기반으로 한 데이터 분석이 논리적인 기획에서 물리적인 실행으로 옮겨지기 위해서는 분석에 필요한 모든 종류의 데이터를 자유롭게 멍잉(Munging)할 수 있는 데이터 저장, 분석 플랫폼의 도입 또한 검토가 필요한 때다.

<끝>

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.