빅데이터 시대의 정보분석 아키텍처
상태바
빅데이터 시대의 정보분석 아키텍처
  • 투이컨설팅
  • 승인 2016.11.21 02:25
  • 조회수 5131
  • 댓글 0
이 콘텐츠를 공유합니다

투이컨설팅 송동훈 이사보

IDC는 2020년, 전세계 데이터가 44제타바이트에 이를 것으로 전망했다. 모바일, 소셜미디어, IOT 등 디지털기술의 발달로 데이터는 폭증하고 있다. 발생 데이터 80% 이상이 비정형 데이터로 그 종류도 다양하다. 바야흐로 데이터의 빅뱅, 빅데이터 시대이다. 하지만 기존 정보분석 환경은 정형 데이터를 기본으로 하고 있어, 다양하고 방대한 양의 데이터 처리가 어려운 실정이다.


Logical Data Warehouse와 Data Lake


이러한 한계 극복을 위해 제시된 개념이 Logical Data Warehouse와 Data Lake이다. Logical Data Warehouse는 비정형 데이터를 포함한 모든 데이터가 저장 및 분석되는 정보관리 아키텍처이다. 데이터가상화, 분산처리 및 온톨로지 메타데이터와 같은 기술적 접근 방식이 포함되어 있다. Data Lake는 대용량의 데이터를 가공 없이 형태 그대로 저장하고 추후 쉽게 분석할 수 있도록 구현되어 있다.


새로운 정보분석 아키텍처 정의와 5가지 특징


이 두 가지 개념을 묶어 정보분석 아키텍처를 정의 해보면 크기에 상관없이 다양한 형태의 데이터 저장/접근이 가능하고 모든 유형의 처리 분석이 가능한 유연성을 갖춘 플랫폼이라고 할 수 있다.


이 개념을 바탕으로 빅데이터의 분석 흐름에 따라 데이터 수집, 저장, 처리, 접근, 분석 5계층으로 구성되는 새로운 정보분석 아키텍처의 특징을 정의할 수 있다.

a.jpg


첫번째, 데이터 수집 계층은 모든 형태의 데이터 수집과 저장이 가능해야 한다.


데이터 형태에 따라 수집방법 방법과 기술은 다르다. 단일 포맷의 정형데이터(Structured Data)는 RDMS(Raw Data Management System)에 직접 접속하여 수집이 가능하지만 비정형데이터(Unstructured Data)의 경우 로그, 센서 데이터, 이미지, 동영상, 음성 등 다양한 포맷과 프로토콜을 통해 수집 되어야 한다. 또한 데이터 분석 특성에 따라 실시간 수집도 필요하다.


두번째, 데이터 저장 계층은 데이터 증가에 따른 손쉬운 확장과 실시간 분석 지원이 되어야 한다.


분산 저장(Distributed Storage) 기술을 사용해 데이터 증가에 유연하게 대처하고, 대용량의 데이터를 빠르게 처리해야 한다. 데이터 응답 속도가 떨어지는 디스크 보다 자료 접근이 훨씬 빠른 메모리에 데이터를 보유(In Memory Database)함으로써 대용량 데이터 실시간 분석이 가능해진다.


세번째, 데이터 처리 계층은 수집된 모든 형태의 데이터를 다양한 방식으로 처리한다.


병렬처리를 통한 대용량 데이터의 결과를 신속히 보여줄 수 있는 Batch Processing (빅데이터 처리시 가장 많이 쓰이는 방식)이 가능하다. Ad hoc 질의를 통해 찾고자 하는 데이터의 결과 확인이 즉시 가능한 Interactive Processing과 끊임없이 들어오는 데이터를 실시간으로 결과에 반영하는 Streaming Processing으로 처리된다.


네번째, 데이터 접근 계층은 모든 형태의 데이터는 논리적으로 통합된 단일 접근 가능해야 한다.


서로 다른 포맷의 데이터를 물리적으로 통합하기 위해서는 많은 시간과 비용이 소요된다. 데이터 중복 등이 발생하여 데이터의 적시성과 정확성을 떨어지기 때문이다. 이기종 저장 데이터를 하나의 논리적으로 통합된 리소스인 것처럼 접근하게 해주는 데이터 가상화(Data Virtualization)를 통해 서로 다른 형태의 데이터에 연계하여 가상 뷰 또는 데이터마트를 구성할 수 있어야 한다.


다섯번째, 데이터 분석 계층은 비즈니스 인사이트를 발견해 의사결정에 반영할수 있어야 한다


기업의 일반적인 운영 활동을 위한 Business Reportting과 데이터 마이닝, 머신러닝 등의 분석기법 등을 적용하여 크고 복잡한 빅데이터 속에서 의미 있는 정보와 가치들 발견하는 Advanced Analytics가 가능해야 한다. 이렇게 분석한 내용들을 Data Visualization을 통해 직관적으로 알 수 있도록 표현해야 한다.


빅데이터 시대 새로운 정보분석 아키텍처 구성 방법


그럼 이러한 모든 형태의 데이터 저장과 접근이 가능한 유연한 정보분석 아키텍처는 어떻게 구성해야 할까? 특히 기존 정보분석 환경이 존재하는 경우 어떻게 접근하는 효율적인 방법일까?


새로운 정보분석 아키텍처의 특징을 가장 잘 반영하고 있는 기술은 아파치의 하둡 코어 프로젝트와 그와 연관된 수많은 주변 프로젝트들로 하둡 생태계(Eco System)를 이루고 있다.


수집되는 데이터의 종류와 분석 용도에 따라 다양한 저장공간이 제공된다


데이터 종류에 따라 데이터 저장소도 정형데이터는 Rational 형식으로 비정형데이터는 Non-Rational형식으로 관리한다.


데이터를 저장소를 판단할 때 가장 중요한 기준으로 데이터의 종류에 따라 요구되는 데이터의 정확도가 다르다는 것이다. 기업 데이터 중 실제 업무에 활용되는 데이터들은 정확해야 한다. 특히 금융, 재무에 관련된 데이터는 구체적이고 정밀해야한다.


비정형 데이터로부터 정확한 정보가 아닌 의미 있는 데이터 패턴을 찾아내는 데이터의 탐색도 필요하다


데이터 분석 용도에 따라 정확도가 높고 엄격한 트랜잭션관리 요하는 업무용 데이터의 경우 RDBMS(고비용) 정확도가 낮고 별도의 트랜잭션 지원이 필요하지 않는 분석용 데이터의 경우 No RDBMS(저비용)를 활용하는 것이 효율적인 방안이다.

- 끝 -

※위 내용은  '투이톡' 앱을 통해서도 확인하실 수 있습니다.
투이톡 설치(구글 플레이 스토어, 애플 앱스토어)
https://play.google.com/store/apps/details?id=com.consulting2e.academy

http://itunes.apple.com/us/app/tu-i-tokeu/id1171671108?l=ko&ls=1&mt=8

 

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.