어두운 데이터(Dark Data) 관리 방안
상태바
어두운 데이터(Dark Data) 관리 방안
  • 투이컨설팅
  • 승인 2017.01.12 04:35
  • 조회수 2210
  • 댓글 0
이 콘텐츠를 공유합니다

투이컨설팅 김인현 대표이사

어두운 데이터와 밝은 데이터


데이터가 쌓이는 속도는 사용하는 속도보다 훨씬 빠르다. 어두운 데이터(dark data)는 정상적인 업무 결과로 발생하지만 다른 목적으로는 사용되지 못한다. 어두운 데이터의 반대는 밝은 데이터(light data)이다. 어두운 데이터 용어는 가트너가 최초로 사용하였다. 어두운 데이터가 발생하는 원인은 두 가지이다. 첫째, 센서 등 데이터 수집 능력이 크게 향상되었다. 둘째, 법적 규제 등의 이유로 일정 기간 동안 의무적으로 데이터를 보관해야 한다.


어두운 데이터는 거래 처리 결과로도 생기지만, 대부분은 비구조적 데이터 영역에서 발생한다. 데이터 구조를 알 수 없기 때문에 분류하기 어렵고, 규모가 커서 처리하기도 어렵다. IDC에 의하면 비구조적 데이터의 90%는 어두운 데이터가 된다. 데이터메이션(Datamation)은 기업이 보유하고 있는 데이터의 54%는 어두운 데이터이고, 중복되거나 진부화 된 데이터가 32%이며 비즈니스에 중요한 데이터는 16%라고 정의한 바 있다.


어두운 데이터의 영향


영양분 섭취보다 칼로리 사용이 덜하게 되면 사람은 건강이 나빠진다. 어두운 데이터가 증가한다는 것은 기업에도 나쁜 일이다. 데이터 스토리지 가격이 매우 낮은 수준이기 때문에 당장 사용하지 않더라도 보관하는 것이 좋을 것이라고 생각할 수 있다. 지금은 미흡하지만, 데이터 분석 역량이 좋아지면 비구조적 데이터라 하더라도 분석할 수 있는 기술을 갖추게 된다면 언젠가는 쌓아 둔 데이터의 가치를 뽑아낼 수 있을 것으로 생각할 수 있다. 실제로 IBM은 왓슨을 이용하면 대규모의 어두운 데이터를 활용할 수 있다고 주장하기도 한다. 틀린 이야기라고 할 수는 없다. 하지만 당장은 어두운 데이터를 방치하면 몇 가지 위험에 처하게 된다.


첫째, 비즈니스 가치를 놓치게 된다. 어두운 데이터가 생기는 이유는 인사이트가 부패하기 때문이다. IBM에 의하면, 데이터의 60%는 즉시 사용하지 않으면 가치가 사라진다. 예를 들면 위치정보와 연계하여 고객 서비스를 오퍼링하는 경우, 고객이 위치를 이동하고 나면 앞서서 획득한 위치데이터의 가치는 도리어 마이너스가 된다. 신용카드 부정사용을 확인할 수 있는 데이터는 불법 사용이 발생하기 전에만 가치가 있다.


둘째, 데이터 비용이 급상승한다. 뉴욕타임즈의 조사에 의하면, 데이터센터가 사용하는 에너지 비용의 90%는 어두운 데이터 때문이라고 했다. 단순하게 어두운 데이터를 기록하고, 유지하고, 백업하는 비용만 드는 것이 아니다. 사용하고자 하는 데이터를 식별하여 찾아오기 위해서는 보관하고 있는 데이터를 확인해야 한다. 전체 데이터 중에서 필요 없는 데이터의 비중이 클수록 데이터를 찾아오는 노력은 커질 수 밖에 없다.


셋째, 데이터 유출 위험이 커진다. 특히 법규 등에 의하여 보관하게 되는 개인 데이터는 유출될 경우, 기업의 평판은 급격히 나빠질 것이고, 소송 및 개인 피해 구제 비용도 발생할 수 있다. 심한 경우에는 대표이사의 면직 또는 사업권 상실로도 이어질 수 있다. 생산 기술 등 연구 개발 부문 데이터의 유출도 큰 피해를 낳게 된다. 파트너 계약, 임직원 정보, 생산 계획뿐만 아니라 콜센터 상담 기록 등도 기업 외부로의 유출에 유의해야 한다.


어떻게 관리할까


역설적인 이야기지만 어두운 데이터가 있다는 것은 기회가 될 수도 있다. 아직 사용하지 않은 자원을 보유하고 있다는 것과 같은 뜻이기 때문이다, 관리포인트는 어두운 데이터의 존재 여부가 아니라, 속도이다. 쌓이는 속도보다 사라지는 속도를 빠르게 하면 된다. 어두운 데이터가 사라지는 속도는 데이터 사용 증가 속도에 불필요 데이터 제거 속도를 더한 값이다.


사용 속도를 빠르게 하기 위해서는 조작의 데이터 분석 역량을 키우고 데이터 기반 의사결정 문화를 확산시키면 된다. 데이터 문맹률(data literacy) 같은 지표를 개발하여 부서별 직급별로 현재 수준을 측정하고 목표를 세워서 지속적으로 관리하면 좋아질 수 있다. 가차가 없는 데이터를 줄여 가기 위해서는 데이터 생명주기 관리(data life-cycle management) 솔루션이 필요하다. 데이터를 쌓을 때부터 소멸 조건을 정의하여 두는 것도 중요하다.


다시, 데이터아키텍처


데이터는 분명 경쟁력의 원천이다. 하지만 제대로 관리하지 않으면 비용이고 위험 요인이다. 어두운 데이터 개념은 이런 점에서 중요하다. 구조적 데이터는 데이터웨어하우스에, 비구조적 데이터는 데이터레이크에 보관한다. 어두운 데이터는 데이터웨어하우스에도 있고 데이터레이크에도 있다. 하지만 대부분의 어두운 데이터는 데이터레이크에 존재한다. 데이터레이크에서 의미가 없는 데이터를 제거해주지 않으면 데이터레이크는 데이터늪(data swamp)이 되고 말 것이다. 결국 어두운 데이터 문제는 데이터아키텍처와 데이터거버넌스 문제이다.

 - 끝 -

 

※위 내용은  '투이톡' 앱을 통해서도 확인하실 수 있습니다.
투이톡 설치(구글 플레이 스토어, 애플 앱스토어)
https://play.google.com/store/apps/details?id=com.consulting2e.academy

http://itunes.apple.com/us/app/tu-i-tokeu/id1171671108?l=ko&ls=1&mt=8

 



 

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.