전통적 데이터분석 방법론: KDD, CRISP-DM
상태바
전통적 데이터분석 방법론: KDD, CRISP-DM
  • 이강준 컨설턴트
  • 승인 2020.12.08 14:00
  • 조회수 3302
  • 댓글 0
이 콘텐츠를 공유합니다

정보의 홍수라는 말로 표현하기에 무색할 만큼 대용량의 데이터가 축적되고 있다. 이전에 활용되었던 정형데이터의 양이 어마어마하게 증가했음은 물론, 비정형데이터를 활용할 수 있는 방법 또한 다양해졌다. 대용량 데이터베이스와 빅데이터를 통해 새로운 인사이트를 도출하고자 하는 시도가 증가하면서 어떻게 효율적으로 분석해야 하는지에 대한 방법론이 중요해지고 있다. KDD와 CRISP-DM 방법론을 소개한다.

 

분석을 시작하기 위해 필요한 분석 기획

분석이란 데이터의 중요한 패턴을 발견하고 해석한 결과를 전달하는 과정이다. 축적되어있는 데이터로부터 성공적인 분석이 이루어지려면 적절한 분석 기획이 먼저 수립되어야 한다. 즉, 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 인사이트 등의 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 것이다.

분석 대상과 방법
분석은 분석의 대상(WHAT)과 분석의 방법(HOW)에 따라 4가지 유형으로 나눌 수 있다. 한 가지 주제의 분석이라 할지라도 4가지 유형을 넘나들며 분석을 수행하고 결과를 도출하는 과정을 반복할 수 있다.
 

[그림1] 분석의 4가지 유형
[그림1] 분석의 4가지 유형

분석 기획은 다음 세가지를 고려해서 수행한다.

가용데이터에 대한 고려(Available Data)
분석을 위한 데이터 확보가 우선이며, 데이터의 유형에 따라 적용 가능한 솔루션과 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.

적절한 활용방안과 활용사례(Proper Business Use Case)
분석을 적용하여 성과를 낼 수 있는 대상 업무가 있어야 한다. 동 업종 또는 동 업무의 분석 적용 사례를 참조할 수 있다. 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다

장애요소들에 대한 사전계획 수립 (Low Barrier of Execution)
1회성 분석에 그치지 않고 조직 역량으로 내재화되기 위해서는 지속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 한다.

 

KDD 분석 방법론과 CRISP-DM 방법론

기업들은 매번 분석을 시도할 때마다 처음부터 다시 분석 기획을 하는 것은 어렵기도 하거니와 효율적이지 못하다. 그러므로 적절한 분석 절차가 조직 내에 정착하기 위해서는 체계화한 절차와 방법이 정리된 분석 방법론이 필요하다. 방법론은 절차와 방법, 도구, 기법, 템플릿과 산출물로 구성되어 있으며 활용하기 쉽도록 구성되어야 한다.

KDD 분석 방법론
KDD(Knowledge Discovery in Database) 분석 방법론은 1996년 Fayyad가 소개한 방법론으로 데이터를 통해 통계적 패턴이나 지식을 찾을 수 있도록 정리한 데이터마이닝 프로세스이다. 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화에서 응용 될 수 있는 구조를 갖고 있다. KDD 분석 방법론은 데이터셋 선택, 데이터 전처리, 데이터 변환, 데이터마이닝, 결과 평가로 이루어져 있다.

[그림2] KDD 분석 절차
[그림2] KDD 분석 절차

가. Selection (데이터 선택)
데이터베이스나 Raw data에서 분석에 필요한 데이터를 선택하는 단계로, 분석을 하려는 산업 도메인에 대한 이해와 해당 과제의 목표 설정이 필수적이다.

나. Preprocessing (데이터 전처리)
선택된 데이터셋에 포함 되어 있을 수 있는 노이즈와 이상값, 결측값들을 식별하고 필요하다면 삭제 및 변환 등의 전처리를 통해 데이터셋을 정제하는 단계이다. 
이 단계에서 추가로 데이터가 필요할 경우, 데이터셋 선택 절차를 반복한다.

다. Transformation (데이터 변환)
정제된 데이터를 분석 목적에 따라 데이터의 Feature를 생성, 선택하고 데이터의 차원을 축소하며 데이터마이닝을 진행할 수 있도록 변환하는 단계이다.
이 단계에서 데이터마이닝에 필요한 학습데이터셋과 실험데이터셋으로 분리한다.

라. Data Mining (데이터마이닝)
학습데이터셋을 이용하여 분석 목적에 맞게 데이터마이닝 알고리즘을 선택하여 데이터마이닝을 실행하는 단계이다.
필요에 따라 데이터전처리 및 데이터 변환 절차를 반복할 수 있다.

마. Interpretation/Evaluation (데이터마이닝 결과 평가)
데이터마이닝을 수행한 결과에 대해 해석과 평가를 진행한다. 결과가 충족되지 않았을 경우 데이터 선택 절차와 데이터마이닝 절차를 반복 수행한다.

 

CRISP-DM 분석 방법론

CRISP-DM(Cross Industry Standard Process for Data Mining) 방법론은 전 세계에서 가장 많이 사용되는 데이터마이닝 표준 방법론으로 단계, 일반 과제, 세부과제, 프로세스 실행 등의 4가지 레벨로 구성된 계층적 프로세스 모델이기도 하다.

CRISP-DM의 절차는 6단계로 구성되어 있는데 각 단계들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간의 반복 수행을 통해 분석의 품질을 향상시킨다.

[그림3] CRISP-DM 분석 절차
[그림3] CRISP-DM 분석 절차

가. Business Understanding (업무 이해)
업무 이해 단계에선 분석을 수행하고자하는 과제의 목적과 요구사항을 이해하고, 도메인 지식을 활용하여 초기 프로젝트 계획을 수립하는 단계이다. 이 단계에선 업무 목적 파악, 상황파악, 데이터마이닝의 목표 설정, 프로젝트 계획 수립 등의 세부 업무가 포함된다.

나. Data Understanding (데이터 이해)
해당 단계에선 분석을 위한 데이터를 수집하고 이해하는 단계이다. 이 단계에선 초기 데이터 수집, 데이터 기술 분석, EDA, 데이터 품질 확인 등이 있다.

다. Data Preparation (데이터 준비)
수집한 모든 데이터에서 분석에 용이한 데이터만을 추출하여 편성하는 단계이다. 이 단계에선 데이터셋의 선택과 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅의 업무가 있다.

라. Modeling (모델링)
다양한 알고리즘을 선택하여 모델링 과정을 수행하고 파라미터를 최적해 나가는 단계이다. 학습데이터셋 통해 모델링을 수행하며, 실험데이터셋으로 평가한다. 이 단계에서의 수행 업무로는 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성과 평가가 있다. 

마. Evaluation (평가)
수행한 모델링 결과가 과제 목적에 적절한지 평가하는 단계로 평가된 모델링 평가가 분석 결과로 적용되는지 판단한다. 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 등의 수행 업무가 포함된다.

바. Deployment (전개)
완성된 모델을 실제 현업에 적용하기 위해 필요한 이행계획을 수립하는 단계이다. 이행계획에는 모델 적용에 필요한 모니터링은 물론 유지보수 계획 또한 포함된다. 전개 계획 수립 및 모니터링/유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 등의 수행 업무가 포함된다.

 

데이터 경제가 진화될수록 데이터 분석의 가치는 커진다. 전통적으로 적용해왔던 분석 방법론은 지금에도 여전히 유효하다. KDD 방법론은 5가지, CRISP-DM 방법론은 6가지 프로세스로 이루어져 있다. 모두 이론적인 프로세스보다 구체적이면서 실무 적용 측면을 강조하고 있다. 각 단계 간에는 피드백을 통한 반복으로 분석 품질을 높이고 있다. 분석 기법과 알고리즘이 새롭게 소개되고 있는 현재에도 위 두가지 방법론은 기본으로서 이해하고 있어야 한다.
 

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.