디지털시대의 핵심 경쟁력, 대체데이터는 무엇인가?
상태바
디지털시대의 핵심 경쟁력, 대체데이터는 무엇인가?
  • 유현서 컨설턴트
  • 승인 2019.11.26 06:19
  • 조회수 5000
  • 댓글 0
이 콘텐츠를 공유합니다

금융회사의 경쟁력은 대체데이터 활용에 달려 있다

원시시대는 동굴 벽에 선을 그어서 날짜를 표시한 것, 사냥한 동물을 표시한 것 등도 데이터였다. 정보화가 진전되고 데이터베이스 관리시스템이 도입되면서 데이터의 개념이 축소되었다. 문자와 숫자 그리고 코드 등이 데이터로 간주되었다. 금융 데이터도 마찬가지로 고객 계좌번호, 금융 거래, 신용 등급 등과 같이 수치와 코드들 만이 데이터로 여겨져 왔다.

신한카드는 카자흐스탄 법인을 추진하는 과정에서 새로운 도전에 직면했다. 카자흐스탄은 신용평가산업이 성숙되지 않아서, 전통적인 방법으로는 고객의 신용도를 평가할 수 없었기 때문이었다. 이를 해결하기 위해 신한카드는 모바일데이터를 활용하기로 결정했다. 최근에 큰 수익성을 올리고 있는 헤지펀드들은 전통적 금융 데이터가 아니라 새로운 데이터를 사용하고 있다.

데이터가 없으면 금융서비스가 불가능한 상황을 극복하기 위한 방법은 대체데이터(alternative data)를 이용하는 것이다. 경쟁 금융회사들보다 더 나은 의사결정을 더 빠르게 내리는 방법은 대체데이터를 이용하는 것이다. 대체데이터를 확보하고 활용하는 능력이 금융회사들의 경쟁력에 직접 큰 영향을 미치는 시대가 되어 있다.

투이톡_대체데이터_1.jpg  
[그림 1] 대체데이터를 제공하는 스타트업들 / 출처: CB Insights

 

대체데이터는 무엇인가?

위키피디아에는 대체데이터란 ‘헤지펀드 등에서 주식거래 시 등락을 예측하기 위해 기존에 고려되지 않았던 소셜 미디어, 소비자 거래내역, GPS 및 위성사진과 같은 비재무적 정보를 활용하는 것’으로 정의하고 있다. 또한 ‘개인의 대출 위험을 평가하기 위하여 통신비, 난방비, 전기비 납부 내역 등의 비금융 정보를 포함하는 것’ 따위를 말하기도 한다.

예를 들어 보자. 금융회사에서 보험상품을 만들거나 대출 위험을 산정할 때, 전통적인 금융거래 정보만을 활용하는 것은 한계가 있다. 금융거래내역이 없는 씬파일러(Thin-Filer, 최근 2년간 신용카드 사용 내역이 없고 3년간 대출 실적이 없는 이들로, 주로 사회 초년생에 해당)는 현행법 하에서 일괄적으로 중간 등급을 부여 받는다. 그러나 실질적인 대출 위험이 동일하지는 않을 것이다. 이들에게 돈을 빌려주면 제때 돈을 갚는 사람과 연체하는 사람이 있을 것이니, 금융회사 입장에서는 이들의 위험을 더 세분화하여 평가하고 싶을 것이다.

대체데이터를 활용하면 이런 문제를 보완할 수 있다. 신용 이력은 없지만 공과금을 꾸준히 제때 납부한 사람이라면 대출금 상환도 성실히 할 가능성이 크다고 볼 수 있을 것이다.

빅데이터와 투자 리서치의 교집합에 위치한 것이 대체데이터라고 볼 수도 있다. 대규모의 비정형 및 비재무 데이터를 수집하고 정제, 분석, 구조화하여 고유의 인사이트를 발견하고 투자수익(알파)을 향상시키는 것이다.

위에 언급한 정보들뿐만 아니라 웹 크롤링 데이터, 웹사이트 방문 이력, 앱 다운 시의 제공 동의 정보, 로그인 내역, 상품 리뷰 등 기존에 금융 산업 분야에서 고려되지 않았던 모든 종류의 비재무데이터는 대체데이터가 될 수 있다. J.P. Morgan은 빅/대체데이터를 개인데이터, 업무 프로세스 상 발생 데이터, 센서 데이터 등 출처에 따라 다음과 같이 분류하였다.
 

투이톡_대체데이터_2.jpg
[그림 2] 수집 출처 별 대체데이터 분류 / 출처: J.P. Morgan

 

대체데이터 활용 성공 사례, 게임 ‘오버워치’ 판매량 예측

구체적인 활용사례를 들어보자. Eagle Alpha는 소셜미디어 데이터를 통하여 ‘오버워치’가 블리자드 사의 판매량 신기록을 기록할 것임을 정확히 예측하였다. 사용된 데이터는 Twitter, Facebook, Youtube, 블로그, 리뷰 사이트, 뉴스 사이트 등을 통해 소비자가 콘텐츠를 보거나 반응하는 방식을 수집한 데이터다.

오버워치는 발매 첫 주 Twitter에서 120만 회 이상 언급되는 등 경쟁타이틀에 비해 자주 언급되었으며, 긍정적인 감정을 나타내는 소비자 언급이 주를 이뤄 시장에서도 강세를 보일 것이라 예측할 수 있었다. 결과는 오버워치의 판매량은 더 일찍 발매되었던 경쟁작들을 압도했다. 오버워치가 발매된 지 3주 만에 1,000만 명의 가입자를 확보한 데 비해 경쟁타이틀인 'The Division'은 3달 여 만에 950만 명을 확보하는 데 그쳤다.
 

투이톡_대체데이터_3.jpg
[그림 3] 게임타이틀별 Twitter 긍정/부정적 언급 비교 데이터 / 출처: Eagle Alpha

 

대체데이터 활용은 급속하게 증가하고 있다

대체데이터를 활용하면 전통적 금융데이터의 한계를 뛰어넘는 인사이트를 얻을 수 있는 동시에 실시간으로 즉각적인 경향을 파악할 수 있다. 10여 년 전에는 헤지펀드와 기관투자자 중심으로 쓰이던 개념이나 점차 개인투자자의 활용도 증가하고 있으며, 현행연구분석, 선행연구 보완 등 다양한 리서치·분석 수행 시에도 유용하다. 보험회사에서는 보험상품 개발 및 지급규정을 만들기 위해 연구하기도 한다.

해외에서는 이미 관련 업체가 속속 등장하고 있다. 대표적인 금융 대체데이터 제공 업체로는 Quandl, Alexa, S&P Global, Dataminr, Eagle&Alpha, Yewno Edge 등이 있다. 대체데이터 공급업체는 지난 10년 사이 약 3배 증가했고, 800여 개의 헤지펀드사에서 이를 활용하고 있다. 연구기관인 Greenwich Associates에 의하면 투자자들은 매년 대체 데이터에 평균 2억 여 달러를 소비하고 있으며, 38%의 투자정보 리서치에 대체데이터가 활용되고 있다. JP Morgan은 대체 데이터 시장이 곧 20억 달러에 이를 것이라고 예측했다.
 

투이톡_대체데이터_4.jpg

[그림 4] 대체데이터 공급업체 수(좌) / 대체데이터 활용 헤지펀드 수 및 고용자 수(우) / 출처: Alternativedata.org
 

투이톡_대체데이터_5.jpg
[그림 5] 투자정보 리서치의 38%가 대체데이터를 활용함 / 출처: Greenwich Associates

 

대체데이터는 어떻게 확보하는가?

기업이나 투자자는 어떻게 대체데이터에 접근할 수 있을까? 우선 앞서 말한 Quandl, Eagle Alpha등의 대체데이터 전문 제공 업체에 문의할 수 있다. 골드만 삭스는 Alexa의 웹스크래핑 데이터를 활용하여 HomeDepot.com 사이트의 높은 방문기록을 식별했고, 해당 기업의 주가가 폭등하기 전에 미리 주식을 매수함으로써 수익을 내는 데 성공했다.

무료가입이 가능한 Quandl을 예시로 대체데이터를 습득하는 과정을 알아보자. Quandl 웹사이트(www.quandl.com)에는 전통적 데이터에 가까운 핵심 금융 데이터 및 대체데이터를 습득하거나 보유한 데이터를 판매할 수 있다. 우선 기업명 및 분야, 활용목적과 같은 정보를 입력하여 무료 계정을 생성한다. Alternative Data 탭을 둘러보면 내 계정조건(유료서비스를 이용여부, 개인/기업/학계 회원 여부 등)에 따라 열람 가능한 데이터셋 목록이 제공된다.

‘감정 데이터(Semtiment)’ 탭의 ‘소비자 감정(Consumer Sentiment)’ 데이터셋을 클릭하면 포함된 데이터들이 표시된다. 미시건 대학교 소비자 연구조사에 따른 주택구매심리 데이터를 열람하면, 데이터의 설명, 갱신 주기, 최종 업데이트일, Quandl에서 제공하는 코드명 등의 기본정보와 함께 차트 또는 테이블 형태로 해당 데이터를 표시한다. API, 파이썬, 엑셀 데이터 등 원하는 형태로 Export도 가능하다.
 

투이톡_대체데이터_6.jpg
[그림 6] 소비자의 주택구매심리 데이터 차트 / 출처: Quandl

데이터 제공 업체를 거치지 않는 방법도 있을까? 애초에 데이터 제공 업체에서 습득하는 데이터는 웹스크래핑 방식을 통해 주로 생성된다. 기업에서 직접 웹스크래핑을 시도할 수도 있다. 국내 시장 및 사이트를 대상으로 조사를 하고 싶다면 해외 데이터 제공 업체를 찾는 것에는 한계가 있을 것이다. 제품 가격, 검색 트렌드, 소셜미디어, 웹트래픽 데이터와 같이 공개된 웹사이트에서 얻을 수 있는 정보를 스파이더, 웹 크롤러 등 소프트웨어를 사용하여 추출할 수 있다. 비교적 낮은 비용에, 분석을 원하는 타겟만 명확히 한다면 정제된 가공데이터를 활용할 때보다 더 정확한 결과를 얻을 수도 있다.

 

대체데이터 활용, 어떤 점을 조심해야 하는가?

다만, 다른 모든 비즈니스 도구와 마찬가지로 대체데이터 또한 주의할 점이 존재한다. 업계에서 널리 활용되지 않는 데이터를 앞서 활용할 경우, 기존의 데이터에 비해 신뢰성과 활용가능성이 충분히 논의 및 검증되지 않았다는 의미이기도 하다.

검증되지 않은 데이터를 발굴하고 수집, 정제하기 위하여 낭비되는 비용은 비즈니스에 치명적일 수 있다. 해외에서는 대체데이터 전문 분석가의 수가 점점 증가하고 있으나, 기존 데이터 분석가와 신규인력을 동시에 고용하면서 오는 인력풀의 변화 또한 리스크가 된다. 사업목적과의 일치 여부, 잠재가치를 고려하여 대체데이터를 활용할 것인지, 얼마나 비용을 들일 것인지, 어떤 데이터를 활용할지 신중히 숙고하는 과정은 필수다.

또한 데이터를 습득하는 행위가 불법적이지 않은지도 주의할 점이다. 웹크롤링을 할 때 합법적인 공개 데이터에 한해 추출해야 하며, 저작권이 있는 정보나 개인정보의 불법적인 수집 및 활용은 문제가 될 수 있다. 파이낸셜 타임즈의 보도에 따르면, 일부 데이터 제공업체는 민감정보를 철저히 제거하지 않은 상태로 제공했다고 한다. 세계적으로 GDPR 규정에 따라 개인정보 처리의 중요성이 대두되는 시점이기에 기업 내부적으로 관련 규정 전문가를 두는 등 세심한 대응이 필요하다.

 

우리나라의 대체데이터는 어떻게 준비해야 하는가?

대체데이터는 잠시 지나가는 유행이 아니다. 투자 시장을 바꾸며 정착되어가는 강력한 도구이다. 해외 기업들은 이미 대체데이터의 전방위적 활용을 통해 경쟁우위를 차지하려는 노력을 기울이고 있다. 고객은 계속해서 더 깊고 빠른 인사이트를 지닌 기업으로 이동할 것이고, 이에 발맞춘 전문인력은 자신들을 먼저 알아보는 곳에 둥지를 틀 것이다.

국내도 씬 파일러를 위한 빅데이터 신용평가 등 점차 대체데이터를 활용하는 비즈니스가 증가하고 있고, 정부에서도 혁신을 통해 금융소외자를 지원할 수 있는 포용적 금융 정책을 펴기로 했다. 기업과 학계도 글로벌 데이터 경제 편입을 위하여 발 빠르게 움직여야 한다.

다만, 새로운 데이터가 주목받는다고 해서 전통적인 데이터가 가치를 잃는 것은 아니다. 경제통계 자료들과 기업 재무상태를 철저히 분석하는 것은 대체데이터 활용의 탄탄한 기반이 된다. 변화는 필요하지만, 변화의 정도와 타이밍에 대한 결정도 신중해야 할 것이다.

대체데이터가 활성화되기 위해서는 대체데이터의 생성과 유통 그리고 활용이 활성화되어야 한다.  대체데이터 생태계의 규칙을 셋업하는 것이 시작이다. 또한 대체데이터 기업들의 등장을 촉진할 수 있는 연구 및 투자 기반도 필요하다. 대체데이터 제도화가 필요한 시점으로 생각된다.

- 끝 -

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.