4차 산업혁명, 데이터 품질 확보 없이는 진전 어렵다 - 축적된 데이터의 품질

알파고와 이세돌 9단의 바둑은 일반인의 희망과는 다르게 AI가 4승 1패로 승리하면서 인간의 능력에 대한 자만에 금이 가기 시작했다. 앞으로 다가올 미래에 대해 불안감을 나타내는 사람들도 많아졌다.

이처럼 4차 산업혁명을 통해 모든 인간의 활동을 기계가 대신하는 시대가 도래하지 않을까 두려운 시선으로 바라보고 있다. 하지만 알파고의 천재적인 기력은 스스로 창출해낸 것이 아니다. 알파고는 16만여 개에 이르는 기보를 기반으로 학습이 이루어졌다. 만일 하수들의 기보만이 존재 했다면 알파고는 그렇게 놀라운 실력을 발휘하지 못했을 것이다. 참조하는 기보의 수준을 벗어나지 못하기 때문이다. 알파고가 뛰어난 성능을 발휘한 배경에는 고수들에 의해 연구되고 개발된 무수히 많은 기보에 대한 데이터가 존재했기 때문이다.

데이터 품질 점검 관점 : 시간, 표준, 균형

4차 산업혁명이 제대로 작동하기 위해서는 품질이 보장된 대규모의 다양한 데이터가 필요하다. 이러한 데이터가 준비되어 있지 않다면 4차 산업혁명은 잘못된 방향으로 전개될 것이다.

관련된 데이터를 무조건 축적하는 것으로는 충분하지 않다. 이를 믿고 활용해도 좋을 만큼의 품질이 확보되어야 한다. 축적된 데이터의 품질에 영향을 미치는 요소는 다양하지만 특히 시간, 표준, 균형 등 3가지 관점에서의 점검이 우선적으로 이루어져야 한다.

1. 시간

첨단장비의 자동화에 필요한 데이터는 다양한 원천으로부터 복잡한 방법을 통해 수집되는 경우가 많다. 그러다 보니 데이터 품질에 대한 오류 가능성도 높다.

특히 축적된 데이터에는 시간이 경과하면 더 이상 유효하지 않은 데이터가 존재한다. 데이터는 생성 당시에 정확하다고 해도 지금은 잘못된 데이터인 경우가 있다. 예전에는 그 위치에 장비가 있었지만 지금은 없어지는 경우도 있고, 그 때 사용했던 코드가 지금 사용하는 코드와 다른 경우도 있다. 데이터는 시간이 경과하면 부패할 수 있다는 사실을 인지하고 있어야 한다.

그러므로 축적된 데이터를 지속적으로 점검하는 노력이 필요하며 데이터의 발생시점뿐만 아니라 유효기간이 파악되어야 한다. 특히 전화번호나 지도와 같이 빈번하게 변경되는 경우에는 특별한 주의가 필요하다. 과거의 낡은 데이터 때문에 곤란한 경우가 발생하지 않으려면 원천 데이터가 변경되는 순간에 실시간으로 이를 인지하고 반영하는 체계를 갖추어야 한다.

하지만 대개 초기 데이터 확보에는 신경을 쓰지만, 이후 데이터 변경에 대하여 정밀하게 관리하려는 노력은 부족하다.

첨단을 달리는 전투기에도 잘못된 지도가 들어가 있으면 정확한 출동이나 타격이 불가능하다. 실제로 군이 보유하고 있는 지도에는 휴전선 이북에 표시된 국군부대가 있거나, 이미 폐기된 장비가 현장에 배치된 것으로 표시되어 있는 경우가 발견되고 있다. 이는 변경된 내용을 적시에 반영하지 못해서 발생하는 문제이다.

2. 표준

보다 근본적인 원인은 데이터가 한 곳에만 있지 않고 여러 곳에서 중복적으로 관리되고 있고 이를 또 다른 목적에서 다양한 부분에서 복제하여 활용하고 있다는 데에 있다. 이러한 경우 원천 데이터가 변경되면 관련된 데이터를 모두 찾아서 고쳐 주어야 하는데, 어디에 어떤 형태로 존재하는지를 파악하고 있지 않다면 완벽한 갱신이 불가능하다.

그러므로 중요한 데이터의 경우 데이터 발생뿐 아니라 이후 흐름에 대한 철저한 관리가 필요하다.

분석이나 통계에 활용하는 데이터는 여러 곳에서 수집된 것이므로 이들 간의 불일치로 발생하는 오류도 고려해야 한다. 이를테면 한 곳의 데이터는 달러화로 되어 있는데 다른 곳에서 수집된 데이터는 원화로 되어 있는데 이를 고려하지 않고 이 둘을 조합하여 분석하면 완전히 엉뚱한 결과를 내놓게 된다.

목적지에 대한 정보를 한 곳에서는 주소로 가지고 있고 다른 곳에서는 GPS코드로 가지고 있다면 이 둘 간의 연결은 어렵다. 그러므로 축적된 데이터를 연결하여 활용하기 전에 정제 과정이 필요하다. 데이터의 의미, 단위, 형태 등이 통일되어야만 정확한 결과를 만들어낼 수 있기 때문이다. 물론 원천 데이터가 표준화된 형태로 존재한다면 구태여 별도의 정제 작업이 필요 없다.

하지만 모든 데이터가 표준화되어 있지도 않고 표준화를 지켜야 함에도 이를 무시하는 경우가 비일비재하다. 그러므로 데이터 분석에 앞서 활용에 적합한 상태인지를 확인하는 과정이 필요하다.

축적된 데이터가 한편으로 편향되어 있거나 중요한 데이터가 빠져 있는 경우 잘못된 판단이 이루어진다. 핵심적인 정보보다는 불필요한 데이터가 많은 경우 편향된 결과가 도출된다. 독보적인 실적을 보인 삼성전자에 의해 전체적인 산업이 호황인 것처럼 인식되거나, 물가지수에서 서민 생활에 직접적인 영향을 주는 물품이 빠져 있어 물가지수는 낮은데 실생활에서 느끼는 물가는 높은 현상은 이러한 데이터의 편향성 때문에 발생한다.

3. 균형

판단의 기준이 되는 축적된 데이터에서 균형이 유지되지 않는다면 이를 기반으로 작동하는 자동화기기는 잘못된 방향으로 움직이게 된다. 최근 구글을 선두로 하여 AI를 통한 이미지 인식이 활발하게 이루어지고 있다. 신기술 접목에 의기양양했던 구글은 흑인을 고릴라로 잘못 인식하였다가 곤혹을 치렀다. 구글은 이러한 오류를 신속하게 수정했지만 이미지 인식의 정확성을 높이는 방법이 아니라 고릴라를 인식에서 제외시키는 편향된 접근을 시도하였다.

MIT에서는 AI에게 죽음, 살인 등 부정적인 이미지에 집중적으로 노출 시킨 결과 ‘가지에 앉은 새’로 인색해야 하는 이미지를 ‘감전되어 죽은 시신’으로 판단하는 결과를 얻었다. MIT는 AI가 사이코패스가 될 수 있다는 것을 증명하기 위해 이러한 연구를 진행하였으며 AI가 잘못된 알고리즘을 가지고 있는 것이 아니라 데이터가 편향된 결과로 사이코패스 AI가 탄생하게 되었다고 설명하고 있다.

마이크로소프트가 개발한 AI 채팅봇 테이(Tay)는 이용자들이 사용하는 나쁜 말에 지나치게 많이 노출되어 결국 반사회적인 성향을 지니게 되자 서비스를 중단하였다. 아무리 훌륭한 알고리즘을 갖추고 있다고 해도 입력되는 데이터가 편향된다면 올바른 결과를 기대할 수 없다.

축적된 데이터가 모두 정확하면 좋겠지만 실제로는 오류들이 섞여 있다. 이를 발견하고 다시는 그런 데이터가 흘러 들어오지 못하도록 차단하는 활동이 필요하다. 이를 위해서는 잘못된 데이터의 원천을 추적할 수 있고, 데이터 오류의 원인을 분석하고 이를 제거할 수 있는 체계를 갖추어야 한다.

데이터의 신뢰성 확보를 위해서는 원천이 정확하게 파악되어야 하며, 데이터의 발생과 조작이 투명하게 드러나야 한다. 신뢰성을 보장할 수 없는 데이터가 계속 유입되고 유통된다면 향후 예상치 못한 결과를 초래하는 지뢰와도 같은 역할을 수행하게 된다.

축적된 데이터에 대한 품질 관리는 두 가지 관점에서 진행되어야 한다.

먼저 원천 데이터의 발생 시점에 정확하고 표준화된 데이터가 입력될 수 있도록 사전 대비가 필요하며, 다른 한편으로 축적된 데이터의 품질을 다양한 관점에서 주기적으로 점검하는 사후적인 접근이 필요하다.

꺼진 불도 다시 보자는 불조심 구호가 있었다. 데이터 품질은 사전의 노력도 중요하지만 이에 안심하지 말고 비판적인 시각에서 사후 점검을 지속적으로 수행해야 한다.

- 끝 -

이진우 부사장 다른 콘텐츠 보기