4차 산업혁명, 데이터 품질 확보 없이는 진전 어렵다 - 4차 산업의 쌀, 데이터

산업계뿐만 아니라 정치권에서도 4차 산업혁명에 관심이 집중되고 있다. 드론, 자율주행 자동차, AI 등에 대한 화제가 세간에 넘쳐나면서 4차 산업혁명에 대한 기대와 우려가 교차하고 있다. 뛰어난 성능을 발휘하는 첨단 장비들의 출현은 생산성을 획기적으로 향상시키고, 비용을 절감하고 현장에서의 인명 피해를 감소시키는 등의 효과를 발휘하고 있다.

반면 사람을 뛰어넘는 능력으로 인해 인간의 역할이 줄어들어 일자리가 위협을 받는다는 우려의 목소리도 나오고 있다. 인간이 완전히 배제된 상태에서 안정적인 작업이 가능할 지에 대해서도 의문이 제기되고 있다.

정교화된 알고리즘과 다양한 상황에 대한 충분한 데이터 확보 필요

자율주행 자동차는 이러한 논란의 중심에 서 있다. 기술의 비약적 발전으로 인해 신속하게 인간을 대체할 듯 보였지만, 사고가 빈번해지면서 전면적인 도입은 다소 늦어질 것으로 전망된다. 충분히 예상되는 상황에서는 정상적으로 작동하지만 돌발적인 상황에서는 인간과 같은 순발력을 발휘하기에는 아직 부족하기 때문이다.

자율주행 자동차의 전면 도입을 위해 해결해야 할 과제는 이뿐만이 아니다. 무엇보다도 먼저 자율주행을 위해서는 정확한 지도가 필수적이다. 그런데 도심지역이나 고속도로 등은 최신 데이터를 확보하고 있는 반면 시골길의 경우에는 그렇지 않다. 시골길은 주행선이 잘 보이지 않아 지도 정보에 대한 의존도가 높고 도로에 따라 상황 감지가 더 정밀하게 작동하여야 한다.

하지만 시골길은 주 도로와 보조도로의 구별도 불확실하고 새로 생긴 길에 대한 정보가 신속하게 갱신되지 않는다. 더구나 비포장, 공사, 유실된 도로 등에 대한 정보가 제때에 습득되지 않으면 사고의 위험성이 높다. 안개, 폭우, 폭설 등 기상 상황이 좋지 않다면 상황 감지에도 한계가 있다.

4차 산업혁명은 인간의 능력을 능가하는 기능의 구현에 초점을 맞추고 있다. 공장자동화, 자율주행 운전 등 인간의 노동력을 대신해줄 뿐만 아니라 AI를 통해 전문적인 의사결정에도 관여하고 있다. 또한 IoT 단말을 통해 상황을 파악하여 신속하게 대응할 수 있는 초연결성을 구현함으로써 우리의 삶에 깊이 관여하려고 한다.

그런데 이러한 최첨단 기술이 단순하고 반복적인 작업뿐 아니라 예외적 혹은 복잡한 상황에도 효과적으로 대응하기 위해서는 두 가지 핵심적인 기능이 필요하다. 시행착오를 통해 정교화된 알고리즘과 다양한 상황에 대한 충분한 데이터 확보가 그것이다.

알고리즘은 계속적인 학습으로 향상시킬 수 있지만 데이터의 경우 단순한 축적을 넘어 품질 관리가 병행되어야 한다. 많은 데이터를 확보했어도 정확성이 떨어지면 올바른 해답을 찾을 수 없기 때문이다.

4차 산업혁명의 핵심인 자동화에는 대량의 데이터가 필요하다. 빅데이터라고 일컬어지는 이러한 다양한 형태의 데이터가 적절하게 공급 되어야만 원활한 작업이 이루어질 수 있다. 역설적으로 잘못된 데이터가 들어갈 경우 더 빠르게 더 나쁜 결과를 만들어내는 현상이 발생한다. 데이터의 품질이 확보되지 않으면 최첨단 장비라고 해도 제대로 작동이 이루어지지 않는다.

코소보 내전에 관여한 미국은 최첨단 전투기로 유고연방의 주요 군사시설에 정밀 폭격을 가하였다. 그런데 어찌된 영문인지 전투기 지도에는 중국 대사관이 군사시설로 표시되어 있었다. 외국의 대사관을 군사시설로 잘못 인지한 정밀 타격으로 인해 중국인 직원 2명이 사망하는 등 심각한 피해가 발생하면서 중국과 미국 간에 국제적인 분쟁을 불려 일으켰다. 미국을 성토하는 중국인들의 시위는 천안문 사태 이후 최대 규모를 보여줬다. 잘못된 데이터를 바탕으로 작동하는 최첨단 장비는 돌이킬 수 없는 대형사고를 유발한다. 데이터의 정확성이 확보되지 않으면 4차 산업혁명은 찻잔 속의 태풍에 불과하다.

4차 산업혁명, 데이터 품질의 늪에 빠져 ‘표류’ 할 수도

4차 산업혁명에 활용되는 데이터는 종류도 다양하고 규모도 방대하다. 그런데 그 중 어딘가에 잘못된 데이터가 섞여 있다면 언젠가는 사고가 발생한다. 일상적으로 반복되는 작업에 사용되는 데이터는 충분한 점검 과정을 거쳤기 때문에 어느 정도의 품질을 확보하고 있다.

하지만 4차 산업혁명이 고도화되어 데이터 활용의 영역이 확대되면서 품질의 문제가 드러나고 있다. 독립적이던 데이터를 상호 연계시키면서 새로운 방향을 모색하는, 기존과는 다른 창의적인 방법으로의 활용이 이루어질 경우 그동안의 데이터는 부족하거나 잘못된 모습으로 관리되고 있다는 사실이 발견되기 때문이다.

4차 산업혁명이 새로운 오류를 발생시킨 것이 아니고 이미 내재하고 있는 잘못된 데이터가 그 활용 영역을 확대하면서 비로소 그 문제를 드러내게 되는 것이다. 더 심각한 문제는 잘못된 데이터가 어디에 어떤 형태로 존재하고 있는지를 알 수 없다는 점에 있다.

오류가 산재되어 있는 데이터를 기반으로 4차 산업혁명을 추진하는 것은 위험한 일이다. 이는 마치 지뢰밭을 걷는 것과 같다. 도처에 지뢰가 감추어진 지역에서는 어떠한 작전도 수행할 수 없다. 모든 일에 앞서 지뢰 제거부터 이루어지지 않는다면 상당한 불편과 위험을 감수해야 한다.

4차 산업혁명에서도 데이터 품질이 확보되지 않는다면 더 이상의 진전을 기대하기 어렵다. 4차 산업혁명에서 데이터가 차지하는 비중을 고려해볼 때 데이터에 대한 품질 확보는 시급한 과제이다. 데이터는 여러 곳에서 다양한 형태로 수집되며 수시로 변경과 이동이 발생한다.

이러한 복잡성을 고려하면 데이터 품질 관리는 다각적이고 총체적인 접근이 필요하다. 데이터 품질은 필요할 때 한꺼번에 확보할 수 있는 단순한 문제가 아니기 때문에 체계적이고 단계적인 접근을 통한 지속적인 노력이 필요하다.

4차 산업혁명에서 대규모 데이터 확보와 활용은 필수적인 요인이다. 그런데 이러한 데이터에는 항상 오류의 가능성이 내재되어 있다는 인식이 필요하다. 데이터의 확보와 활용의 모든 과정에서 품질을 확보하려는 노력이 수반되지 않는다면 4차 산업혁명은 데이터 품질의 늪에 빠져 표류하게 될 것이다.

- 끝 -

이진우 부사장 다른 콘텐츠 보기