연구데이터 가치를 활용하기 위한 개방, 공유 정책이 필요하다
상태바
연구데이터 가치를 활용하기 위한 개방, 공유 정책이 필요하다
  • 양정식 상무
  • 승인 2020.05.27 10:30
  • 조회수 3101
  • 댓글 0
이 콘텐츠를 공유합니다

우리나라 R&D 예산은 세계적인 수준이지만 연구데이터 개방은 매우 저조하다

기획재정부는 금년 5월 ‘21년도 R&D 예산 지출 한도를 최소 25조원으로 설정한다고 발표했다. 국정 현안으로 떠오른 포스트 코로나 대응을 위해 R&D를 강화하는 것으로 보여진다. 

우리나라의 전체 R&D 예산 규모는 세계 5위 수준이고 GDP 대비 투자비율은 세계 1위이다. 해마다 많은 비용을 투입하면서 생산되는 관련 성과물인 연구개발 보고서 및 산출물들은 방대한 규모로 추정된다. 이러한 가치 있는 연구데이터들은 잘 관리가 되고 공유가 되는 것일까? 연구데이터는 연구에서 사용된 자료와 이를 분석한 자료들로 이후 사업화될 수 있는 잠재 가치를 가지고 있다. 정부의 예산이 투입되어 생산되는 연구개발 데이터가 잘 분류되어 연구자나 민간에 공유가 된다면 그 성과는 대단할 것이라고 생각된다.

연구데이터는 국가 연구개발사업의 각종 실험, 관찰, 조사, 분석 등을 통하여 산출된 자료로 연구성과의 재현에 필수적이고 객관적인 사실 데이터를 말한다(국가연구개발사업의 관리 등에 관한 규정 제2조, 이하 공동관리규정). 과학적 연구에서 사용된 1차 자료와 이를 분석 처리한 2차 자료로 연구자에 의해 직접 작성된 연구의 결과로서 수치, 문자, 이미지, 음성 등의 사실적 기록이며, 연구의 진실성, 독자성을 증명할 수 있는 결정적 근거로 다른 연구자가 동일한 조건으로 반복할 경우 재현 가능해야 한다(연세대학교 의학과학도서관, 김나원, 2018).

호주 CSIRO(Commonwealth Scientific and Industrial Research Organisation)는 2017 연구데이터 가치보고서에서 연구데이터의 가치를 직접사용, 간접사용, 미래사용, 유산가치, 존재가치 등의 관점에서 분석하였는데 4년간 연구데이터 포털(DAP, Data Access Portal) 이용에 따른 비용이 약 1400백만 달러이고 이를 활용에 따른 가치는 6700백만 달러로 약 5배의 유발가치가 있다고 분석하였다. 

[그림 1] 영역별 개방데이터 비율, 공공데이터포털(data.go.kr)
[그림 1] 영역별 개방데이터 비율, 공공데이터포털(data.go.kr)

우리나라의 연구데이터 개방 현황을 살펴보면, 정부가 운영 중인 데이터포털(data.go.kr)을 분석해 봤을 때 전체 개방된 데이터의 4.7%가 과학기술 데이터에 속한다. 문화관광(13.1%), 교통물류(12.5%), 사회복지(11.0%), 환경기상(7.0%) 관련 데이터들이 가장 인기가 많은 데이터들이다. 

공공데이터 개방 주무부처인 행정안전부 발표에 따르면 공공데이터법(공공데이터에 관한 제공 및 이용활성화에 관한 법률, ‘13.10.30 시행) 시행 6년 만인 2019년 12월 기준으로 개방 물량은 6개 이상 증가 했고, 민간이용률이 초기 대비 약 792배, 개방된 데이터를 통한 민간서비스 개발 건수도 58배 증가했다. 그럼에도 불구하고 연구데이터의 개방 비율은 매우 미미하다. 하위레벨까지 내려가면 전체 과학기술 분야 4.7%를 100%로 봤을 때 일반보고서 1.13%, 연구보고서 0.32%, 연구성과 0.43%, 산업재산권 0.32% 등 매우 저조한 개방 비율을 보이고 있다.

연구데이터의 개방이 저조한 이유는 데이터가 초기부터 제대로 관리가 되고 있지 않게 때문이다. 국가과학기술연구회는 2018년 소속 정부출연연구소(출연연)를 대상으로 설문을 실시하였다. 생산되는 연구데이터의 유형은 정형 51%, 비정형 29%, 반정형 20% 순으로 생산되었고 세부적으로 보면 숫자 데이터, 텍스트, 동영상, 이미지, 소리, 바이너리, 3D, 그래프 등 매우 다양했다. 연구데이터의 11%는 개인정보가 포함되어 있다고 했다. 

연구데이터의 관리는 시스템, 기관, 부서 등 어느 정도 체계를 갖춘 상태보다는 연구자 개인이 관리하는 비율이 59%로 매우 높고 시스템이 아닌 단순 저장·관리하는 비율이 75%나 되었다. 즉, 많은 연구데이터들이 연구자의 서랍에서 관리되고 있는 현실이다. 

[그림 2] 연구데이터 관리현황(국가과학기술연구회, 2018)
[그림 2] 연구데이터 관리현황(국가과학기술연구회, 2018)

이러한 사실을 종합해 볼 때 R&D 기관은 연구데이터 관리에 대한 정책이 매우 미흡하다고 볼 수 있고 결과적으로 데이터 개방이 저조할 수밖에 없는 것이다. 

 

데이터관리계획(DMP)과 통합된 공유 활성화 정책이 필요하다

연구데이터의 개방을 활성화하기 위해서는 두 가지 접근이 필요하다고 볼 수 있다. 

먼저 연구데이터의 데이터 관리가 강화되어야 한다. 그 범위는 연구의 계획에서 종료되는 시점 사이에 생성되는 중간 생성물과 최종 결과물, 연구 종료 후 관리 문제까지 포함하여야 한다. 수집, 기록, 보관이 체계적으로 이루어져야 한다. 다른 연구자가 재현할 수 있도록 전 과정에 걸쳐 상세하고 명확히 기술하여야 하고 연구 종료 후 안전하게 저장, 보관되어 한다. 이를 위해 데이터관리계획서(DMP, Data Management Plan)의 도입이 시급히 요구된다. 

국가기술위원회 보고서에 따르면 DMP가 도입된 기관은 전체 해당기관의 40%에 불과하다. 이런 이유로 체계적으로 데이터가 수집, 기록, 보관이 안되기 때문에 데이터 개방까지의 길이 험난한 것이다. DMP란 국가 R&D 과제를 수행하는 연구자가 수행시 생산되는 연구데이터의 개요관리공유 계획서를 작성허고 제출하는 것을 말한다. 

미국, 영국 등 선진국들은 2011년부터 의무적으로 제출하도록 법제화가 되었다. 우리나라의 경우 과학기술정보통신부가 국가차원에서 연구데이터의 공유 및 활용 근거를 마련하기 위해 공동관리규정을 제정하고 현재 일부 과제에 대해서 시범 적용을 거친 후 시행 중에 있다(연구개발계획서 작성 시 DMP 제출 요구(6조 4항 개정), 연구개발과제의 선정 시 검토 요구(7조 3항 개정), 과제 협약 체결 시 DMP 제출 요구 및 준수(9조 1항 개정)). 앞으로 수행하는 과제에 대해서는 법적인 근거가 있으나 실제 준수는 별개의 상황으로 전개 될 수 있으므로 준수율을 평가하여 정책에 반영하는 제도가 마련되어야 할 것으로 본다. 

성공적인 DMP 도입을 위해서는 제반 준비와 기관의 환경을 반영할 필요가 있다. 연구기관 차원의 연구데이터 관리·공유 인프라 구축을 위한 충분한 준비기간이 필요하며, DMP 제출 이후의 연구데이터 수집·관리는 단계적으로 적용대상을 확대하는 것이 효과적이다. 더 문제가 되는 것은 이미 종료되어 제출된 연구과제 데이터라고 볼 수 있다. 정부의 데이터 개방사업을 통해 가치 있는 연구데이터를 발굴하고 동시에 구축이 가능한 DMP를 작성할 수 있도록 사업 요건에 대한 보완이 필요하다고 생각한다. 이를 위해 정부의 정책적 뒷받침이 필요하다.

두 번째, 연구데이터는 각자 관리하는 것도 중요하지만 통일된 정책에 따라 국가 차원에서 통합하여 공유·활성화하는 것이 중요하다. 이를 위해서는 법제도의 정비와 인프라의 구축이 필요하다고 볼 수 있다. 

미국은 국가 정책을 기반으로 자율적인 데이터 공유 활동을 수행하고 있다. Freedom of Information Act(FOIA, 정보자유법), America COMPETES Reauthorization Act(ACRA, 미국 경쟁력 강화법) 등으로 연방 지원 연구 프로그램 성과물의 자유로운 접근과 이용을 위한 법적 근거를 마련하고 연간 1억 달러 이상 연구비를 운용하는 연방 기관은 연구 논문과 데이터에 대한 공공 액세스 계획(Public Access Plan)을 제출하도록 의무화하고 있다. 아울러 주요 연방기관과 대학에서 연구데이터 관리와 공유를 위한 분야별 데이터센터와 리포지토리를 운영하고 있다. 영국, 호주도 유사한 법제와 인프라를 마련하여 공유·활성화에 앞장서고 있다. 

[그림 3] 미국의 연구데이터 관리체계(KIST. 2019)
[그림 3] 미국의 연구데이터 관리체계(KIST. 2019)

반면 우리나라는 연구데이터를 국가 과제의 결과물로 인정하고 국가 차원에서 R&D 공유·활용하기 위한 법적 기반은 부재한 상황이다. 국가가 지정한 특정 데이터센터를 중심으로 연구데이터 수집 및 관리하고 있으나, 데이터의 활용에는 한계가 있으며, 개별 연구기관이 연구데이터 공유·활용정책의 원활한 실행을 지원할 수 있는 역량이 아직 부족하다. 선진사례를 면밀히 조사·분석하여 우리 실정에 맞는 공유·활성화 플랜이 필요하다. 

컴퓨팅 자원 중심 연구에서 데이터 중심 연구로의 연구 패러다임 전환과 오픈 사이언스(Open Science)의 대두로 과학기술 연구개발이 새로운 국면을 맞이하고 있다. OECD도 공적 연구비의 지원을 받은 과제로부터 생산된 연구데이터는 공공재로서 누구나 접근할 수 있도록 공유해야 한다는 기조를 강조하고 있다. 우리나라도 연구데이터 공유를 위한 제도 및 정책 마련 그리고 구체적인 실행 계획 수립이 필요하다고 본다. (끝)
 

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.