게놈 데이터, 우리나라 현황과 미래

투이컨설팅 서지은 수석

4세대 연구의 대표주자, 유전체

유전체란 한 사람의 모든 유전정보가 담긴 유전물질(DNA)을 의미한다. DNA는 아데닌(A), 티민(T), 구아닌(G), 시토신(C)의 4종류 염기로 구성되어 있으며, 인간의 경우 약 30억쌍의 염기로 구성되어 있다. 한 사람의 유전체 연구를 위해서 30억쌍의 염기서열 데이터 분석이 필요하므로 유전체는 데이터 기반 4세대 연구의 대표 분야라 할 수 있다.

2003년까지 인간 DNA를 해독(염기들의 서열을 밝히는)하는 대표적인 기법은 영국의 생화학자 프레데릭 생어(Frederick Sanger, 1918~2013)가 1980년 개발한 생어 시퀀싱(Sanger sequencing) 기법이다. 생어 시퀀싱 기법은 DNA 염기서열을 결정하는 가장 오래된 방식으로 지난 30년간 DNA 조각의 서열 해독을 위해 널리 사용되었으나 높은 비용에 많은 시간이 걸리는 단점을 가지고 있었다.

유전체 연구분야의 전환점이 된 연구는 인간게놈프로젝트(Human Genome Project, HGP*)로 생어 시퀀싱 기법을 이용해 수행되었다. HGP는 한 사람의 유전체 해독을 위해 1990년부터 2003년까지 13년 동안 총 30억불 이상의 자금이 투입된 연구로 미국, 영국, 일본, 프랑스, 독일, 중국 등 6개국 24개 기관이 참여하였다. HGP는 성공적으로 수행되었지만 생어 시퀀싱 기법을 이용해 천문학적인 비용과 긴 시간이 소요되었다.

* HGP의 완성은 유전체 연구분야의 전환점이 된 사건으로 HGP 이후를 Post-Genome 시대로 구분

차세대염기서열분석(NGS) 기술의 발전과 데이터 증가

2000년대 중반 이후 등장한 차세대염기서열분석(Next Generation Sequencing, NGS) 기술은 방대한 양의 유전체 데이터의 빠른 해독을 가능하게 했으며 이를 통해 생명공학 패러다임을 변화시켰다. 가장 큰 변화는 NGS 기술의 발달로 개인 유전체 정보를 해독하는 시간과 비용이 크게 단축*되었다는 점이다.

* 1명의 유전체 해독에 걸리는 비용과 시간은 2003년 $30억, 13년에서 2010년 $5,000, 1주, 2020년 $100, 1시간으로 변화 중임(한선화 외 (2011). 분야별 과학데이터 구축 및 활용현황에 관한 연구. KISTI. ISBN: 978-89-6211-726-4-93500)

그림_DNA 시퀀싱 비용 및 인간 게놈 해독에 필요한 비용의 변화 추이.png

▲ DNA 시퀀싱 비용 및 인간 게놈 해독에 필요한 비용의 변화 추이(Source: https://www.genome.gov/sequencingcostsdata)

유전정보의 해독 비용이 1인당 $100로 저렴해지고 해독 소요시간이 1시간 정도로 단축되면서 개인의 유전체 정보는 빠른 속도로 축적되고 있다. 특히 데이터 저장 및 처리 용량의 증가 속도에 비해 데이터 생산 속도가 빨라지게 되면서 기존의 정보처리 방식으로는 그 양*을 감당할 수 없게 되었다. 따라서 대용량 연구데이터 저장·분석·처리를 위한 클라우드 서비스**가 제공되고 있는 추세이다.

* 미국의 Broad Institute나 중국의 Beijing Genomics Institute(BGI)와 같은 대규모 유전체 연구소에서 하루에 생성되는 데이터양은 수백 테라바이트 급에 달함. 유전체 정보량은 2003년 10GB에서 2010년에는 105GB로 증가하였으며 2020년에는 109GB로 증가 할 것으로 예상됨(한선화 외 (2011), KISTI)

* * 대표적인 글로벌 클라우드 서비스는 DNANexus, Globus Genomics, Tute Genomics, Seven Bridges, NextCode, Google genomics 등이 있으며, 국내에서는 KT의 GenomeCloud(www.genome-cloud.com)가 서버, 스토리지, 분석 소프트웨어, 최신의 Reference Genome DB 등을 서비스 중임

국내외 유전체 연구데이터 생산ㆍ공유 동향

세계 각국은 다양한 국제 공동 유전체 프로젝트를 진행하며 관련 데이터를 확보하고 활용하기 위해 끊임없이 경쟁 중이며 전체 유전체 관련 데이터의 80% 이상을 미국, 영국, 중국이 생성하고 있다. 특히 세계 NGS 장비의 약 74%(5492대)를 미국이 보유하고 있어 압도적인 유전체 데이터 생산이 이루어지고 있다.

우리나라의 경우 보유하고 있는 NGS 장비가 173개(전체의 2.3%)로 그 수가 많지 않다. 국가 연구사업을 통해 생산되는 유전체 데이터는 부처별 사업을 통해 산발적으로 생산되어 체계적인 생산ㆍ수집ㆍ분석ㆍ재활용 측면에서 비효율적인 부분이 많았다. 최근 우리 정부는 미래 유망분야 중 하나로 유전체 기술을 인식하고, 관련 기술을 글로벌 수준으로 끌어올리기 ‘포스트게놈 다부처 유전체 사업(2014~2021년)’을 시행 중이나 아직 사업이 진행되고 있어 결과가 가시화되지 않은 상황이다.

현재 우리나라 유전체 데이터의 대부분은 ‘마크로젠’이나 ‘DNA 링크’, ‘테라젠이텍스’ 등 벤처기업에서 생산되고 있다. 그러나 이러한 업체에서 생산한 데이터는 의뢰한 케이스의 결과데이터만을 제공하고 있고 그 생산과정이나 노하우에 대한 공개를 하지 않고 있어, 연구자 입장에서는 활용성이 떨어지는 데이터가 주로 생산되고 있다.

결과적으로 우리나라에서 생산되는 유전체 데이터 양 자체가 많지 않고, 공유 및 활용성이 떨어지는 데이터가 생산되는 경향이 높다. 따라서 우리나라에서 유전체를 연구하는 연구자들은 주로 해외의 유전체 데이터 공유 플랫폼을 이용하고 있다. 미국 NCBI의 GenBankㆍGEO, 유럽 EMBL-EBI의 Ensembl, 일본 DNA DataBank 등이 대표적이 유전체 데이터 공유ㆍ활용 플랫폼이다.

우리나라에도 질병관리본부의 한국인체자원은행네트워크, 국가생명연구자원정보센터(KOBIC)의 연구성과물 등록시스템이 있으나 해외에 비해 전체 데이터량이 적고 기탁ㆍ활용 절차가 복잡하여 활용도가 높지 않다.

그럼에도 불구하고 우리만의 유전체 데이터가 필요한 이유

현재 세계적으로 생산 되고있는 대부분의 유전체 데이터가 백인(코카시안) 중심이며 아시아인의 데이터는 많지 않다. 일부 아시아인 대상의 유전체 연구 결과, 아시아인과 서구인은 서로 다른 유전체 모습을 보였다. 따라서 한국인에게 적합한 신약개발이나 치료법 개발을 위해서는 한국인의 유전체 데이터가 반드시 필요한 것이다.

아시아인의 유전체 데이터는 폐쇄적으로 관리되어 활용도가 낮고 관련 연구가 활발히 진행되고 있지 않으며, 우리나라의 경우 국립보건원이 가지고 있는 한국인 고유 유전체 데이터조차 연구자들끼리 공유가 어려운 상황이다.

결국 유전체 분야에서 공유되는 한국인의 데이터가 매우 제한적이기 때문에 한국인의 건강증진을 위한 연구에서도 우선적으로 백인을 대상으로 연구를 수행한 후에 추가비용을 들여 한국인에게 적용되는지 연구를 진행하고 있는 실정이다.

우리나라 유전체 데이터 생산ㆍ공유 활성화 방안

한국인의 유전체 데이터 생산ㆍ공유가 활성화 되기 위해 몇 가지 방안이 필요하다.

첫째, 데이터 생산 결과만 공유되는 것이 아니라 노하우, 품질의 문제점 등이 함께 공유되어야 한다. 우리나라 정부과제를 통해 생산되는 유전체 데이터의 가장 큰 문제점은 마크로젠, DNA링크 등의 민간기업에 데이터 생산을 맡기고 그 결과로 데이터만 제공받는다는 점이다. 따라서 이렇게 생산된 민간기업의 데이터는 생산과정 및 품질을 알 수 없다. 또한 데이터 검수도 질이 아닌 양으로 검수하는 문제도 가지고 있다. 따라서 데이터 생산과정 및 노하우가 담긴 정보가 데이터와 함께 제공되어야 한다.

둘째, 데이터를 간편하게 공유할 수 있는 플랫폼이 필요하다. 물론 현재도 일부 데이터 공유플랫폼이 운영되고 있기는 하나, 이용 과정과 절차가 복잡하게 되어있다. 데이터 보유량은 어쩔 수 없다 하여도 해외 사이트 수준의 이용 편의성은 갖추어야 연구자들이 활용할 가능성이 높아진다. 간단한 연구자 정보만으로도 데이터에 접근 가능하고 훨씬 많은 데이터를 제공해주는 해외 데이터센터와 같은 서비스가 필요하다.

셋째, 개인정보보호 규제(개인정보보호법, 생명윤리법 등)의 완화가 필요하다. 유전체 데이터에는 개인정보가 포함되어 있어 환자에게 일부 연구자들이 연구목적으로 활용하겠다는 전제로 동의를 얻어 활용하고 있다. 따라서 연구데이터가 국가 R&D 과제의 결과라 하더라도 공개가 불가능한 상황이다. 개인정보가 포함된 과학데이터의 경우 활용가치가 매우 높음에도 불구하고 개인정보보호 정책으로 인해 공유ㆍ활용이 불가능하다. 개인식별정보를 보호하면서 연구에 필요한 데이터가 공유될 수 있는 방안이 마련되어야 한다(현재는 인간 대상의 연구목적으로 수집된 개인정보 및 유전정보는 개인정보 비식별 조치를 하더라도 여전히 활용 불가하다. – 2016. 6. 30. 개인정보 비식별 조치 가이드라인 P70).

넷째, 데이터 생산을 목적으로 하는 국가연구개발 사업이 추진되어야 한다. 데이터 유전체 연구사업은 대부분 논문이나 특허를 결과물로 필요로 한다. 그렇게 되면 아무도 연구의 핵심 정보인 데이터를 공유하려고 하지 않는다. 따라서 데이터 생산 활성화를 위해 데이터 생산 목적인 과제와 분석(논문 등)이 목적인 과제를 분리하여 국가 연구과제가 기획되어야 한다. 또한 연구사업 평가 시 데이터 생산에 대한 성과를 인정받을 수 있는 정성적(데이터 양)·정량적(데이터 품질, 생산 노하우) 평가 방식이 도입되어야 한다.

유전체 데이터는 다양한 질병과 관련된 유전자변이들을 밝히는데 활용되고 있다. 또한 개인 유전체 데이터는 질병 진단과 맞춤형 치료, 이를 위한 신약개발, 나아가 질병의 예측 및 건강관리 등에 활용되고 있다. 우리 정부도 이제 유전체 연구 및 데이터에 대한 중요성을 인지하고 이를 활성화 할 수 있는 방안을 고민해야할 때이다.

- 끝 -

※ 위 내용은 '투이톡' 모바일 앱을 통해서도 확인하실 수 있습니다.

하루 5분, 스마트해지는 시간~투이톡!!

앱 다운로드

투이컨설팅 다른 콘텐츠 보기