보건의료분야 가용 빅데이터 증가세

[창간 29돌 특집Ⅰ] 제약 빅데이터 전략 : 보건산업 빅데이터 활용사례
박래웅 교수(아주대학교 의료정보연구센터)

바둑을 둘러싼 알파고와 이세돌 프로기사의 대결에 대한 관심이 뜨겁다. 알파고의 일방적 승리를 두고 인공지능의 역습이라 칭하고, 일각에서는 향후 인공지능이 사람을 지배할 수도 있다는 우려도 터져 나오고 있다.

하지만, 엄밀히 말하면 알파고의 승리는 인공지능의 승리가 아니고, 빅 데이터와 인공지능기술로 무장한 데이터 과학자의 승리다. 알파고의 작동원리를 보면, 바둑대국 싸이트인 KGS에서 약 16만 건의 바둑대국으로부터 추출한 약 3000만 건의 위치정보에 딥러닝 알고리즘 CNN을 적용, 현 상태에서 다음 수를 놓을 확률분포를 계산해 놓고, 기존 대국에서 가장 많이 놓는 수와 그에 따른 승률을 시뮬레이션 해 이길 가능성이 높은 수를 두도록 설계돼 있다.

즉, 기존에 축척된 바둑대국 빅데이터을 이용해 몬테카를로 트리서치 알고리듬에 딥러닝 알고리듬을 접목해 계산시간을 크게 줄인 것이다. 1202개의 CPU와 176개의 GPU가 이용됐다고 하니, 일반적으로 상상하기 어려울 정도의 컴퓨팅 자원을 들여야만 가능한 일임을 알 수 있다.

해법이 유한한 문제에 있어 충분한 자료와 정교한 알고리듬, 그리고 컴퓨팅파워가 주어진다면 빅 데이터에 기반한 의사결정이 도메인 전문가의 오랜 경험에 의한 의사결정을 앞설 수 있음을 극명하게 보여준 사건이다.

▶▷ 대표적 빅데이터 사용 사례

현재 구글이 가장 많이 투자하고 있는 분야가 건강산업분야로 장래에 의료제약분야에서도 구글의 인공지능을 만나게 될 것으로 예상된다. 하지만, 보건의료분야에서 이러한 가정을 충족하기에는 아직 극복해야 할 과제가 산적해 있다.

국내 전자의무기록 보급률이 80%를 넘어섬에 따라 병원별 전자의무기록을 포함해 심평원 보험청구자료, 건강보험공단의 건진자료 등 가용한 보건의료 빅데이터가 점차 증가하고 있으며, 많은 제약사들이 신약개발이나 제약 마케팅 및 영업에 이들 자료를 이용하고 있다.

하지만, 이들 자료를 이용한 혁신적인 가치창출을 위해서는 의료데이터의 표준화, 상호연계 및 통합, 표준화된 분석플랫품 등 빅데이터의 생성과 이용 및 관리 전반에 대한 혁신적 변화가 필요한데 아직까지 미비한 점이 많아 이들 임상 빅데이터를 이용한 혁신적인 가치 창출 사례는 드문 실정이다.

미국 내 2700여개의 식료품 및 약국체인을 운영 중인 크로거社는 환자가 처방전을 갖고 약국에 왔을 때, 해당 약이 없어 판매하지 못하는 문제로 골치를 썩이고 있었다.

이에 라이트주립대학과 협력, 약품 수요를 예측하고 재고를 효율적으로 관리하기 위해 빅데이터 기반의 혁신적인 시뮬레이션 최적화 방법을 개발해 현업에 적용한 결과 기존의 방법에 비해 2011년 이후 연간 150만 건의 품절로 인한 미조제 건을 감소시킬 수 있었다.

이로 인해 연간 8000만 달러의 추가 수익과 1억 2000만 달러의 재고확보 비용절감 및 1000만 달러의 노동 비용 절감 효과를 거둔 것으로 평가됐다.

국내에서는 이미 잘 알려진 예로 유유제약이 인터넷 검색자료 18억 건 을 바탕으로 멍든데 바르는 약에 대한 적절한 키워드 매칭이 없는 것을 발견하고 자사의 타박상에 바르는 베노플러스겔을 멍든데 바르는 약으로 리포지셔닝하고 마케팅 대상을 어린이에서 젊은 여성으로 삼아 공략한 결과 비약적인 매출상승 효과를 누린 바 있다.

프라닥사(dabigatran)와 같은 신규 경구용 항응고제(NOAC)는 전통적으로 사용하던 항응고제인 와파린과 달리 주기적인 INR검사가 필요치 않으면서도 안정적인 항응고 효과가 있는 것으로 알려졌으나, 기존의 임상시험 결과가 주로 서양인을 대상으로 한 것이라서, 동양인에서도 서양인과 마찬가지로 심혈관질환 위험도 감소나 출혈성 부작용 감소효과가 동일할 것인지에 대해 한국을 포함한 아시아지역 임상의사들의 의문이 가시지 않고 있다.

하지만 최근 2016년도 Stroke지에 아시아국가인 대만의 전국민보험청구자료(TNHIRD)를 이용한 연구에서 신규 경구 항응고제가 와파린에 비해 출혈성 부작용이나 사망률에서 유의할 만한 감소가 보였고, 위장관 출혈이나 심근경색의 위험도를 높이지 않음이 밝혀졌다.

한국베링거인겔하임은 이 연구결과를 국내 마케팅에 적극 이용할 것으로 보이며, 병원에서 와파린에서 신규경구항응고제로 대체하는 처방을 유도하는데 좋은 결과를 보여줄 것으로 보인다.

▶▷ 전국민 건보자료 효율적 활용방안

국내에서 가용한 전국민 보험청구자료는 전국민의 모든 급여자료데이터를 모두 포함하고 있다는 점에서 전세계적으로 매우 고유한 장점을 갖고 있으며 제약업계나 대학, 연구소에서 가장 선호하는 분석자료이다.

제약업계에서는 이를 이용해 초진, 재진환자에 따른 약물의 수요와 급여수준을 파악할 수 있고, 의약품별 상병명 분석을 통해 기존 출시된 약품에 대한 새로운 적응증 발굴 등 마케팅에 활용하고 있다.

그러나 진단명이 정확하지 않다든지 보험삭감을 방지하기 위한 과한 진단명(overcoding) 등의 문제로 정확하고 자세한 진단명을 알 수 없거나, 포함기준이나 배제기준, 혹은 효과측정을 위해 필요한 여러 검사의 결과 값을 알 수 없는 문제가 있다. 또한 최근 5년~ 7년간의 자료만 분석할 수 있어 장기 추척 관찰이 필요한 경우에 대한 분석에 제한이 있다.

제약사 간에는 이를 보완하기 위해 상용 데이터베이스인 IMS자료나 유비스트사의 자료를 널리 이용하고 있다. 이들 자료를 이용하면 도매자료를 이용한 비급여약물의 매출과 일부 데이터베이스의 경우 원내 제재 약품도 매출확인이 가능하며, 국내뿐만 아니라 국외동향을 함께 비교ㆍ파악할 수 있는 장점이 있다. 하지만 제조사와 판매사의 구분확인이 번거롭고 병용투여나 자세한 진단명, 검사결과를 알 수 없는 단점이 있다.

병원의 전자의무기록자료는 자세한 임상진단과 그에 따라 처방되는 의약품에 대한 조사가 가능하며, 병용투여유무, 정확한 투약시간, 부작용유무, 각종 검사결과, 치료효과 등을 알 수 있다는 점에서 가장 상세하고 정교한 자료원이다.

하지만, 환자가 다른 병원에서 수행한 투약이나 검사유무에 대해서는 아무런 정보가 없다. 또한 환자의 중증도나 지역별, 또는 병원별 특성에 따라 특정한 성향을 지니는 환자가 많이 포함되는 등 선택편향이 있을 가능성이 매우 높아 그 결과를 전국민의 일반적 경향으로 추정하기에 무리가 있을 수 있다.

이와 함께 전자의무기록이 널리 사용되고 있지만, 질적인 면에서 아직도 대부분의 주요한 임상기록이 비구조화 된 자유진술문으로 입력되는 경우가 많아 정보를 찾아내기 힘들며, 주요한 검사결과가 종이로 출력돼 그림으로 입력되는 경우가 많다. 따라서 중요한 변수를 추출하기 위해서는 여전히 많은 노동력을 요하는 수작업이 필요하다.

▶▷ 제약사 복합제 개발에 빅데이터 활용

최근 전자의무기록 자료를 이용하여 복합제 개발에 필요한 연구분석을 수행하는 제약사가 늘고 있다. A제약사는 기존 자사의 B약품에 대해 복합제 개발을 모색 중에 있다.

한 대학병원의 전자의무기록으로부터 주로 병용 처방되고 있는 약물을 파악하고, 자연어처리를 통해 각 약물별 부작용 데이터베이스를 구축했다. 이를 이용해 대상 약물간의 병용 투여 시 순응도 및 부작용 발생 정도를 파악했다.

이를 바탕으로 해당 제약사는 여러 후보 약물 중에서 한 가지에 대해서만 복합제 개발을 추진키로 결정함으로써, 여러 후보 복합제의 개발과 임상시험에 소요되는 비용을 크게 줄일 수 있었다. A제약사는 또한 자사의 C약품이 많이 처방되는 임상과와 환자의 임상진단, 그리고 병용 처방되고 있는 주요 약물을 조사하고, 해당 환자군에서의 순응도와 부작용 발생증감유무를 조사했다.

이를 기반으로 새로운 적응증이나 타깃마켓을 갖는 새로운 복합제 조합을 유추하고 개발가능성을 확인 중에 있다. D제약사도 신약 복합제 개발을 위해 한 대학병원의 전자의무기록으로부터 연도별 E약과 F약을 병용투여 한 처방빈도와 연도별 병용투여 증가율을 확인하고, 단독투여군과 병용투여군간 기본특성의 차이 및 순응도와 부작용 발생 빈도를 비교하여 복합제 개발 필요성을 검토한 바 있다.

이러한 복합제 관련 연구는 보험청구자료를 이용해서도 일부 수행 가능한 연구이지만 보험청구자료에는 정확한 약물투여시점이나 부작용발생 유무에 대한 정보가 없고, 진단명이 부정확하고, 각종 검사결과를 알수 없기 때문에, 전자의무기록이 훨씬 좋은 정보원이다.

▶▷ 빅데이터 장단점 파악 ‘분산연구망’

각 자료원은 이처럼 장점과 단점을 가지고 있는데, 이들 모든 자료를 통합 연계해 같이 분석할 수 있는 방법은 없을까. 최근 분산연구망이 이에 대한 대안으로 주목받고 있다.

분산연구망이 작동하기 위해서는, 각 기관의 자료를 동일한 형식과 용어로 바꾸어야 한다. 이를 공통데이터모델(Common Data Model, CDM)이라고 한다. 이 방식은 각 병원 내 저장된 전자의무기록을 표준형의 공통데이터모델과 표준용어로 변환한 뒤, 연구자가 연구 프로토콜과 연구 목적에 맞는 분석 코드를 각 기관에 보내고, 그 분석 코드를 각 기관 내부에서 실행한 결과값만 받아 통합분석하는 방식이다.

그러므로 각 기관의 개별 환자정보는 기관 내부에만 존재하며 기관 밖으로 나가지 않는 장점을 갖고 있다. 각 기관별로 따로 분석하고 그 결과값만 모아 분석해도 자료를 모아서 분석하는 것과 동일한 결과를 얻을 수 있다. 즉 데이터를 공유하는 방식에서 증거(evidence)를 공유하는 방식으로 진일보한 분석방식이다. 임상 데이터를 소유한 병원입장에서도 각 분석요청별로 판단해 해당연구에 참여여부를 개별 결정하면되므로 병원이 소장한 데이터에 대한 모든 권한을 유지할 수 있다.

▶▷ 대표적 분산연구망 ‘오딧세이’

여러 분산연구망 중에서도 오딧세이 컨소시엄 (www.ohdsi.org)이 가장 국제적이며 개방적인 활동을 벌이고 있다. 오딧세이는 비영리 다학제 산학연 협력체로서 비교 효과 분석, 의료품질 검증, 약물 안전성 평가, 경제성 평가 등 보건의료 빅데이터를 이용한 다양한 분석을 가능케 하고 있다. 애초 오딧세이 컨소시엄이 구성되면서 세운 비전은 전세계에서 10억 명의 환자정보를 공통데이터모델로 변환해 이를 기반으로 의학의 새로운 근거를 쉽게 창출하는 것이다.

10억 명이라는 비전이 너무 과한것이 아니냐는 내부 비판이 있었으나, 현재 12개국 53개 기관의 데이터베이스로부터 약 6억 6천만 명의 환자 데이터가 이미 공통데이터모델로 변환된 상태이다. 한국에서는 아주대학교병원의 지난 22년간 260만 명분 (http://ami.ajou.ac.kr:8080), 가천 길병원의 지난 5년간 200만 명분 자료가 공통데이터모델로 변환된 상태이다.

오딧세이는 공통데이터모델 기반의 다양한 분석 기법과 시각화 툴을 지속적으로 개발하고 있고 모든 코드를 GitHub에 공개해 참여 기관은 해당 프로그램을 무상으로 기관 내 데이터에 적용하여 이용할 수 있다.

만성질환은 장기간 치료를 지속하게 되므로 시간이 지남에 따라 치료방법이 다양하게 변화될 수 있으며, 치료 가이드라인도 다양하게 존재하는 데 비해, 치료 시 환자가 경험한 실제 경로에 대해서는 알려진 바가 없다. 최근 오딧세이 연구망을 이용한 국제공동연구 사례로서, 미국 콜럼비아대학을 중심으로 한국, 미국, 영국, 일본이 포함된 국제 공동연구팀은 오딧세이 연구망을 통해 4개국의 11개 데이터베이스를 이용해 약 2억5천만 명의 고혈압, 제2형 당뇨병, 우울증 환자의 치료경로를 연구했고 질환에 따른 1차 치료제로 사용되는 특정약제의 선호도 및 다양한 치료경로의 국제적인 패턴 조사를 실시했다. 이 연구결과는 유력 학술지에 게재예정이다.

분산연구망 기반의 또 다른 국제협력 연구사례로서, 홍콩대학을 중심으로 한 아시아 5개국(한국, 홍콩, 일본, 대만, 호주)이 참여한 연구에서, 소아환자에게 사용되는 약물의 종류와 처방발생율의 국가 간 비교를 진행 중에 있다. 이 연구를 진행하는데 있어 연구자가 보내온 분석프로그램을 각 참여기관이 작동시키는데 소요되는 시간은 15분 미만에 불과할 정도로 빠른 분석이 가능했다.

오딧세이 분산연구망에 이미 참여한 아주대병원, 길병원 이외에, 국내 주요 대학병원들에서도 분산연구망 참여를 서두르고 있으며, 건강보험심사평가원, 국민건강보험공단 등 정부기관에서도 분산연구망 참여를 위한 방안을 모색 중에 있다. 특히 심평원이나 보험공단 등 보험청구자료나 검진자료를 가진 정부기관이 분산연구망에 참여하게 될 경우 그 파급력은 매우 클 것으로 예상된다.

▶▷ 빅데이터 시장 가치 및 과제

맥킨지 보고서에 의하면 빅데이터에 기반한 의사결정이 미국내 보건의료산업에서 매년 100조 원 이상의 시장가치를 창출할 것이라고 추정했다. 향후 빅데이터의 활용이 글로벌 제약사의 연구개발, 자금조달, 관리, 제조, 유통, 마케팅 및 판매 등 모든 면에 큰 영향을 미치게 될 것으로 보인다.

우리나라의 의료기관은 이전 어느 때보다도 가장 많은 의료 데이터를 소유하고 있다. 하지만, 데이터를 소유하고 있는 것이 그 데이터에 접근하고 사용할 수 있다는 의미는 아니다. 앞서 언급한 프라닥사의 효과와 부작용 연구의 경우, 대만의 2배가 넘는 인구를 가진 한국의 청구자료가 먼저 사용되지 못했는데, 한국의 보험청구자료를 이용하는데 따른 제약이 대만보다 크기 때문일 것으로 보인다.

국민의 개인정보가 보호되는 한도내에서 가용한 임상빅데이터를 연구자와 제약사가 충분히 이용할 수 있는 제도적 장치가 시급한 실정이다. 공통데이터모델기반의 분산연구망의 경우 환자의 개인자료가 기관 밖으로 나가지 않기 때문에, 환자의 개인정보를 충분히 보호하면서도 연구자나 제약사가 원하는 증거를 빠른 시간 내에 생성할 수 있다.

각 병원은 물론 정부기관이 보유한 자료를 표준 공통데이터모델로 변환하고 연계해 분석할 수 있다면 각종 의약연구를 신속하고 정확하게 수행함으로써 우리나라 제약산업의 발전에 크게 기여할 수 있게 될 것이다.

팜뉴스 다른기사 보기