[김진한 (주)스탠다임 대표] 

빅데이터 키워드는 2013년 처음 각광 받았다. 이후 사람들 인식 속에서 진부해졌던 이 용어가 2016년 이후 열렬하게 재조명 받았다. IBM Watson Health(이하 왓슨)와 딥마인드 알파고(이하 알파고) 이후이다. 

왓슨의 의료분야 실제 적용과 알파고의 인류를 넘어선 능력에 사람들은 감명과 충격을 받았다. 사람들은 그 이유를 분석했다. 인공지능 알고리즘 발전과 하드웨어 발전이 이유였다.

한 꺼풀 더 들어가면 그것이 가능해진 시작은 인공지능 알고리즘과 하드웨어가 수행할 대상인 빅데이터가 마련됨이었다. 이로써 빅데이터는 실용적인 실체가 됐다. 사람들은 빅데이터 필요성을 인정하게 됐고 이를 넘어서 빅데이터를 구축하게 됐다.

의료계 빅데이터 재조명과 그 사례들

왓슨과 알파고를 포함한 이전의 시대에는 사람들에 의해 어떠한 이유이든 자연스럽게 쌓여온 수동적인 구축 의미에서 빅데이터였다. 작년의 빅데이터 재조명 이후 적극적인 구축으로서의 빅데이터가 현재 요구되고 있다. 의료계에서 적극적 빅데이터 구축을 최신의 실체적 사례 2건을 중심으로 살펴본다. 스탠포드대의 이미지를 통한 피부 질병 판독(네이처지 2017년 초) 그리고 구글의 당뇨성 망막변증 판독(JAMA 2016년 말)이다.

최근 2건의 사례 내용 설명을 하고 빅데이터를 중심으로 두고 분석했다. 이를 통해 적극적 빅데이터를 구축하고 인공지능을 통해 학습해 실용적이 된 포인트를 명확히 한다. 해당 포인트를 살려 유사한 성공 사례들을 만들어 나간다면 올바른 빅데이터 구축과 사용의 중요성이 가속화 될 것으로 보인다.

스탠포드대 피부 질환 종류 분류(네이처지 2017년 초)

피부과 질환을 이미지를 통해 판별할 수 있는 성과가 지난 2017년 2월 네이처지에 소개됐다. 스탠포드 연구진이 중심이다. 13만장에 이르는 피부과 질환에 따른 피부 사진을 수집했다. 피부 사진에 따른 질환 종류를 각 사진과 수작업으로 연결 시켰다.

사진과 그에 따른 질환 종류를 이미지 인식 영역에서 대표적이고 가장 강력한 딥러닝 구조인 convolutional neural network(CNN)으로 학습시켰다. 피부과 전문의 21명이 판독한 결과 보다 더욱 뛰어난 성능 결과를 보였다.

▶데이터 측면

연구자들은 피부 질환 사진에 대한 양, 다양성, 품질 측면에서 기준을 충족시키기 위해 자신들의 능력 안에서 가용한 모든 데이터를 수집했다.

여기서 기준이라는 것은 양이 많으면 많을수록 좋다라는 최대치와 기계가 학습해 유의미한 성능 결과를 낼 수 있을 것으로 예상되는 최소치 사이이다. 이미지넷(딥러닝 이미지 인식 시대를 연 데이터셋, 사진은 10만 종류, 각 종류당 평균 천장의 사진, 총 1억장의 정답이 매치된 사진)은 사진의 종류 당 1,000장의 양이다.

위의 피부과 질병 연구에서는 질병의 종류가 2,000개이니 질병 당 평균 65장의 사진이 마련됐다(여기서 계통도 형태의 세부 질병 분류에서 말단 노드에서 종류이니 평균 장수가 더 많을 여지가 있다). 이미지넷의 경우는 종류에 따른 사진의 개수가 많이 부족하다.

▶알고리즘 및 성능 측면

학습 데이터에 대해 2015년 발표된 Inception-v3 딥러닝 구조를 사용했다. Inception-v3는 이미지넷을 비롯한 여러 이미지 인식 문제에서 매우 뛰어난 성능을 보인 검증된 구조이다. 최종 성능은 21명의 피부과 전문의의 분류와 비교한 것이다. 딥러닝 예측의 성능은 91%가 넘는 정확도로써 피부과 전문의와 동등한 정도이다.

구글의 당뇨성 망막변증 판독 (JAMA 2016년 말)

2016년 말 JAMA 저널에 구글은 안과 전문의 수준의 인공지능 결과를 발표했다. 안저 사진을 학습해 당뇨성 망막변증을 예측하는 목적이다. 당뇨성 망막변증 진단은 일반적으로 안과 전문의가 안저를 사진으로 찍어 판단하는 방식으로 이루어진다. 사진 상의 혈관, 출혈, 부산물 등을 판단을 위한 특징으로 삼는다.

구글은 CNN으로 13만장의 사진을 학습시켰다. 안과 전문의 54명이 10개월에 걸쳐 사진을 수집하고 학습 가능한 형태로 정리했다. 보통의 안과의사 실력보다 더 뛰어난 성능을 보였다.

▶데이터 측면

총 13만장의 안저 사진을 수집했다. 네이처지의 피부 질환의 경우와 비교해 사진의 전체 개수는 거의 같지만 사진에 대한 정답 종류는 피부 질환의 2000종류가 아니라 5 종류다(증상의 진행도에 따른 구분). 따라서 진행도에 따라 각각 평균 26,000장에 이르는 학습 데이터를 가진다. 이는 피부 질환 예측 문제에 비해 각 질환 종류당 월등하게 많은 양의 데이터가 준비됐음을 의미한다.

▶알고리즘 및 성능 측면

Inception-v3 CNN구조가 사용됐다. 성능 측정시 우수한 안과전문의 8명의 판독 결과와 비교했다. 8명의 의견이 일부 다를 수 있는 이견에 비해 더 정확한 일관된 결과를 보였으며 의료 영역에서 사용되는 대표적 성능 지표인 AUC 기준으로 0.991 이므로 완벽에 가까운 예측 성능이다.

빅데이터 관점의 포인트

빅데이터가 사용돼 실제적 성능을 보인 최신 피부 질환 분야, 망막변증 분야에서의 성과를 살펴보았다. 해당 두 가지 사례를 중심으로 해 도출할 수 있는 빅데이터 관점에서 세가지 분석 포인트 제시한다.

▶데이터 수집에 얼마나 많은 노력?

첫째, 빅데이터 수집에 많은 노력과 시간이 드는데 얼마나 많은 양을 모아야 하는지 가늠할 수 있을까. 의료 분야에서 빅데이터를 학습한 인공지능의 성능을 가늠하기 위해 인간 전문가 수준의 판단 성능, 저렴한 비용, 빠른 판독 등 여러 성능 지표가 있을 수 있지만 기본적으로 인간 전문가 수준의 성능이 요구된다.

그렇다면 인간 전문가들이 해당 의료 분야에 대해 얼마만큼 정확도를 보이는지 먼저 조사돼야 한다. 그런 다음 현재 수준에서 가용한 양의 데이터만으로 인공지능을 학습시켜서 성능 측정을 한다. 만약 성능이 떨어진다면 데이터를 더욱 수집한다. 인간 수준의 정확도를 달성할 때까지 성능을 측정하고 데이터를 추가 수집하는 과정을 반복한다.

▶각 레이블 당 사진 개수, 레이블의 레볼루션

둘째, 풀고자 하는 문제에서 요구되는 정답의 정밀도에 따라 데이터의 양이 결정된다. 위의 두 가지 사례들에서 정답 종류 당 평균 사진 몇장이라는 식으로 설명 보충했다.

인공지능이 학습을 할 때 각 정답 종류에 요구되는 최소한의 데이터양이 존재한다. 만약 가용한 데이터가 모자라면 정답의 종류를 줄여 각 정답에 할당되는 데이터의 양을 상대적으로 늘릴 수 있다. 가용한 데이터가 많은 상황이라면 정답 종류를 세분화해 더 정교한 예측이 가능하다.

▶알고리즘은 잘 검증된 것 중심으로 재활용

셋째, 빅데이터를 이미 잘 다루고 있는 알고리즘을 재활용한다. 사례 두 가지 모두에서 딥러닝 이미지 분류, 인식 영역에서 뛰어난 성능을 보이고 여러 세부 문제들에서도 반복해 검증된 Inception-v3 구조를 변경 없이 활용했다.

Inception-v3 이후 개발된 더 나은 성능의 딥러닝 구조들이 발표됐다. Inception-v4, Inception-ResNet 등이다. 인공지능의 학습 이론은 충분한 양의 데이터가 주어질 때 데이터가 담고 있는 정보의 복잡도를 더 잘 담아내는 알고리즘이 더 좋은 알고리즘, 즉 성능이 더 좋은 알고리즘이라고 한다. 잘 검증된 적절한 알고리즘을 의료분야에서의 문제 설정에 맞게 적용시킨다.

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

이 시각 추천뉴스
랭킹뉴스