2018-03-13 (화)

  • -동두천 5.8℃
  • -강릉 13.8℃
  • 연무서울 8.0℃
  • 박무대전 4.0℃
  • 박무대구 7.0℃
  • 박무울산 8.9℃
  • 박무광주 7.3℃
  • 맑음부산 11.4℃
  • -고창 12.1℃
  • 맑음제주 11.7℃
  • -강화 7.0℃
  • -보은 2.5℃
  • -금산 2.9℃
  • -강진군 4.5℃
  • -경주시 3.8℃
  • -거제 12.5℃
기상청 제공

인터뷰


전문가 사용경험 갖춘 인공지능 기반 솔루션 도입할 것

배영우 한국제약바이오협회 전문위원이 말하는 인공지능의 모든 것

2016년 알파고와 이세돌 9단의 대결과 2011년 왓슨의 제퍼디 퀴즈쇼 우승은 대중의 머리 속에 인공지능을 각인시키게 충분했다. 심지어 인간 VS 인공지능이라는 대결구도까지 형성됐다. 더 나아가 인간보다 우월한 인공지능이 인간의 일자리까지 위협할 것이라는 주장까지 나왔다. 과연 인공지능은 인간의 일자리를 위협해 인간의 영역을 모두 대체할 수 있을까? 의료분야 역시 의사, 약사, 신약개발 연구원이 하는 일을 인공지능이 대신할 수 있을까? / 메디포뉴스는 9일 배영우 한국제약바이오협회 R&D정책위원회 4차산업 전문위원을 만나 보건분야와 신약개발에서 인공지능이 어떻게 활용될 수 있는지 들어봤다. [편집자주]

- 인공지능 기반 신약개발에서의 인공지능에 대해 명확히 설명 부탁 드린다. 대부분의 사람들은 인공지능하면 알파고부터 인식한다.

인공지능을 사용자 측면에서 나눠 본다면 ▲일반인용 ▲전문가용으로 분류할 수 있다. 우리가 흔히 알고 있는 알파고, 인공지능 스피커(알렉사 등)는 일반인용 속한다. 반면 신약개발에 이용하는 인공지능은 전문가용에 속하는 것이다. 일반인용이 훨씬 우리에게 친숙하게 다가올 것이다. 알파고는 바둑의 ‘판세’를 읽는 인공지능이다.

신약개발에 이용되는 인공지능은 전문가용이다. 신약개발에 사용되는 인공지능이 어떤 것이지 알아보려면 신약개발의 과정이 어떤지부터 짚어봐야 한다. 신약개발을 하기 위해선, ▲논문과 같은 문헌연구 ▲가설 수립을 통한 후보물질 발굴 ▲독성 연구 및 다양한 화합물 간의 연관관계 설정 등의 과정을 거친다. 즉, 여러 후보물질을 정한 후 chemical compound도 만들어 보고, 독성도 따져보고, 여러 물질과 연결시켜 과연 이 물질이 새로운 물질인지 따져봐야 한다. 또한, 이미 승인 받은 화합물과 결합해 새로운 약물로 연구하는 과정도 거친다. 

이러한 연구에 쓰이는 정보와 데이터가 산재돼 있다. 이러한 산재된 데이터를 한 눈에 볼 수 있도록 하는 솔루션이나 플랫폼을 구축하는 데 인공지능 기술이 활용될 수 있다. 

신약개발을 가장 첫 단계인 가설을 수립할 때조차 수많은 논문을 봐야 한다. 가령, 암 연구에 가장 많이 활용되는 유전자인 p53 유전자와 관련된 연구만 하더라도 이와 관련된 논문만 수십만 건이다. 이 논문을 인공지능 기술로 통합해 한 눈에 볼 수 있도록 만들 수 있다. 

-신약개발에 인공지능이 활용될 수 있는 이점에 대해 좀 더 구체적으로 설명해 달라. 

후보물질 도출에 정확성만 높이더라도 신약개발 비용을 상당부분 줄일 수 있다. 전임상에 활용되는 쥐(rat)의 가격만 마리당 몇 십만원이다. (인공지능 기술을 활용해) 후보물질만 제대로 도입해도 신약개발 비용을 줄일 수 있다. 전통적인 방식 신약개발에서는 후보물질만 5,000-10,000개 도출한 뒤 여러 과정을 거쳐 추린 뒤 하나의 물질을 도출해 전임상과 임상과정을 거친다. 많은 기간과 비용이 소모되는 작업이다. 

신약개발에의 가장 앞 단계에서 많은 문헌조사와 연구가 필요하고, 가설을 세우는 단계 역시 인간이 수행하는 일이므로 (필연적으로) bias(편향)가 일어날 수 밖에 없다. 이러한 문제를 해결하기 위해 인공지능을 활용해 보자는 것이다. 

Chemical compound에 대해 (인공지능이) 독성, FDA와 같은 관계기관에 승인을 받은 것인지도 알려줄 수 있다. 이러한 과정을 인공지능이 해주면 연구자가 굉장히 편리할 것이다. 특정 유전자의 특정 질환과 약물이 어떻게 연관돼 있는지 문헌연구가 돼 있고, 공개된 임상보고서가 있다면 (인공지능 기반 솔루션이) 이런 정보를 묶어 연결해서 보여주면 굉장히 편리할 것이다. 이러한 것들을 인공지능 기반 솔루션이 인간이 할 일을 대신 해주는 것이다. 

-인공지능을 활용해 신약개발을 하겠다고 할 때 데이터에 관한 이야기가 많이 나온다. 비정형 데이터, 정형 데이터 등을 중심으로 명확하게 설명해 달라. 

정형 데이터는 메트릭스로 정리된 형태다. 테이블로 정리가 된 데이터에 키워드를 제시하면 특정 답을 끄집어 낼 수 있다. 즉, 정형 데이터는 인덱스를 활용한 값이 정해진 뒤 메트릭스에 딱 들어가 있는 형태로 돼 있다.  왓슨이 제퍼디 퀴즈쇼에서 질문에 답할 수 있었던 것은 질문을 대한 자신이 가진 내용문(정형 데이터)를 끄집어 낼 수 있었기 때문이다. 

반면 비정형데이터는 자연어다. 쉽게 생각하면 책이라고 보면 된다. 인터넷에서 우리가 키워드 검색하면 구글이나 네이버에서 리스트를 주는 것을 생각해 보면 된다. 검색 엔진은 비정형 데이터 중에서 검색한 사람이 원하는 것을 끄집어 내는 것이다. 즉, 검색엔진에서 우리가 보는 것은 키워드가 들어간 리스트다. 왜 이러한 리스트만 주는 것 일까? 모두 비정형데이터로 구성돼 있기 때문이다. 비정형데이터는 같은 뜻이라도 다르게 표현된다. 

왓슨이 본격적으로 이름을 날리게 된 것은 2011년 열린 제퍼디 퀴즈쇼였다. 실상은 사람 말을 알아 들은 것처럼 보인 것이다. 사회자의 질문을 이해하는 것처럼 보였으니까. 사실은 왓슨이 사회자의 질문을 이해하는 것처럼 만든 것이다. 고도의 Deep Q&A 기술을 써서 퀴즈쇼에서 어떠한 자연어 질문이든지 답변을 하도록 만든 것이다. 왓슨에 위키피디아와 같은 자료를 학습시킨 것이다. 

왓슨은 퀴즈쇼에서 나온 자연, 역사와 같은 topic을 토대로 자연어를 이해한다. 자연어는 주어, 동사, 보어 등을 파악한다. 이때 핵심은 고유명사다. 고유명사는 종류가 많기 때문에 이를 파악하는 것이 관건이다. 

고유명사를 이해하는 것은 신약개발에 대입해 보면, 질병명, 약물정보, 유전자 등 terminology를 파악하는 일과 같다. 

-terminology와 관련해 인공지능은 데이터를 어떻게 학습하나? Terminology 데이터 수집은 어떻게 이뤄지나?

terminology를 정리해야 하는데, 기존에 방법은 사람들이 이와 관련된 DB(Data Base)를 모두 손수 작업했다.( machine translation 작업을 거친 것) 이러한 machine translation이 잘 되려면 data dictionary라는 일종의 DB 사전이 필요하다. 

신약개발에서는 UMLS(Unified Medical Language System)를 이용한다. UMLS에는 terminology가 영어로 정해져 있기 때문에  UMLS를  인공지능에 넣어 학습 시킨 것이다. UMLS 데이터는 비정형데이터다. 이 비정형데이터를 넣고 학습을 시킨 것이 왓슨의 인공지능 기반 신약개발 솔루션이다. 

terminology와의 연관성을 (왓슨이)이 스스로 찾아내게 끔 만든 것이 왓슨의 신약기반 개발 솔루션이다. 이러한 학습을 통해 (왓슨이) 내부 체계에서 knowledge network를 축적한다. 이때 왓슨은 여러 다른 브랜드명의 약물임에도 불구하고 같은 chemical compound를 가진다는 것을 인지하고, 같은 적응증에 쓸 수 있는 약이라는 것을 알게 된다. 즉, 다른 브랜드명이라도 성분명이 같다면 같은 적응증에 쓰는 약물임을 왓슨이 인지하는 것이다. 

또한, 인공지능기반 신약개발 솔루션(왓슨과 같은)은 약물의 적응증, 효능, 부작용을 등을 학습하게 된다. 이러한 연관관계가 있는 knowledge network는 왓슨 내부에 구성돼 있다. 이러한 network를 사람이 일일이 수작업을 하는 것이 아니라, 비정형 데이터(text 논문 등을 포함한 여러 메디컬 데이터)를 왓슨에 돌리는 것이다. 사람이 일일이 세우는 것이 아니라, 인공지능을 활용해 내부의 knowledge network를 잘 구성해 제대로 된 답변이 가능하도록 만드는 것이 인간의 역할이다. 

왓슨은 비정형데이터를 이용해 사람의 knowledge를 모방할 수 있다는 것을 보여준 것이다. 

-제대로 된 knowledge network를 구성하기 위해서 필요한 것은 무엇인가?

Data labeling이 중요하다. 이는 각 분야의 전문가의 영역이다. 보건분야에서는 의사, 신약개발 연구원이라 볼 수 있다. 우리나라에서 CNN(Commercial Neural Network)를 가장 잘 구현하고 있는 것이 루닛과 뷰노다. 이러한 기업의 핵심기술 역시 라벨링이다. 양질의 데이터를 가지고 라벨링을 잘 해야 하는데, 가령 영상 의료데이터만 하더라도 메디컬 영상데이터를 볼 수 있는 의료진이 Data labeling에 참여해야 한다.

신약개발의 경우만 보더라도 텍스트, chemical compound, 이미지, 3D simulation, 표 등이 있다. 텍스트도 이해해야 하고. 단순히 표와 텍스트를 ‘구분’하는 것만이 아니라 텍스트의 내용을 ‘이해’해야 한다. 이러한 작업을 위해선 data labeling 작업이 무엇보다 중요하다. 이 역시 약물 정보를 이해할 수 있는 전문가가 참여하는 부분이다.

-대학병원 내부에서조차 EMR 데이터가 제대로 입력돼 있지 않아 제대로 활용되지 못 하고 있다는 목소리도 크다. 신약개발 뿐만 아니라 길병원 등에서 Watson for Oncology 등을 제대로 활용하고 있나? 

우리나라 사람들은 데이터는 있냐는 지적을 많이 한다. 표준화라고 하는데, 요즘은 표준화 측면에서는 terminology가 중요하다. 표준화 작업을 하려면 결국 수작업을 거쳐야 한다. 이러한 수작업은 결국 축적하려는 데이터를 이해할 수 있는 전문가(의사, 연구자 등)이 해야 한다. 현실적으로 우리나라 실정에서 의사 등 전문가가 이러한 데이터 표준화 과정에 시간을 할애하긴 쉽지 않을 것이다. 

현실적으로 미국에 있는 UMLS를 기준으로 할 수도 있다. 그 다음에 이미 표준화 돼 있는 우리나라 질병코드형 분류 KCD-9을 활용할 수 있다. 즉, UMLS를 기준으로 하고 우리나라 질병코드형 분류를 데이터를 conversion(전환)해서 사용할 수 있는 여러 솔루션이 이미 나와있다. terminology 기술이 있으니 이를 기준으로 mapping만 시키면 된다. 

우리나라의 경우 약어를 너무 많이 쓴다. 그것도 약속된 약어가 아니라 개인만 알아 들을 수 있는 약어를 쓰고 있다. 병원 차원의 표준화에 앞서 의사 각자들 간의 전문용어 통일도 시급하다. 

Watson for oncology(WFO)의 경우, IBM과 뉴욕주에 있는 메모리얼 슬론 케터링 암센터(MSK)가 협력해서 수년간 WFO를 MSK 암 전문의들이 직접 학습시켰다. MSK에서 의사들이 참조하는 42개 저널, 그들의 임상 케이스, 디지털로 된 EMR 데이터 등을 활용했다. 뉴욕주의 MSK, 텍사스에 있는 엔데슨, 존슨 홉킨스. 클리브랜드 클리닉 등은 이미 EMR 데이터가 디지털화 돼 있다. 

MSK에서 일단 디지털화 된 데이터를 WFO에 학습 시킨 것이다. WFO는 암처방을 입력하면 여기에 진단한 암 처방문을 요약 정리해서 의사에게 제공하는 것이다. WFO는 복약 스케줄, 용법, 용량, 부작용, 이 처방을 추천하게 된 과학적 근거가 된 논문 등의 내용을 담은 텍스트를 의사에게 요약 정리해 준다.

의사가 인공지능 기반 솔루션에 바라는 것은 자신이 원하는 정보를 한 눈에 볼 수 있도록 해 주는 것이다. MSK 전문의들이 봤을 때, 의사에게 적합한 사용자 경험을 WFO가 제공해 준 것이다. 

길병원은 이를 그대로 도입해서 MSK에 학습된 정보의 WFO를 그대로 쓴 것이다. 길병원의 데이터를 학습시킨 것이 아니다. 새로운 데이터를 학습시키려는 것이 모두 비용과 연관된 문제이기 때문에 이를 그대로 쓴 것이다. 여기서 대두된 문제가 우리나라 의료수가와 맞는 처방이 나오느냐 등의 이슈가 있을 수는 있지만 이를 감수하고 진행해 나간 것이다. 결국 처방은 WFO가 하는 것이 아니라 의사가 한 것이다. WFO는 의사가 정확한 처방과 처치를 내릴 수 있도록 처방전을 제시해 줄 뿐이다. 

-terminology는 어떻게 통일해 나가는 데 인공지능을 어떻게 활용할 수 있을까?

전문가(의사 등) 간의 terminology 통일부터 하는 것이 우선이다. 이를 통일해서 일정한 기준을 세우는 것이 먼저다. KCD-9의 경우 category of disease이므로, 약물이 기준이 있어 mapping 된 것이다. 약자를 너무 많이 쓰는 것이 문제다. 특정 의사만 알아볼 수 있는 약자 사용을 줄여야 한다. 

Terminology를 표준화 하는 작업은 인공지능을 활용하는 것이 더  효율적일 것이다. 

-우리나라 EMR 데이터는 어떤가?

우리나라 EMR 데이터는 의사가 수기로 작성한 것을 스캔한 것이다. 대학병원조차도 이런 식으로 돼 있다. 최근 수기로 쓴 EMR 데이터를 다시 디지털화 해보자는 움직임이 있다. 지금부터라도 차세대 EMR 사업 등을 통해 이번 기회에 terminology를 질병뿐만 아니라 약물의 기준을 세우는 것이 필요하다. 이러한 기준에 mapping 시키면 된다. 

-향후 인공지능신약개발센터는 어떤 방향성으로 나아갈 계획인가?

인공지능 기반 신약개발 솔루션을 사용을 할 수 있게끔 하는 것이 초기 목표다. 현재 세계적으로 인공지능 신약개발이 초기 단계이다 보니, 개방된 것이 많다. 이러한 분야를 개발하는 곳과 협력해 사업을 진행해 나갈 것이다. 

앞서 말했듯 신약개발에 사용하는 것은 전문가용이다. 일단 선제적으로 인공지능 신약개발 솔루션 사용경험을 통해 개선점과 수요 부분을 파악하는 것이 우선이다. 

인공지능 VS 인간의 대결구도가 아닌, 인공지능을 활용해 인류의 발전을 도모하는 것이다. 전 분야에서 인공지능을 활용하는 이유이다. 신약개발 분야에서도 그 동안 인간이 감당하기 어려운 노동을 인공지능을 활용해 더 효율적으로 진행할 수 있길 기대해 본다. 

배너