한국제약바이오협회 산하 인공지능신약개발지원센터가 개소식을 갖은 뒤, 기자간담회를 열었다. 이날 기자간담회는 이동호 인공지능신약개발 플랫폼 구축 추진단 단장, 배영우 4차산업 전문위원, 이동호 인공지능신약개발지원센터 팀장, 여의주 사원이 참석했다./메디포뉴스는 이동호 단장의 답변을 통해 인공지능 신약개발의 현재와 미래를 전한다.[편집자주]
-신약개발에 AI가 구체적으로 어떻게 사용될 수 있을지에 대해서 답변해 달라. 우리나라에서 AI 활용하려면 데이터를 활용해야 하는데, 구체적으로 데이터가 얼마나 쌓여 있나?
신약개발이 연구 단계에서부터 개발단계까지 여러 단계를 거친다. 현재 신약개발의 AI는 모든 단계에서 적용되고 있다고 보면 된다. 그러나 세계적으로 특정 단계에 적용하는 형태가 보편적이다.
데이터는 public data(공공 데이터)가 많다. ▲Genome 데이터 ▲chemical library가 대표적인 public data다. 현재 신약개발 관련한 AI 회사는 public data를 활용해 알고리즘을 개발해 신약개발에 가장 적절한 추론을 제시한다. 이를 통해 신약개발 연구자들의 결정을 도와주는 역할을 하고 있다
우리나라는 최근에 각 부처가 AI를 위한 데이터 표준화가 필요하다고 생각해서 각 부처가 따로 AI를 적용하기 위한 데이터를 모으고 표준화하는 작업을 하고 있다. 과기정통부 등을 중심으로 각자가 이러한 일을 하고 있다.
데이터 표준화 작업을 거친 뒤 데이터를 통해 무엇을 할 것인가? 심각한 고민 없이 데이터를 표준화 하는 것은 낭비라고 볼 수 있다. 협회가 우리나라 제약사를 대변하는 단체로서 제약사가 실질적으로 필요로 하는 데이터 수요를 파악하는 역할을 할 수 있다고 생각한다.
다양한 데이터가 존재하고, 궁극적으로 신약개발과 관련해 표준화된 데이터 활용을 할 수 있는 분야를 먼저 찾고, 각 분야에서의 end user(최종 사용자)가 효율적으로 신약개발에 사용할 수 있는 기반을 센터가 마련하고 싶다.
- 협회가 추진단을 만들면서 협회가 회원사들에게 인공지능 신약개발 플랫폼에 대한 수요 조사를 한 것으로 알고 있다. 회원사들의 의견은 어떠한가? 또한 협회는 플랫폼을 직접 개발하는 것인가? 기존의 플랫폼을 개량하는 것인지를 명확히 밝혀 달라. 플랫폼 사용료는 어떻게 정해졌나?
협회에서 수요조사 결과를 추후 정리해서 발표할 계획이다. 일단 AI로 drug discovery를 한다는 자체를 우리나라에서 명확한 이해를 하고 있는 사람이 많지 않다고 느껴진다. 협회에 소속된 회사들도 규모가 큰 곳부터 작은 곳까지 다양하기 때문에 원하는 수요가 조금씩 다르다. 그럼에도 불구하고 신약개발을 위한 AI 활용에 대한 기대감을 확인할 수 있었다.
Deep learning이나 알고리즘은 다 나와 있는 것으로 보시면 된다. 현재 데이터를 어떻게 표준화해서 알고리즘을 우리 실정에 맞게 적용하는 것이 문제이기 때문에 플랫폼을 만드는 것 자체는 어렵지 않다고 생각한다. 하지만 얼마나 많은 데이터로 얼마나 많은 실제 활용경험이 있느냐가 중요하다. 때문에 일단 현존하는 플랫폼을 이용하면서 활용 경험을 쌓는 것을 초기 전략 단계로 가져갈 계획이다. 우리나라에서 제약사들이 실제로 기존 AI 신약개발 플랫폼을 사용하는 것을 지켜본 뒤, 이러한 경험을 바탕으로 신약개발 플랫폼을 향후 구축할 계획이다.
(인공지능 플랫폼 신약개발)에 참여하겠다는 회사가 17개 곳이다. 17개 회사, 협회, 협회와 MOU를 맺고 있는 한국보건산업진흥원과 산하 단체가 초기 비용을 같이 나눠 사용료를 지불할 계획이다.
-AI 신약개발 센터에 대한 구체적인 로드맵이 어떻게 되나?
▲우리나라 제약사의 인공지능 신약개발 플랫폼 사용 경험 축적 ▲사용 경험을 바탕으로 우리나라 제약사에 유리한 지점 파악 ▲우리나라 실정에 맞는 신약개발 인공지능 플랫폼 개발로 이어지는 구상을 하고 있다. 현재 우리나라에서도 신테카바이오, 스탠다임 등 인공지능 신약개발 플랫폼을 개발하는 회사가 있다. 이러한 회사와 협력해 세계 무대에서 우리나라 인공지능 신약개발 플랫폼을 선보이는 것이 최종 목표다.
다른 사업처럼 예산을 확정 짓고 TF를 운영하는 것이 아니다. TF는 말 그대로 금년 연말까지 2019년 정부 예산 작업이 있기 전에 어떻게 하면 가장 효율적으로 신약개발 인공지능 플랫폼 작업을 할 수 있는가를 연구하는 한 해라고 봐 주시면 좋을 것 같다.
-사용경험을 쌓기 위해 외국의 솔루션을 도입한다고 했는데, 어떤 솔루션을 도입할 계획인가? 텍스트 마이닝과 데이터 마이닝 어느 쪽에 무게를 두고 있나?
이번에 샌프란시스코 출장(AI drug discovery conference)에서 세계적으로 AI에 대해서 일정한 정도의 의문이 있다는 것을 느꼈다. 그동안 AI를 사용해서 신약개발 경험을 축적했던 다국적 제약사 조차도 ‘so what?’(그래서 무엇을 했는데?)이라는 질문을 한다. 그렇기 때문에 AI 서비스를 하는 업체들 간의 경쟁이 있는 것이 아니라 협력이 진행되고 있다. 초기 discovery를 하는 회사가 있고, clinical data를 다루는 회사가 있다. 그 회사들이 서로 다른 분야에 대해서 상대방 회사를 추천하면서 일종의 AI society가 만들어져 있는 것을 확인할 수 있었다. 한국은 아직 이 society에 들어가지 못한 실정이다.
협회가 지향하는 바는 우리나라가 이 society에 들어가 우리나라 제약사가 AI 신약개발 관련 일을 하고 싶다고 했을 때 중간에서 공정한 중재자 역할을 하는 것이다. 제약협회가 이 일에 앞장서는 이유는 우리나라 각 제약사를 한 데 모을 수 있는 역할을 할 수 있기 때문이다. 즉, 우리나라 제약사들은 아직 AI 플랫폼 업체를 접촉하고 거래를 할 만한 역량이 있는 회사가 많지 않다. 그래서 제약사가 편하게 이용할 수 있도록 도와주는 것이 초기 센터의 목적이라고 본다. 일단은 중립적 중재자 역할을 하고 싶다. 궁극적으로 우리나라가 자체 개발한 인공지능 신약개발 플랫폼을 구축하는 데 일조하는 것이 목표다.
텍스트 마이닝과 데이터 마이닝 둘 다 해야 한다. 데이터 마이닝은 어떤 데이터냐에 따라 굉장히 달라진다. 독성 보고서, 임상 데이터 등이 있는데, 각 데이터의 특성이 다양하기 때문에 데이터 마이닝을 한다기 보다, 그 데이터를 인공지능에 학습을 시켜서 신약개발 연구자에게 가장 적합한 데이터를 연구자에게 제시해 주는 것이 중요하다.
텍스트 마이닝에서 중요한 것은 ‘자연어 처리’ 기술이다. 텍스트 마이닝을 통해 내가 필요로 하는 정보를 인공지능을 통해 ‘제시’ 받는 것이다. 그래서 마이닝 하는 기술이 인공지능 기술의 밑바탕이 됐고, 이를 이용해서 인공지능을 통해 ‘제시’하는 형태로 진화해 나가고 있다. 때문에 약물 개발 연구를 위해 가설을 세울 때 인공지능에 직접적인 도움을 받을 수 있는 것이다. 그렇지 않으면 연구자가 일일이 연구해서 여러 연구 가설을 세워야 한다.
- 과학기술정통부는 기초적인 연구 데이터를, 보건복지부는 임상데이터를 많이 보유하고 있다. 제약바이오협회는 제약사 데이터를 수집하는 역할을 할 수 있을 것으로 보인다. 그러나 지적 재산권과 연관된 연구 데이터를 제약사가 쉽게 내 놓을 수 있다고 보는가?
데이터를 한 곳에 모은다고 생각하는 것이 문제가 있다. 퍼블릭 도메인 데이터가 이미 많이 있다. 그 데이터를 가지고 알고리즘을 적용해 각 제약사가 현재 가지고 있는 데이터를 알고리즘에 적용하는 모델을 생각하고 있다. 각 제약사가 그 알고리즘을 직접 활용하는 것이 가장 바람직하다. 특정 제약사가 자신이 가진 데이터를 가지고 알고리즘을 돌려 보는 것이다. 그렇기 때문에 남이 볼 필요가 없다.
궁극적으로 퍼블릭 데이터만으로 모든 추론을 하기 어렵기 때문에 IBM 왓슨 같은 경우 화이자와 전략적 협력을 했다. IBM은 화이자 데이터를 쓰면서 자신들이 개발한 플랫폼의 완벽도를 높이는 과정을 거치고 있다. 우리도 이와 같은 전략을 취하기 위해 국내 데이터를 한 그릇에 integration(통합)해야 하는데, 이때 제약사가 자신의 데이터를 공개하는 문제에 있어서 어려움은 있을 것이다. 제약사 입장에서는 데이터를 내 놓는 것이 궁극적으로 자신들이 이익을 보는 길이라고 생각될 때 자신들의 데이터를 내 놓을 것이다. 이 전 단계까지 끌고 가는 것이 우리의 목표다.
-인공지능 신약개발의 현 상황을 진단해 달라.
아직까지 so what을 물어보는 단계다. 그럼에도 불구하고 사노피, 화이자와 같은 회사가 이곳에 투자하고 있다. 미래에 대한 투자다. 지금 상황에서는 AI를 이용해 신약개발 기간이나 비용을 획기적으로 단축할 수 없지만, 앞으로 AI 신약개발의 긍정적으로 평가하고 있다. 우리나라도 상대적으로 이 분야가 다른 신약개발 분야에 비해 늦지 않기 때문에 빨리 뒤 쫓아가려는 것이다.
AI 신약개발 플랫폼 회사 모델은 두 가지다. ▲자신들의 인공지능 플랫폼을 통해 신약후보 물질을 선별해 회사에 건네주는 형태인 사업모델이 있고.(물질을 찾아 license out하는 형태) ▲신약개발의 전 과정을 아우르는 모델이 있다. 어느 길이 효율적인지 아직 모르겠다.
미국은 genome analysis를 미국이 주도적으로 했다. 그 다음에 인체 모든 유전 정보와 질병과 연관된 정보들이 다 있다고 사람들은 믿는다. 이는 모두 후향적 데이터다. 이미 진행된 일을 가지고 역추론 한 것이다. 미국은 현재 하고 있는 작업은 인구 100만명을 지금부터 10-15년을 추적하는 연구를 정부 주도로 하고 있다. 그래서 100만명의 메디컬 데이터, 유전자 데이터, 생활습관까지 모으고 있다. 미국은 국가 주도로 데이터를 생산하고 있다. 이를 통해 과거 데이터를 근거로 미래 데이터를 추측하는 것이다.
현재 우리나라에서 하고 있는 것은 전형적인 데이터 수집은 기존에 있는 데이터를 활용해서 전향적으로 어떻게 할 것인지에 대한 논의는 거의 이뤄지지 않고 있다. 전문가는 많지만 실제로 바이오 인포메틱 전문가는 우리나라뿐만 아니라 세계적으로 전문가가 부족하다. 최종 사용자(제약사 신약개발 담당자 등)의 수요를 반영하지 못 한 채 과제로 끝내는 AI 플랫폼 사업을 해서 되겠는가?
-센터가 궁극적으로 지향하는 것은 무엇인가?
센터가 하는 일은 ‘중립적 중재자’ 역할이다. 협회의 포지션과 비슷한 것. 다만 협회는 중립적인 것이 아니라 이익집단을 대변하는 단체다. 이익집단을 대변하다 보니 제약사들이 신기술을 도움을 얻어 회사의 수익을 창출하는 제약협회가 직접 추진하면 이 사업의 성격과 맞지 않다고 판단해 따로 센터를 설립한 것이다.
추진단의 가장 중요한 가치는 ‘중립성’이다. 누구라도 믿을 수 있어야 한다. 최종적으로 세계를 상대로 deal을 진행시키는 것이 최종 목표다.
-약물 분야가 데이터를 비정형 데이터가 많다고 들었다. 약물 분야에 비정형 데이터가 많은 것이 인공지능 플랫폼 활용에 유리한가?
대부분 데이터가 비정형 데이터다. 정형 데이터는 RDB 형태로 메트릭스 형태로 돼 있는 것이다. 연구개발 때 쓰이는 논문, 약물 특허정보, 독성정보 모두 비정형 데이터다. 약물 데이터에도 물론 성분명 등과 관련해 일부 정형 데이터가 있을 수 있다. 그러나 대부분의 데이터는 비정형 데이터다.
비정형 데이터를 학습시킨다. 학습을 시킨다는 것은 인공지능을 통해 비정형 데이터를 (입력해) 데이터 간의 네트워크를 형성시켜 나름대로의 정형화 작업을 하는 것이다. 이 정형화 된 데이터를 가지고 인공지능이 사용하는 것이다. 예전에 우리가 표준화 한다고 하면 사람들이 모여 표준화 작업을 해놓으면 시간이 지나면 또 (그 상황에 맞는) 표준화를 해야 했다. 이 표준화를 지속적으로 하고 있는 것이 현재 상황이다. 인공지능에 가지고 있는 기대는 사람이 공을 들여 표준화 작업을 하지 않더라도 인공지능을 활용해 비정형데이터를 표준화 과정의 시간과 비용을 단축시키는 것이다.
분명 아직 갈 길은 멀다. 신약개발과 관련한 인공지능 알고리즘이 모두 공개된 것은 결코 아니다. 세계적으로 인공지능 플랫폼을 개발하고 있는 벤처 기업은 자신들의 기술 노하우를 공개하는 문제와 직결되기 때문에 자신들의 성과를 논문으로 잘 출판하지 않는 것이 현 실정이다. 그럼에도 불구하고 신약개발 인공지능 플랫폼에서 fast follower가 되겠다는 계획을 밝힌 이 단장의 말은 깊이 새겨볼 만한 대목이다.