“인공지능 알고리즘은 구글, 마이크로소프트 등에서 개발한 양질의 오픈소스 알고리즘이 많다. 이를 활용할 수 있는 데이터를 구축해야 한다” / 지난 7일 한국제약바이오협회에서 열린 ‘신약개발의 새로운 패러다임, 인공지능 세미나’에서 김재영 대웅제약 세포치료제개발팀 박사는 이와 같이 주장했다. 메디포뉴스는 김 박사의 발표 내용을 토대로 우리나라 제약사의 인공지능 활용 현황을 전한다.[편집자주]
◆인공지능이 가장 잘 활용될 수 있는 단계는 target identification & validation
김 박사의 발표내용에 따르면, 인공지능이 가장 잘 활용될 수 있는 단계는 discovery 단계 중 target identification & validation이다.
신약을 개발할 때는 후보물질을 발굴하는 discovery 단계가 있다. 이 단계에서 약으로 개발될 확률일 높은 후보물질을 선별하면 신약개발의 비용을 절감할 수 있다. Discovery 단계는 ▲target identification & validation(질병분석, 타겟 선정, 검증) ▲Lead identification (protein structure prediction, protein-ligand docking) ▲Lead Optimization로 분류할 수 있다. 이와 관련해 김 박사는 “대웅제약은 target identification & validation에 인공지능을 활용할 계획이다. Public data와 우리 회사 내부 데이터를 어떤 알고리즘을 활용할 수 있을지에 대한 연구를 진행하고 있다”고 밝혔다.
이외에도 대웅제약에서는 QSAR(Quantitative structure–activity relationship,구조-활성의 정량적 모델; 화학, 생물학, 공학에서 사용되는 회귀 또는 분류모델)을 활용해 단백질 구조를 예측하는 작업도 진행하고 있다. 또한 대웅제약은 임상 분야에서는 2상에서 연구에 적합한 환자를 선별하는 작업을 돕는 인공지능 연구도 진행하고 있다.
◆신약개발과 관련된 데이터를 해석할 수 있는 전문가 부재
김 박사는 “실제로 제약 분야에서 인공지능(딥러닝)을 적용하지 못 하는 가장 큰 이유는 데이터를 ‘해석’할 수 있는 전문가가 없다”고 강조했다.
이러한 문제점을 해결하기 위해 대웅제약에서는 신약개발 연구자를 대상으로 인공지능 교육을 진행하고 있다. 연구자는 인공지능 기술을 활용해 신약개발 연구에 좀 더 편리하고 다가갈 수 있는 기술을 배우고, 인공지능 전문가는 신약개발 통찰력을 배울 수 있는 장이 될 수 있다.
또한 김 박사는 인공지능 기반 신약개발 관련해서 제약사는 기존에 알고리즘을 활용하면 된다고 조언했다.
구글, 마이크로소프트, 페이스북 등은 인공지능 알고리즘을 현재 무료로 제공하고 있다. 뿐만 아니라 글로벌 기업은 신약개발 관련 유전체 데이터 등도 보유하고 있다. 구글의 클라우드를 이용해 데이터를 보관할 수 있으며 1년 동안 이런 서비스는 무료로 활용할 수 있다.
◆대웅제약은 유전체 데이터를 중심으로 사업 진행해 나갈 것
대웅제약에서 인공지능 기반 신약개발 사업과 관련해 준비하고 있는 것은 유전체 데이터를 중심으로 ▲유전체 빅데이터 시스템 구축 ▲간암 biomarker 발굴 ▲target validation ▲Drug reposition이다.
대웅제약이 4년 전 제일 처음 시작한 것은 유전체 데이터 시스템 구축이다. 대웅제약은 자신들만의 독자적인 시스템을 만들어 하둡, 스파크, 그리드와 같은 서로 다른 시스템에서도 쓸 수 있는 하나의 파일 시스템을 만들었다. 김 박사는 이러한 시스템 구축은 세계 최초라고 설명했다.
유전체 데이터 시스템 구축에 이어 대웅제약은 인공지능을 활용해 간암 바이오마커를 발굴했다. 즉, 간암의 간 단계별로 miRNA의 변화양상을 살펴보고, 인공지능을 통해 간암의 각 주기별로 mutation network를 구성했다. 이를 기반으로 머신러닝 알고리즘을 활용해 발암유전자가 될만한 마커를 선별하는 작업을 진행했다. 현재 대웅제약은 이러한 작업을 통해 축적된 데이터와 간암과 연관된 protein, pathway를 어떻게 통합해 나갈지 연구를 진행 중이다.
인공지능을 활용하는 데 있어 데이터 축적은 중요하다는 것은 뻔한 말이 돼 버렸다. 데이터 축적이 얼마나 중요한지 김 박사는 아마존의 사례를 소개했다. 김 박사의 이날 세미나 발표 내용 중 아마존 발표 내용을 그대로 옮겨 본다.
“왜 데이터가 중요한가? 아마존이 지금 헬스케어와 관련된 사업을 많이 진행하고 있다. 아마존에서 처방전을 약을 배달하는 서비스를 진행하고 있다. 아마존은 이 사업을 통해 약을 배달하는 서비스에 초점을 맞추고 있는 것이 아니라, 처방 받은 환자들이 약을 꾸준히 복용하고 있는지, 약을 복용한 후 약을 끊었다면 이 삶이 질환의 낫는지의 유무를 따져 이러한 데이터를 (인공지능에) 학습시키고 있다. (이는 신약개발 연구의 데이터로 활용될 수 있다) 심지어 아마존은 식품회사를 인수하면서 약과 식품간의 상관관계를 담은 데이터도 축적하고 있다”