2024.03.29 (금)

  • 구름많음동두천 20.9℃
  • 구름조금강릉 22.7℃
  • 흐림서울 21.7℃
  • 맑음대전 24.6℃
  • 맑음대구 25.7℃
  • 구름조금울산 23.8℃
  • 맑음광주 23.4℃
  • 구름조금부산 25.1℃
  • 맑음고창 23.7℃
  • 구름많음제주 23.0℃
  • 구름많음강화 21.1℃
  • 구름조금보은 22.0℃
  • 맑음금산 23.5℃
  • 구름조금강진군 24.4℃
  • 구름조금경주시 25.0℃
  • 구름조금거제 24.9℃
기상청 제공

인터뷰

“인공지능으로 항암제 개발 주기 앞당긴다”

양현진 박사가 말하는 항암제 가상실험 인공지능 플랫폼 ‘CDRscan’

지난 11일 네이처(Nature) 자매지 사이언티픽 리포트(Scientific Report)에 신테카바이오의 유전체 빅데이터 기반 인공지능 플랫폼 CDRscan(Cancer Drug Response scanning)에 관한 논문이 게재됐다.(논문명; Cancer Drug Response Profile scan(CDRscan): A Deep Learning Model That Predicts Drug Effectiveness from Cancer Genomics Signature) 논문에 게재된  CDRscan은 폐암, 간암 등 다양한 암에서 유래된 약 1,000개 암세포주(cell line)를 대상으로 ‘가상 약효 예측’을 수행하는 인공지능 딥러닝 모델이다./메디포뉴스는 이번 논문의 제1저자로 참여한 신테카바이오 양현진 박사를 27일 만나 ▲CDRscan이 항암제 개발에 어떻게 적용되고 ▲제약사 등에서 이러한 모델을 어떻게 활용할 수 있는지 들어봤다.[편집자주] 




- CDRscan에 대해서 간략히 소개해 달라. 

인공지능을 활용해 가상으로 암세포주의 항암제 반응성을 실험하는 모델이다. 

면역항암제를 논외로 하고, 항암제는 기본적으로 타겟으로 하는 단백질에 결합(binding)해 세포의 경로(pathway)의 여러 작용을 억제(inhibition)하는 것을 목표로 한다. 즉, 항암제는 우선 세포의 경로를 억제할 수 있는 타겟 단백질(target protein)에 결합해야지만 약물로 작용할 수 있다. 

이후 ▲결합 여부를 스크닝 한 뒤에 ▲후보들이 추려지면 이를 대상으로 대표적인 암 세포주에 세포 실험을 한 뒤 ▲추려진 물질을 대상으로 독성실험과 동물실험 등을 거친다. 이러한 과정은 많은 비용과 시간이 소요된다. CDRscan을 이용한 가상 세포실험을 통해 광범위한 암세포주와 화합물을 좁혀 나갈 수 있다.     

- 인공지능 모델 CDRscan은 어떤 데이터를 학습했나? 

▲COSMIC(Catalogue of Somatic Mutations in Cancer) ▲ GDSC(Genomics of Drug Sensitivity in Cancer) 공개 데이터를 학습시켰다. 

COSMIC은 암환자부터 시작해서 모든 암에 관련된 유전체서열(sequencing) 정보와 체세포 변이를 망라한 데이터베이스(DB)다. COSMIC의 여러 개 세부 프로젝트 중, COSMIC cell line 프로젝트가 있다. 세포주 약 1,000개를 선별(여기에 해당하는 암종은 30종)해, 이 세포주의 유전체를 모두 시퀀싱(sequencing)한다. 이후 세포주의 변이(mutation)을 각각 추려 공개한 데이터베이스다. 

GDSC는 약 260여개의 항암제의 1000개 암세포주 각각에 대한 반응성 데이터다. 이 데이터는 ▲현재 처방되고 있는 항암제 화합물 ▲임상단계 있는 항암제 화합물 ▲항암제 연구단계 물질로 구성돼 있다.

-CDRscan은 학습된 데이터를 바탕으로 가상시험을 어떻게 수행하는 것인가?

CDRscan에 약 1,000개의 세포주와 265개의 항암물질(compound)에 대한 반응성 수치(IC50)를 답할 수 있도록 학습시키는 것이다. 즉, 인공지능 모델(CDRscan)은 세포주와 항암물질 하나가 쌍을 이룬 데이터를 학습한다. CDRscan은 약 26만 5,000개의 데이터를 학습한 것이다.  

-신약개발에 참여하는 연구자가 CDR scan을 이용하면 어떤 결과값을 받아 볼 수 있나?

개발자는 IC50(half maximal inhibitory concentration) 값을 받아 볼 수 있다. 이 모델에서 IC50는 암세포를 절반 가량 죽이는 화합물(compound)의 농도다. 즉, IC50 값을 통해 세포 수준에서 항암효과 유무를 측정할 수 있는 것이다. 

현재 개발된 CDRscan은 약 1,000개의 암세포주와 암종 25개를 대상으로 가상세포 실험을 진행한다. 신약개발 연구자는 자신이 연구하고 있는 후보물질(compound)를 CDRscan에 입력하면 IC50 값을 받을 수 있다. 가령, 폐암에 관한 항암제를 개발하고 있었는데, CDRscan을 돌려본 결과 간암에도 효과가 있다는 예측값이 나오면 간암과 관련된 세포실험과 동물실험도 병행해 적응증을 확대해 나갈 수 있다. 

신약 재창출, 적응증 확대에도 CDRscan이 도움을 줄 수 있다. 

-논문에서 약 90% 정확성을 보인다고 명시돼 있다. 정확성은 어떻게 측정되나?

인공지능 모델은 빅데이터를 가지고 학습을 한다. 이때 인공지능이 학습을 할 때 데이터의 일부를 항상 떼 놓고 시작한다.  미리 떼 놓은 데이터는 인공지능 모델이 학습할 때 한 번도 본 적이 없는 데이터다. 대부분의 나머지 데이터를 가지고 학습을 마친 뒤, 모델이 만들어졌는지 검증하기 위해 학습할 때 한 번도 본 적이 없는 데이터를 넣어준다.



정확도가 얼마나 되는지 판단하고, 정확도가 낮다면 모델을 개선하는 작업을 거친다. 이렇게 했을 때 최종적으로 개발된 모델의 정확도가 92% 였다. 

-CDRscan은 항암제 개발의 어느 단계에 활용할 수 있는 것인가? 

CDRscan은 인공지능을 활용한 패턴분석을 통해 약물 반응성을 예측하는 모델이다. 암세포주 데이터를 학습시킨 것이기 때문에 암 조직 단계 예측까지는 어렵다. 암 조직마다 다양한 세포주의 유전자가 있기 때문이다. 실제 암환자의 세포 조직을 들여다 보면 동일한 세포로 돼 있지 않다. 아무리 CDRscan이 정확하게 예측한다 할지라도, 임상에 직접 적용하기엔 한계가 분명 있다. 

CDRscan 항암제 개발의 앞 단계에 활용할 수 있는 모델이다. CDRscan 예측값을 통해 이후 동물실험, 임상실험 등을 진행해 나가야 한다. 

다음 편에서는 국내 제약사들의 구체적인 CDRscan 활용법 등을 전한다.