국립암센터, AI 기반 자연어처리로 병리보고서 정보 자동 추출 성공 연구성과 발표

2025-04-03 10:24:53



 국립암센터(원장 양한광)는 인공지능(Artificial Intelligence, AI) 기반 자연어처리 기술을 통해 유방암 병리보고서 내 주요한 정보들을 추출하는 것이 가능하다고 3일 밝혔다. 

자연어 처리(Natural Language Processing, NLP)는 기계 학습(Machine-Learning) 및 심층 학습(Deep Learning)을 사용하여 컴퓨터가 인간의 언어를 이해하고 소통하도록 돕는 인공 지능(AI) 기술이다.

 병리보고서는 환자의 조직세포 등을 검사하여 보고하기 위해 작성하는 문서로, 종양의 등급과 암의 진행정도를 나타내는 병기(pathologic stage)가 포함되어 있어 암의 예후 예측 및 치료를 결정에 매우 중요한 정보를 제공한다. 하지만 자유입력 형식의 반정형 데이터로 작성되기 때문에 그동안 활용이 쉽지 않았다. 

2020년 9월 제정된 보건의료데이터 활용 가이드라인에서는 자유입력정보는 가명처리 가능 여부가 유보되어 활용이 불가능했으나, 최근 개정된 가이드라인에 따르면 진료기록 등 자유입력 데이터는 자연어처리 기술 등을 활용해 정형데이터로 변환 후 가명처리하여 활용할 수 있도록 안내하고 있다.

 국내 의료기관들은 임상 데이터셋을 구축하여 연구에 활용하고자 노력을 하고 있으나, 대부분의 의료기관들은 병리보고서 내 주요 정보들을 정형화하는데 한계가 있었다. 

연구팀은 수작업으로 데이터를 정형화하거나 일정한 패턴을 기반으로 데이터를 추출하는 정규 표현식(Regular Expression) 방법이 노동집약적일 뿐만 아니라 지속적으로 누적되는 데이터를 최신화하기 어렵다는 한계를 극복하고자 자연어처리 기술을 적용하였다.

 연구팀은 자연어처리 기술을 활용하여 병리보고서의 주요 정보를 자동으로 추출하는 연구를 수행하였다. 구글에서 공개한 사전 훈련된(Pre-trained) 자연어처리 언어모델(BERT-basic, BioBERT, ClinicalBERT)에, 국립암센터의 1,215개 유방암 병리보고서를 추가 학습(fine-tuning)하여 최종 모델을 개발하였다. 그 결과, 모든 모델에서 0.96 이상의 정확도를 보였다. 

국립암센터 데이터활용팀 박필립 연구원은 “자연어처리 모델이 기존의 정형화 방법인 정규표현식보다 높은 정확도와 빠른 속도로 병리보고서 정보를 정형화할 수 있음을 확인했다”며, “향후 병리보고서 형태가 달라지더라도 추가 학습을 통해 유연한 대응이 가능하다고 설명했다.

김현진 데이터결합팀장은 “이번 연구는 최신 자연어처리 기술을 활용하여 유방암 병리보고서의 주요 항목들을 성공적으로 추출함으로써 의료 자유입력 정보의 유연한 활용을 위한 첫걸음을 내딛었다”고 밝혔으며, 최귀선 국가암데이터센터장은 “향후 다양한 암종으로 확대하고 다기관과의 협력을 통해 검증을 진행하여, 더욱더 연구자와 환자들에게 실질적인 도움이 될 수 있는 모델로 개선되기를 바란다”고 말했다. 

 본 연구는 최근 SCI급 국제학술지 ‘플로스 원(PLOS ONE)’에 발표되었다. 



김준영 기자 kjy1230@medifonews.com
< 저작권자 © Medifonews , 무단전재 및 재배포금지 >
- 본 기사내용의 모든 저작권은 메디포뉴스에 있습니다.

메디포뉴스 서울시 강남구 논현로 416 운기빌딩4층 (우편번호 :06224) 정기간행물 등록번호: 서울아 00131, 발행연월일:2004.12.1, 등록연월일: 2005.11.11, 발행•편집인: 진 호, 청소년보호책임자: 김권식 Tel 대표번호.(02) 929-9966, Fax 02)929-4151, E-mail medifonews@medifonews.com