최근 보건의료연구와 미래예측을 위한 빅데이터 공개가 화두다.
특히 국민건강보험공단과 건강보험심사평가원이 보유 자료를 놓고 어느 정도가지 교류 협력이 가능한가에도 관심이 모이고 있다.
공단과 심평원이 보유 데이터에 대해 공통적으로 공개의 필요성과 타 기관과의 교류의 필요성에는 공감하고 있다. 문제는 제도적, 기관간 갈등으로 협조체계를 유지하기가 쉽지 않다는 것이다.
때문에 이들 기관의 자료를 활용해 연구하려는 연구자는 시간과 비용, 연구성과에서 효율적이지 못한 반쪽 결과를 낼 수밖에 없는 실정이다.
최근 공단은 보유하고 있는 빅데이터를 활용해 구축한 표본 DB를 내년 상반기중 공개할 계획이라고 밝힌 바 있다.
고려대의대 의학툥계학교실 이준영 책임연구원은 ‘국민건강정보 DB를 활용한 표본 DB구축’을 주제로 한 발표를 통해 공단이 보유하고 있는 빅데이터를 활용해 ▲표본코호트DB 설계 및 구축(2002~2010년까지 표본코호트DB) ▲희귀질병 전수 DB 구축(3개 희귀난치성질환에 대한 2002~2010년까지 전수DB) ▲검진DB 구축(5회 연속 국가건강검진 수검자 240만명 대상 2001~2010년간 전수DB) 등의 건강보험DB(NHIDB)를 구축했다고 밝혔다.
특히 구축된 NHIDB를 통해 ▲건강보험자료에 대한 접근성과 편의성 확대 ▲자료의 공익적 활용도 향상 ▲각종 학술연구 질 향상 기여 및 수준 높은 연구결과물 양산 ▲보건의료분야 정책 수립에 도움 및 보건의료산업 활성화에 기여 ▲개인 맞춤형 서비스 개선을 위한 창의적 도구 개발의 초석 마련 ▲국민 편의성 확대 및 삶의 질 향상을 위한 기초 도구 틀 마련 등을 기대했다.
이러한 가운데 공단이 정보의 공개 범위 등에 대한 논의가 필요하다는 의견도 제시됐는데 업체의 홍보자료 등사업 목적으로 악용될 수 있어 산출통계의 활용 방안에 대한 방향 설정과 연구 결과물의 책임 소재가 명확해야 한다는 것이다.
이와 함께 공단 데이터만의 연구로 인한 결과의 왜곡과 공단의 데이터를 단순한 외부 공개가 아닌 전략적인 활용해야 한다는 필요성도 제기됐다.
이같은 분위기는 심평원도 마찬가지였는데 데이터를 단순히 수집·축적하기 보다는 무엇을 분석할 지 분명한 목적의식 등이 필요하며, 공공기관 데이터 개방 및 공유 기반확산을 위해 공단과 정보공유를 통해서라도 국민위한 정보가 제공돼야 한다는 지적이 있었다.
반면 개인정보에 대한 보안과 부정확한 데이터 산출시 책임소재 여부 등도 준비돼야 한다고 강조됐다. 여기에 개인정보보호, 소유권, 저작권 등을 위한 제도적 기반마련도 제기됐다.
심평원은 빅데이터를 활용해 맞춤형 건강정보를 제공하겠다고 밝혔는데 1단계로 자기진료정보를 조회할 수 있어야 한다고 밝혔다. 2단계로는 부가가치형 자기진료정보(진료내역정보+요양기관정보+의학, 의약품, 장비·재료 등 정보연계)와 3단계로 맞춤형 진료/건강정보 조회·관리를 할 수 있는 방향으로 가야한다고 설명했다.
또 보건의료 연구자에 요양급여와 요양기관·심사평가·질병·의약품·의료자원 등 원천데이터를 활용해 연구목적에 따라 맞춤형 데이터를 직접 제공하는 방식으로 다년간의 코호트자료를 제공하고, 통계포털시스템을 구축해 진료비 청구 현황과 진료처방현황, 요양기관현황, 수진자현황 등 누구나 쉽게 찾아보고 접근할 수 있는 웹 서비스 환경을 구축할 예정이라고 밝혔다.
심사평가원은 ▲청구·심사·평가정보: 232GB(일) ▲DW, DM 정보: 254TB(일, 주, 월) ▲DUR 정보: 2.9TB(수시) ▲의약품정보: 22TB(월, 분기)의 데이터를 보유하고 있다.
건강보험공단은 ▲자격 및 보험료 자료 0.8GB(1년 자료: 0.1GB)-910만341건 ▲명세서: 54.6GB-1억6225만8259건 ▲진료내역: 134.3GB-5억2343만6781건 ▲상병내역: 38GB-1억7611만8598건 ▲처방전상세: 68GB-2억5149만8936건 ▲건강검진자료: 0.8GB(1년 자료: 0.1GB)-52만7067건의 데이터를 보유하고 있다.
두 기관의 데이터는 현재 환자를 중심으로 연구학적 정보에 기반한 추출을 하고 있는데 공단의 경우 성별·연령대·자격·소득수준에 대한 자료를 보유하고 있어 층별, 총의료비의 변동계수를 고려해 자료의 대표성이 있다는 장점이 있다.
여기에 많은 수의 층(1476개)을 사용해 기타 변수들에 대한 대표성이 보장되며, 환자 중심의 코호트 자료 구축으로 인구학적 부분을 고려한 에피소드 자료가 제공이 가능하다. 여기에 의료급여자가 포함된 전국민 자료를 보유하고 있고, 희귀질병 연구가 가능하며, 건강검진 효과 평가가 가능하다.
반면 9개년 간의 제한적 코호트로 표본 코호트 DB 자체의 규모도 커서 사용자 편의성이 낮고 비급여자도 없다는 단점이 있다. 표본수는 건강보험자격자 전국민중 약 100만명.
심평원의 경우는 성별·연령대별 자료를 보유하고 잇는데 분산에 따라 입원, 외래의 비율을 고려해 자료의 효율성이 증대되며, 환자의 인구학적 부분을 고려한 에피소드자료가 제공이 가능하다.
단점으로는 세부자료와 비급여자료가 없다는 것이다. 표본수는 입원환자 70만명과 외래환자 50만명이다.