국내 의료기관에서 생성되는 전자의무기록의 약 80%는 자유서술 형태의 비정형 문서로, 한국어와 영어 의학 용어가 혼합되어 있다. 기존 단일 언어 기반 인공지능 모델은 이러한 혼합 언어 환경에서 분석 정확도가 저하되는 한계가 있었다. 이에 질병관리청 국립보건연구원은 한·영 이중언어 인공지능 모델을 개발하여, 국내 병원 전자의무기록을 보다 정확하게 분석하고 활용할 수 있도록 하였다. 해당 연구는 ‘비정형 의료 데이터 분석을 위한 인공지능 알고리즘 기술 개발 사업’을 통해 고려대학교 의과대학과 공동으로 수행되었다.
이번에 개발된 이중언어 인공지능 모델은 한·영 의료 어휘 체계와 말뭉치를 활용하고, 추가 사전학습을 통해 성능을 높였다. 모델은 의료현장에서 수집한 흉부 CT 판독문에 적용되어 다중 질환 분류 분석에서 최대 종합정확도 0.94를 달성했다. 기존 KM-BERT, bi-KM-BERT, bi-BioBERT 등과 비교하여 암과 폐렴 판별에서 높은 F1 점수를 기록했다. 국립보건연구원은 코호트 기반 멀티모달 데이터를 활용한 인공지능 모델 개발 연구를 지속하며, 연구자와 의료기관이 활용할 수 있는 의료 인공지능 데이터와 연구 생태계 조성을 지원할 계획이다.
🎯 metaqsol opinion: