신약개발에서 AI 혁신
목암생명과학연구소 신현진
김일훈
김호철
김효진
1. 신약개발 생산성 저하와 AI 역할의 기대
신약개발은 개발 비용이 많이 들고 개발 기간이 길며, 실패 확률이 높은 연구 분야 중 하나로 지속적인 효율성 저하 문제가 있다.
글로벌 제약 산업에서 신약 하나를 시장에 출시하는 데 평균 10~15년, 20~30억 달러 비용이 소요되며, 후보물질이 임상 단계에 도달할 확률은 10% 미만에 불과한 것으로 알려져 있다.
전통적인 신약개발의 실패 원인으로는 약물의 효능 부족(25%), 안전성(24%), 상업 및 운영적 문제(24%) 등으로 파악되고 있다[1].
신약개발의 효율성을 높이고 실패 원인을 극복하기 위해 최근 AI(인공지능)의 활용 가능성이 대두되었으며 이를 통해 신약개발의 패러다임이 전환되는 추세이다.
AI를 활용할 경우, 그림 1과 같이 신약개발에 소요되는 시간과 비용을 줄이며 성공 확률을 높일 것으로 기대하고 있다. 실제 실험실에서 수행해야 하는 신약 후보물질 탐색, 약물의 특성 예측, 약물 분자의 구조 최적화 등에 수반되는 다양한 테스트를 AI가 대체함으로써 신약개발 과정에서의 시행착오를 줄일 수 있다는 것이다.

신약개발에서 활용되는 AI 기술은 데이터 및 개발 상황에 따라 다양한 기술이 접목되어 활용되고 있다. 신약개발 분야는 이미 생성형 AI, 연합학습(federated learning)과 같은 최신기술(state-of-the-art, SOTA)이 적용되고 있으며 크게 예측, 최적화, 생성의 세 가지 핵심 영역에서 기여하고 있다[2].
본 글에서는 신약개발 분야에 활용되는 AI 기술의 예로써 현재 목암생명과학연구소에서 개발 중인 ADME/T(흡수, 분포, 대사, 배설/독성) 예측, mRNA 치료제 개발시 서열 최적화 및 LNP(lipid nanoparticle) 디자인을 위한 AI 모델에 대해서 다루고자 한다. 더불어 주목받고 있는 신약개발 분야인 유전자편집 치료제에 활용되고 있는 AI 기술 활용 트렌드를 살펴볼 것이다.
2. 신약 개발에 활용되고 있는 AI 기술
(1) ADME/T 예측을 위한 AI
앞서 기술되었듯, 성공적인 신약개발의 핵심은 시간과 비용의 절감에 있다.
신약개발 과정에서 가장 많은 시간과 비용이 드는 구간은 임상과 비임상 과정이다. 개발 중인 약물이 사람이나 동물의 체내에서 흡수, 분포, 대사, 배설이 어느 정도의 시간 동안 어떻게 일어나는지, 그리고 체내 독성 여부에 대한 예측이 가능하다면 그 과정에 요구되는 실험을 최소화할 수 있다.
이와 같은 취지로 ADME/T 예측을 위해 AI 기술의 활용은 필수불가결한 상황이다. 하지만 이를 위해서는 수백만 개 이상의 축적된 실험 데이터가 필요한데 개별 기관이 수행할 수 있는 실험으로는 이를 충족시키기 어려운 것이 현실이다.
이런 문제를 해결하기 위해서는 각 개별 기관에 산재된 데이터를 모아 통합된 데이터 세트를 구성하여 AI 모델의 학습을 진행해야 하지만 이렇게 자료를 한 곳에 모으는 것 역시 각 기관별 보안 이슈로 인하여 쉽지 않다.
이런 난점을 극복하기 위하여 과학기술정보통신부와 보건복지부는 2024년 4월부터 인공지능 기반 신약개발 가속화 프로젝트, 일명 ‘K-MELLODDY(Korea Machine Learning Ledger Orchestration For Drug Discovery)’ 사업을 진행해오고 있다(https://kmelloddy.org).
연합학습이란 분산된 데이터를 한 서버에 모으지 않고, 기관들의 데이터가 존재하는 개별 서버 및 기기에서 기계학습(machine learning)을 실행하는 방법을 일컫는다. 이렇게 기관별 보안성을 침해하지 않으면서도, 학습된 모델을 공유하고 업데이트함으로써 하나의 공통 모델을 개발하는 것이다. 연합학습을 통해 AI 모델의 예측 정확도를 높이고 저장 용량 문제까지 해결할 수 있을 것으로 기대되고 있다.
이미 의료 분야에서는 연합학습 기반 진단 모델이 개발돼, 그동안 걸림돌로 작용해오던 개인정보 활용 이슈를 극복할 수 있는 사례가 발표되고 있다.
K-MELLODDY 프로젝트에서 수행 중인 연합학습의 방법은 간략히 아래 그림2와 같다. 화합물에 대한 공공 빅데이터를 AI가 학습하도록 하여 도메인 지식을 갖춘 기초 모델(foundation model)을 구축하고 여기에 ADME/T의 공공 데이터를 학습하여 ADME/T에 대한 이해도를 높인다. 이후 각 기관별 데이터(private ADME/T data)를 추가로 개별 학습함으로써 AI 모델의 정확도를 높이는 전략이다.

본 프로젝트에서 개발 중인 기초 모델은 LLM(Large Language Model) 및 GFM(Graph Foundation Model)을 활용하고 있다. 이들을 하나로 연결해 두 모델의 강점을 결합, 강화하고 약점을 상호 보완해 더욱 정확한 예측을 할 수 있도록 앙상블(ensemble) 기법을 사용하고 있다.
(2) mRNA 백신/치료제 개발을 위한 서열 최적화 및 고효율 LNP 분자 설계
몇 해 전 전세계를 강타한 COVID-19과 함께 mRNA 기반 백신이 부각되면서 mRNA 백신 개발을 위한 AI 모델들이 학계에 보고되고 있다. 이 중 일부는 사노피(Sanofi)와 같은 글로벌 제약회사에서 독점적으로 개발해 상용화되기도 했다[3].
그림 3. mRNA codon combination (COVID-19) 출처: Nature, 621(7978), 396 - 403
현재 목암생명과학연구소도 AI를 활용한 codon 및 비번역부위(UTR)의 서열 최적화 연구를 수행하고 있다.
▲발현효율 향상-mRNA가 약리작용을 일으킬 수 있는 기관에 도달시 세포 내에서 다량의 타겟 단백질 발현, ▲구조안정성 향상–mRNA의 안정적 유지기간 연장, ▲면역원성 감소 - 세포 내 면역반응 최소화 등을 목표하고 있다.
특히 mRNA 서열 최적화를 위해 AI를 접목한 다양한 접근 방식을 고려하고 있다. 핵산 서열 역시 A/U/G/C 4가지 문자로 구성된 언어 중 하나로 취급할 수 있다는 점에 착안하여, 이미 개발된 언어모델을 다량의 mRNA 서열 데이터로 학습시켜 mRNA 특성 예측, 최적화 및 디자인 등을 수행할 수 있는 mRNA 기초모델을 개발 중이다.
또, mRNA가 약리작용을 일으킬 수 있는 세포까지 안정적으로 안전하게 이동시키는 역할을 하는 LNP의 효용성을 높이는 연구도 주목할 만하다. 최근 학계에서는 효과적인 LNP 개발을 위하여 기계학습을 활용해 디자인, 합성, 평가를 신속하게 수행할 수 있는 AI 모델들이 연구되고 있다[4][5].
목암생명과학연구소 역시 AI를 활용한 LNP 지질 조성, 특히 mRNA가 endosome에서 세포질로 전달될 수 있는 역할을 담당하는 이온화지질의 화학구조를 생성하는 연구를 수행 중이다.

그림 4. AI를 활용한 LNP 연구
또한, 앞서 기술한 ADME/T 예측모델과 마찬가지로, AI 모델이 이온화지질의 물리화학적 특성을 예측하도록 설계하고, 이에 더해 최적의 mRNA 전달 효율을 가지는 새로운 분자(novel molecule)를 만들어내는 생성형 AI 모델도 개발하고 있다.
3. 유전자 편집 기술에서의 AI 기술 활용
AI는 이미 신약개발 분야의 mRNA 탐색, 신약 후보물질 발굴, LNP 관련 연구에서 강력한 도구로 활용되고 있고 점차 그 범위를 확대해 나가고 있다. 이러한 추세는 유전자편집 연구 분야도 크게 다르지 않은 것으로 보인다.
특히 CRISPR-Cas9 기술의 효율성, 정확성 및 안전성을 더욱 향상시키기 위한 지속적인 연구가 필요한 현재 단계에서 표적 유전자 선택, 편집 효율 최적화, 편집 후 복원 메커니즘 분석 분야에서의 AI 기반 예측 모델 활용 연구는 이미 혁신적인 결과를 도출하고 있다[6].
최근 국내에서도 CRISPR-Cas9을 이용해 유전자 절단 뿐 아니라 새로 보충할 유전정보까지 교정이 가능한 차세대 유전자편집 기술인 프라임 편집(prime editing)의 효율을 예측할 수 있는 AI 모델이 개발되기도 했다[7].
지난해에는 AI 기반 단백질 설계 스타트업인 프로플루언트(Profluent)가 세계 최초의 오픈소스 AI 생성 유전자 편집기 ‘OpnCRISPR-1’를 출시했다. ‘ChatGPT’와 같은 방식으로, LLM 모델을 사용해 다량의 생물학적 메커니즘 분석 데이터를 학습해 새로운 유전자 편집기를 만드는 것이다.
이처럼 AI는 많은 연구자들의 지속적인 노력으로 유전자편집 연구의 여러 측면에서 혁신적 변화를 주도하고 있다.
4. 미래 전망
많은 제약사, 연구소 등이 AI를 통해 신약개발 관련 아이디어를 얻고, 연구 속도를 높이고 있다.
단, 신약개발에 있어 AI에 대한 기대가 큰 만큼 아직 해결해야 할 과제도 많으며 특히 가장 큰 장애물은 관련 지식의 한계와 이로 인한 불확실성, 일반화의 부족 등이다.
이러한 한계점을 극복하기 위해서는 data-driven AI와 같은 귀납적 접근 및 physics-based model을 활용한 연역적 접근 방식에 더해 새로운 모달리티, 폭넓고 정교한 파운데이션 모델, 멀티 모달 파운데이션 모델을 generalist AI로 통합해야 한다.
대표적인 generalist AI인 구글(Google)의 ‘PaLM-E’와 같이, 복잡하고 다중적인 문제에 대해 사용자가 납득 가능한 추론을 AI 모델을 통해 풀어가는 것이 필요하다. 이미 의료 분야에서도 ‘Med-PalM-M’으로 추가적인 파인튜닝(fine-tuning) 과정 없이도 영상의학과, 피부과, 병리과 등 다양한 진료 분야에 대해 14가지 태스크를 수행할 수 있게 됐다.
AI는 향후 수년 새 여러 분야에서 지금보다 훨씬 더 강력한 도구로 발전할 것이고 유전자편집 기술을 포함한 신약개발 분야에서의 활용 역시 현재로서는 상상이 불가한 정도의 정밀도와 범용성을 갖게 될 것이다.
신약개발과 AI 기술의 융합 접목은 현대 의학의 난제인 희귀난치성 질환 정복, 개인 맞춤형 치료에서 더 나아가 유전체 수준에서 질병을 예방하고자 하는 미래 의학을 현실로 만드는 핵심 동력이 될 것으로 기대한다.
이를 위해서는 지속적인 학제간 협력과 연구투자를 통해 AI 기반의 새로운 치료 패러다임을 선도적으로 개척해 나가야 할 것이다.
참고문헌
[1] Richard K. Harrison. et al. (2016). Phase II and phase III failures: 2013 – 2015. Nature Reviews Drug Discovery. 15, 817-818
[2] 정혜윤 책임연구원 외. (2023). 인공지능(AI) 활용 신약개발 경쟁력 강화 방안
[3] He Z hang. et al. (2023). Algorithm for optimized mRNA design improves stability and immunogenicity. Nature. 621:396-403
[4] Yue Xu. et al. (2024). AGILE platform: a deep learning powered approach to accelerate LNP development for mRNA delivery. 15:6305
[5] Ding, D.Y. et al. (2023). Machine Learning-guided Lipid Nanoparticle Design for mRNA Delivery. arXiv:2308.01402 [q-bio.BM] .
[6] Tyagi, N. et al. (2020). CRISPR-Cas9: a journey of being an era-changing technology. Cell & Bioscience, 10(1):142.
[7] Goosang Yu. et al. (2023). Prediction of efficiencies for diverse prime editing systems in multiple cell types. Cell. 186, 2256-2272
* 본 기고문은 과학기술정보통신부에서 시행한 「유전자편집·제어·복원기반기술개발사업」수행의 일환으로 작성되었습니다.
* 본 내용은 유전체편집연구지원사무국(GERC)의 의견과 다를 수 있음을 밝힙니다.
* 인용, 발표하실 때에는 반드시 출처를 밝혀주시기 바랍니다.