[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 동향
에스에프씨
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
BioLab 김한준 교수
전체보기 뉴스 Bio통신원 Bio통계 BRIC이만난사람들 웹진(BioWave)
BRIC View
최신자료 동향리포트 학회참관기 리뷰논문요약 BRIC리포트 외부보고서
인공지능을 활용한 바이오 신약개발 동향
인공지능을 활용한 바이오 신약개발 동향 저자 윤한울, 정희진 (홍익대학교)
등록일 2023.04.21
자료번호 BRIC VIEW 2023-T08
조회 2842  인쇄하기 주소복사 트위터 공유 페이스북 공유 
요약문
컴퓨터 기술의 발달과 함께 딥러닝과 같은 최신 인공지능 모델이 등장하며 인공지능은 컴퓨터 공학, 로봇, 물리학, 화학, 생물학 등의 분야뿐만 아니라 신약개발에 대해 접목되어 활발히 연구가 이루어지고 있다. 최근 개발된 알파폴드가 높은 신뢰성을 기반으로 하여 단백질의 입체 구조를 제시하면서, 인공지능에 대한 바이오 신약개발에 대한 관심과 기대가 더욱 높아졌다. 본 원고에서는 현재 사용되는 최신 인공지능 기술인 딥러닝 모델에 대한 핵심 기술을 알기 쉽게 설명하고, 이를 이용한 화합물, 단백질 분석 및 신약개발 적용 사례를 제시하며 차세대 신약개발 분야에서 활용되고 있는 인공지능에 대해 고찰한다.
키워드: 인공지능, 머신러닝, 립러닝, 신약개발, 단백질 구조 예측
분야: Biochemistry, Medicine, Structural_Biology

목 차

1. 서론
2. 본론
2.1. 바이오 의약 분야에 사용되는 인공지능 모델
2.1.1. 최신 인공지능 기술 딥러닝
2.1.2. 딥러닝 모델에 사용되는 데이터베이스
2.1.3. 딥러닝 모델 적용을 위한 데이터 처리
2.2. 바이오 의약 분야에서의 인공지능 기술 활용
2.3. 인공지능 기반 신약개발 현황
2.3.1. Insilico Medicine
2.3.2. Schrodinger
2.3.3. 디어젠
2.3.4. DR.NOAH BIOTECH
2.3.5. 신테카바이오
2.3.6. NEC-Transgene
2.3.7. CHUGAI 제약
3. 결론
4. 참고문헌


1. 서론

인공지능 (Artificial intelligence, AI)은 1956년 John McCarthy가 최초로 사용한 이래로 현재 4차 산업혁명과 함께 디지털 영역의 가장 큰 이슈로 부각되고 있다. 인공지능은 정보의 인식, 학습 및 추론 등의 지능을 구현하는 컴퓨터 시스템 또는 기계를 설계 및 구축하는 기술로 음성 인식, 작성된 언어의 이해 및 번역 그리고 데이터 분석을 포한 다양한 기능을 수행할 수 있다.

초창기의 인공지능은 인간의 논리적인 사고를 구현하는데 초점이 맞춰 개발되어 프로그래밍된 규칙 및 로직을 학습하는 것에 의해 작동되었다. 수학 문제를 풀거나 논리를 증명하고 체스 전략을 배웠으며, 1997년 IBM의 인공지능 컴퓨터 딥 블루는 세계 체스 챔피언을 상대로 우승하며 당시 인공지능의 우수성을 대중에게도 널리 알렸다. 하지만 이후 괄목할 만한 성과는 내기 어려웠다고 할 수 있어 학자들은 당시에 구사되었던 인공지능이 인간의 모든 인지 과정을 구현하는데 한계점이 존재한다고 생각하였다 [1]. 연구자들은 기존에 주목하였던 행동을 수행하는 논리와 로직보다는 인간의 신경망을 기반으로 한 데이터 학습과 인지에 초점을 맞추기 시작하였으며 머신 러닝과 인공신경망에 대한 연구가 보다 활발히 수행되었다. 또한 반도체와 컴퓨터 기술의 발전으로 인한 더욱 빠른 컴퓨터 및 대량의 데이터를 저장할 수 있는 플랫폼이 등장하였고, 이를 기반으로 한 빅데이터 그리고 인공신경망을 바탕으로 한 딥러닝 기술이 개발되며 인공지능이 급격하게 발전하였다. 이를 통해 인공지능은 인간의 지적 능력을 모방하는 것뿐 아니라 특정 분야의 고성능 데이터 처리 기술로 자리매김하게 되었으며 인간의 분석 한계를 보완할 수 있는 혁신적 기술로 자리매김하였다 [2].

인공지능은 컴퓨팅 시스템, 자율 주행 자동차, 사물인터넷, 로봇, 헬스케어 등의 다양한 사업에 사용되고 있으며 그 활용 영역이 점차 확대되고 있다. 구글社는 사용자의 링크 및 검색 기록을 토대로 사용자 맞춤 결과를 제시하는 검색 알고리즘 시스템에 인공지능을 구사하였으며 이는 구글 검색 사용자를 증가시키는데 일조하였다. 또한 2018년 단백질 구조 예측 프로그램 알파폴드를 선보여 단백질 구조 예측 학술대회(Critical Assessment of Structure Prediction, CASP)에서 압도적인 성과를 나타낸 이후로 생물학 분야를 포함한 의약공학 분야에 큰 영향을 미치고 있다 [3]. 바이오-화학 분야에 인공지능이 도입되어 짧은 시간에 적은 노력으로 화합물의 구조 및 특성 결정이 가능하도록 되었으며, 화학 및 생물학적 반응을 시뮬레이션하여 고성능의 생산물을 확보하는데 일조하고 있다. 인공지능이 활발히 개발되기 이전부터 화학 분야에서는 컴퓨팅 시스템과 시뮬레이션을 활용되었는데, 개별적인 분자의 특성을 설명하는 것에 비해 여러 가지 화합물이 섞인 혼합물 또는 고분자의 특성을 규명하는 것은 분자들의 상호작용으로 인해 매우 복잡하다. 따라서 이러한 특성들은 분자 열역학적 특성과 공정 시뮬레이션이 화합물의 물성 데이터를 바탕으로 분자 시뮬레이션과 몬테카를로 방법을 통해 통계적으로 결정되는 등 수차례의 반응과 통계적 검증을 바탕으로 분석된다 [4]. 이렇듯 데이터와 통계는 분자의 물성을 정교하게 예측하고 메커니즘을 설명하는데 필수적인 요소이기 때문에 빅데이터를 기반으로 고성능의 데이터 분석이 가능한 현재의 인공지능은 바이오-화학 분야에서 필수불가결한 기술로 관련 분야 연구에 큰 기여를 하고 있으며, 컴퓨팅 시스템 및 컴퓨터 공학, 물리학, 화학 및 생물공학과 같은 기초과학에도 큰 영향을 미치며 점차 그 활용 범위가 증가하고 있다.

인공지능을 활용한 신약개발의 가장 큰 장점은 업무의 효율성 증대 및 생산, 개발 비용 절감이라 할 수 있다. 난치성 질환, 암, 유전자 질환 등을 치료하기 위해 고도의 바이오 의약학 기술을 바탕으로 복잡한 구조를 갖는 신약을 개발할 필요성이 증가하고 있지만, 한 종류의 신약을 개발하기 위해 10여 년이 소요되고 1조 원 이상의 개발비가 투여되는 것에 비해 성공률은 2-3만 분의 1 정도이기 때문에 유효성 및 안전성 양쪽을 겸비한 신약개발의 성공률은 현 상황에서 높지 않다고 할 수 있다.

본 원고에서는 인공지능의 폭넓은 활용 분야 중에서 바이오 신약개발에 적용되고 있는 최신 연구 및 동향에 대해 정리하도록 한다. 인공지능에 대한 핵심 개념을 설명한 후, 이것이 신약개발에 있어서 어떻게 접목되어 사용되고 있는지 장점과 한계점을 실제 개발되고 있는 사례를 바탕으로 기술하고, 마지막으로 앞으로의 나아갈 방향에 대해 제시한다.

2. 본론

2.1. 바이오 의약 분야에 사용되는 인공지능 모델

2.1.1. 최신 인공지능 기술 딥러닝

인공지능 기술의 세부 범위에 해당하는 머신러닝은 데이터를 학습하며 새로운 데이터 레이블을 결정하고 패턴을 찾는다. 머신러닝의 한 분야로 최첨단 인공지능 기술로 떠오르는 딥러닝은 인공신경망을 기반으로 데이터를 학습하고 데이터에 내재된 핵심적인 패턴을 찾으며 고도의 추상화 작업을 시도한다. 딥러닝 방식은 입력층, 은닉층, 출력층으로 구성되며 입력층에 입력된 데이터는 은닉층을 거치며 데이터 분류 및 패턴을 추출을 진행하며 고유한 추상표현을 생성한다. 이러한 은닉층의 수가 많아질수록 네트워크는 더 깊어지고 복잡한 패턴을 학습하고 기능한다. 은닉층의 수가 많은 경우를 심층신경망(deep neural net, DNN)이라고 하고 DNN을 사용한 학습을 딥러닝이라고 한다. 딥러닝 모델은 데이터 학습에 매우 복잡한 계산이 필요하여 많은 시간이 소요되고 고성능 컴퓨팅 시스템이 필요했기 때문에 인공지능 연구 초기에는 각광받지 못했다. 하지만 컴퓨터 하드웨어가 발전됨에 따라 막대한 데이터 저장 공간을 가진 메모리 장치와 강력한 연산 능력을 가진 graphics processing unit (GPU)가 등장하여 복잡한 연산에 소요되는 시간이 단축되었다. 특히 빅데이터의 등장은 딥러닝에서 데이터를 학습하고 분석하기 위해 필요한 데이터를 제공한다. 이로 인해 딥러닝은 주목을 받으며 최신 인공지능 기술로써 대부분의 인공지능에 사용되며 활발히 연구되고 있다. 딥러닝 방식은 바이오, 화학 및 의약 분야에서 기존 컴퓨팅 시스템으로는 불가능하였던 방대한 데이터를 분석 가능하기 때문에 화합물 구조 분석, 단백질 분석, 약물 활성 및 신약개발에 적용되고 있다 [5].

2.1.2. 딥러닝 모델에 사용되는 데이터베이스

딥러닝 모델은 정확한 데이터의 학습이 중요하다. 바이오-화학 또는 의약품 분야에서는 현재까지 분석된 화합물의 물성, 단백질 구조, 화합물과 단백질의 상호작용 등의 데이터가 모두 데이터베이스에 저장되어 공개되고 있다. Protein Data Bank (PDB) 웹사이트를 통해 결정구조분석으로 확인된 150,000개 이상의 단백질의 3차 구조와 단백질-단백질 또는 단백질-화합물 결합체에 대한 구조 및 상호작용을 알 수 있으며, ChemSpider 웹사이트에서는 화합물에 대한 구조 정보를 제공하고, DrugBank 웹사이트에서는 1만 개 이상의 약물에 대한 정보를 제공한다. 이 외에도 특정 단백질 상호작용이나 타깃 물질에 대한 활성 등의 화합물과 단백질의 정보를 제공하는 데이터베이스가 구축되어 있으며, 이들을 이용하면 딥러닝 모델을 학습시킬 수 있다. 따라서 인공지능 모델은 화합물 및 단백질 분석과 신약개발에 분야에 있어서 높은 활용성과 잠재력을 갖는다.

2.1.3. 딥러닝 모델 적용을 위한 데이터 처리

딥러닝 모델의 데이터 학습을 위해서는 데이터를 컴퓨터가 처리 가능한 형태로 변형하는 작업이 필요하다. 컴퓨터의 언어는 0과 1로 구성되는 이진법을 사용하여 데이터는 오로지 숫자로만 처리되기 때문에 인간이 사용하는 사진, 영상 및 자연어에 대한 처리가 불가능하여 이를 수학적 표현으로 변경해야 한다. 또한 딥러닝은 빅데이터와 같은 방대한 데이터를 학습해야 하기 때문에 스칼라(scalar), 벡터(vector), 행렬(matrix), 텐서(tensor)에 해당하는 네 가지 선형대수 표현을 사용하여 간단한 수식으로 복잡한 데이터를 처리한다. 예를 들어 사진과 같은 이미지는 픽셀 정보를 열벡터로 표현한다. 딥러닝을 화합물 및 단백질 분석에 적용하기 위해서도 화합물의 정보를 컴퓨터가 처리 가능한 데이터 형식으로 표현해야 한다. 화합물의 정보는 1차원의 화학식, 2차원의 선형 분자 구조, 3차원의 화학 구조 등으로 나타낼 수 있으며 이들은 one-hot encoding(1차원 표현), graph(2차원 표현), matrix(3차원 표현) 및 SMILES (Simplified Molecular-Input Line-Entry System) 등으로 표현될 수 있다. 이중 SMILE은 1980년에 개발된 이후로 현재까지 딥러닝 모델에서 가장 많이 사용되고 있는 방식으로 화합물의 구조와 원자를 ASCII 문자를 이용하여 한 줄로 간단히 표현한다. SMILES은 화합물의 원자, 결합, 고리, 방향족, 가지, 입체화학을 한 줄의 문자열로 표현한다는 장점이 있어 머신러닝 모델이 처리하는데 적합한 형태로 알려져 있다. 이러한 화합물의 전산학적 표현들은 딥러닝 모델의 적용에 있어 필수적이며 인공지능과 함께 연구 및 발전하고 있다 [6].

2.2. 바이오 의약 분야에서의 인공지능 기술 활용

신약개발을 위해 화합물 및 단백질의 물성과 구조를 분석하고 알아내는 것은 중요하다. 질병의 원인을 규명하고 해당 활성을 억제할 수 있는 표적 단백질을 개발함으로써 신약으로 사용할 수 있는데, 이를 위해 표적 단백질 억제가 가능한 여러 후보 물질의 구조적 유사성을 분석하여 가장 적합한 선도 물질을 도출한다. 이후 in vitro, in vivo 실험을 거치며 약리활성과 독성을 검증하고 동물 실험을 통해 전임상 개발을 진행한다. 이후 임상 1상, 2상, 3상을 거치며 환자를 대상으로 약리활성과 부작용을 확인한 후 승인을 얻어 최종적으로 시판된다. 전체적인 개발 단계에서 신약 승인의 성패를 결정하는 가장 중요한 단계는 기초 연구 단계인 표적 단백질 발굴과 후보 물질의 개발이라 할 수 있다. 특히 일반적으로 연구 단계에서 선도 물질 도출에 소요되는 시간은 1년 이상, 생체 내외에서 약리활성과 독성 실험을 통해 후보 물질을 선정하기 위해 2년 이상이 소요되어 많은 비용과 시간이 필요하다 [6, 7]. 이러한 기초 연구 과정에서 화합물 및 단백질의 물성과 구조를 정밀하게 파악하고 표적 단백질과 약물 또는 단백질-단백질 상호 작용 등에 관련한 정보를 얻는다면 약물의 약리활성과 독성을 예측할 수 있으며 연구 기간과 비용 또한 단축될 것이다. 이러한 약물 상호작용 모델링은 이전부터 컴퓨터 시뮬레이션을 통해 진행되어 왔으며 최근에는 머신러닝 기반의 방법들이 개발되면서 예측 정확도가 높아지고 있다. 특히 최근에는 구글의 DM21, 알파폴드와 같은 머신러닝 기반의 화합물과 단백질의 구조를 분석하는 프로그램들이 개발 및 출시되고 있으며, 이러한 화합물 및 단백질 분석에 적용되는 머신러닝 모델의 발전은 신약개발에서도 유용하게 사용되며 신약개발 인공지능의 발전에 긍정적인 영향을 줄 것으로 기대된다. 현재 개발 및 공개된 몇 가지 화합물 및 단백질 분석 인공지능 프로그램을 아래에 소개한다 [8].

구글의 딥 마인드사는 분자 내 전자 분포를 예측하는 머신 러닝 모델 DeepMind21 (DM21)을 개발하였다. 양자역학에서 분자의 구조는 특정 공간에서 특정 전자를 찾을 확률을 설명하는 슈뢰딩거 방정식에 의해 결정된다. 하지만 실제로 분자 내의 전자는 서로 간의 상호작용이 존재하기 때문에 벤젠 같은 단순한 분자가 아닌 이상 분자 궤도를 정확히 계산하는 것은 거의 불가능하다. 이러한 모델을 설명하기 위해 과학자들은 개별 전자가 아닌 분자 내 음전하의 전체 분포를 계산하며 전자의 밀도를 통해 물질의 속성을 설명하는 밀도범함수이론(density functional theory, DFT)을 탐구하였다. 하지만 DFT는 염화나트륨과 같은 특정 유형의 분자에서 잘못된 결과를 제공하는 것이 알려져 있으며 기본 양자 이론 계산보다는 효율적이지만 여전히 복잡하고 고성능 컴퓨터를 필요로 한다. DM21은 정확한 화학 데이터를 기반으로 하여 이러한 종래 모델의 단점을 극복했다. DM21은 전하의 움직임과 스핀 분극화에 의존하는 미묘한 변수까지 분석하여 원자화 에너지, 반응 장벽 및 수소 사슬 등의 전자의 양자역학적 상호 작용을 더욱 자세하게 설명하였다. 또한 분석 시 고성능 컴퓨터와 분석 기술이 필요했던 기존 방식과 달리 DM21의 인공신경망 모델의 학습에는 방대한 데이터와 컴퓨팅 성능이 필요하지만 데이터 학습 이후 해당 프로세스는 한 번만 수행하면 되며 일반 노트북에서 개별 예측을 수행할 수 있어 기존 DFT 방식에 비해 비용과 시간을 크게 감소시킬 수 있다. 딥 마인드의 개발자들은 현재 DM21이 주로 분자 구조에만 적용되지만 향후 버전은 재료의 결정구조에도 적용할 수 있을 것이다.

딥 마인드사는 2018년 CASP에서 단백질 구조 예측 프로그램인 알파폴드를 공개했다. PDB에 공개되어 있는 170,000개 이상의 단백질의 정보를 학습시켰고 350,000개 이상의 단백질 구조를 예측하였다. 그 결과 다른 연구들과 비교하여 매우 높은 정확도를 보이며 압도적인 성적으로 1위를 차지했다. 뿐만 아니라 단 2년 만에 알파폴드2를 출시하였는데, 이는 개발 초기의 알파폴드가 단백질 분석에 1-2주를 필요로 하였던 것에 비해 불과 수 분 내에 단백질 분석을 완료하였다. 또한 단백질 분석 범위와 수도 폭발적으로 증가하여 총 2억 1,400만 개 이상의 단백질을 예측하였으며 그중 35%가 매우 정확한 결과를 보였으며 나머지 45%는 타 응용프로그램과 비교해 봤을 때 높은 정확도를 입증하였다. 이는 현재까지 지구상에 알려진 약 100만 종의 2억 개 이상의 모든 단백질을 예측한 것이다 [9]. 현재 단백질 구조의 결정 구조 분석에는 X선 결정학, 극저온 전자 현미경, 핵자기 공명과 같은 기술이 사용되는데 이 기술들은 많은 비용과 시간을 필요로 한다. 이러한 방법으로 약 60년 동안 현재까지 구조가 밝혀진 단백질은 약 170,000개이다. 단백질의 3차원 구조를 동정하는 것은 단백질 및 화합물과의 상호작용, 단백질의 활성 등 생물학적 기능에 매우 중요한데, 아미노산 서열만을 기반으로 하여 단백질의 구조를 예측하는 것은 생물학 분야에 있어서 도전적인 과제였다. 알파폴드가 개발됨에 따라 보다 정확하고 신속한 단백질 구조 예측의 가능성이 열렸고 아미노산 서열만을 가지고 단 몇 분 만에 단백질의 3차 구조를 정교하게 분석할 수 있게 되었다. 물론 아직 알파폴드의 구조 예측이 완벽한 것은 아니다. 구조를 예측한 단백질 중 50% 정도는 유용한 수준의 정확도를 보여주지 못하였으며 단백질 접힘(folding)에서는 좋은 결과를 보여주지만 아직까지 서로 다른 분자 또는 단백질과의 상호작용에서는 신뢰성 있는 결과를 나타내지 못하고 있는 상황이다. 하지만 딥 마인드사는 초기 알파폴드 출시 후 단 2년 만에 알파폴드2를 공개하며 놀라운 성능 증가를 보여주었으며 지속적인 연구, 개발이 진행되고 있다. 또한 알파폴드 개발팀은 현재 효소와 같은 단백질의 촉매 부위의 활성과 활성 부위에서 다른 아미노산과의 상호작용 등을 다음 개발 단계의 알고리즘이라고 말하였으며 이로 미루어 보았을 때 알파폴드는 몇 년 후에 더욱 발전하여 그 성능을 보다 증가시킬 수 있을 것으로 기대된다.

알파폴드 외의 단백질 구조 분석 프로그램도 등장하고 있다. 알파폴드를 재연하고자 만들어진 로제타폴드는 알파폴드2와 거의 비슷한 성능을 보였다. 딥 마인드사는 알파폴드2의 소스를 공개했으며 누구나 자유롭게 이용할 수 있게 하였다. 이를 통해 딥 마인드뿐 아니라 단백질 구조 예측에 관심이 있는 사람들은 알파폴드2의 소스를 이용하며 연구할 수 있게 되었다. 이러한 오픈 소스를 이용하는 개발을 바탕으로 앞으로의 단백질 구조 예측 프로그램에 대한 연구 및 개발 속도는 더욱 증가할 것이다.

2.3. 인공지능 기반 신약개발 현황

바이오 분야에서는 인공지능이 도입되기 전부터 선형회귀, 랜덤 포레스트, 서포트 벡터 머신과 같은 모델링 기술들을 사용하여 단백질의 활성과 상호작용 등을 분석했다. 특히 컴퓨터 기술을 이용한 데이터 분석과 약물 탐색이 신약개발을 위해 활용하고 있다. 약물 발굴 단계에서 사용하는 고속대량스크리닝(High-throughput screening, HTS) 방법은 microplate와 자동화 시스템을 사용하여 단시간에 수백만 개의 약물의 타깃에 대한 약리활성, 독성 및 안정성 등의 특성을 테스트할 수 있다. 하지만 여전히 많은 비용이 소요되며 스크리닝 이후 후보 구조 유사성을 찾아 선도물질을 도출하는데 약 1년이 소요되며, 약리 활성 및 독성 등 약물의 특성을 검증하는 in vitro 및 in vivo 테스트에 약 2년 이상의 시간이 소요된다. 제약회사들은 화합물의 구조와 상호작용을 예측할 수 있는 모델링을 적극적으로 활용하여 비용과 시간을 단축해왔다.

대표적인 모델링 기술로, 표적 단백질과 결합 가능성이 있는 화합물 사이의 상호작용을 계산하여 후보 물질을 선별하는 가상 탐색과 화합물의 구조와 활성 간의 정량적 관계를 계산하여 예측하는 Quantitative Structure-Activity Relationship (QSAR)이 있다. 가상 탐색은 표적 단백질에 대한 화합물의 구조를 이용하여 3차원 도킹(docking) 알고리즘을 통해 수행된다. QSAR은 표적 단백질의 구조 없이도 화합물의 구조와 생리 활성 정보를 이용하여 예측 모델을 만드는 것으로 화합물의 용해도, 독성 및 효소 또는 수용체 같은 단백질에 대한 활성부위와의 상호작용을 예측하는 데 사용된다. 이러한 컴퓨터 기반 신약개발(Computer-Aided Drug Design, CADD)는 후보 약물 발굴 및 활성 평가를 위해 많은 제약회사와 연구기관에서 사용되었다. 하지만 가상 탐색은 도킹을 수행할 리스트를 일일이 찾아서 선정해야 하며, QSAR 모델링은 기존에 학습한 데이터가 아닌 새로운 화합물에 대해서는 낮은 예측 성능을 보였다. 또한 화합물의 성질을 예측하여 선별 과정의 효율성을 높였으나 여전히 많은 실험이 병행되어야 했기에 실질적인 신약개발 시간과 비용 감소 측면에서는 한계가 있었다. 하지만 이후 머신러닝의 발전과 함께 등장한 딥러닝 모델의 적용으로 인공지능은 예측뿐 아니라 결과 생성까지 가능하도록 되었다. 이러한 기술은 기존에 사용하던 가상 탐색, QSAR과 같은 모델링 기술에 적용되어 더욱 높은 성능을 나타내고 있다. 현재 인공지능 기반 신약개발은 신약 후보 물질 개척과 신약 발굴 비용 및 시간 단축에 가능성을 보인다. 신약개발에 사용되는 인공지능 모델과 실제 적용한 사업의 예를 아래에 기술한다.

현재 국내외 많은 제약회사들이 신약개발 연구 및 약물 발굴 단계에서 시간과 비용 단축을 위해 인공지능 시스템을 활용하고 있으며 규모가 큰 제약회사들은 자체적으로 프로그램을 보유하고 있다. ㈜Pfizer는 IBM의 머신러닝 모델인 Watson을 사용하여 면역항암제 검색을 강화하고 있으며, ㈜Roche의 자회사 ㈜Genentech은 GNS Healthcare의 인공지능 시스템을 사용하여 다국적 기업의 암 치료법을 발굴하고 있다. 인공지능 기반 신약개발을 활용하는 제약회사들은 대부분 표적 단백질에 대한 정확하고 빠른 후보물질 발굴을 목표로 하며 실제 전임상 이전 단계인 약물 발굴 단계에 소모되는 비용 및 시간을 줄이고 있다 [11]. ㈜Insilico Medicine는 약물 스크리닝부터 약물 후보군 도출까지를 46일 만에 완료한 사례가 있으며, 특발성 폐섬유증 치료제의 경우 표적 단백질 선정부터 전임상 연구 전단계까지의 연구를 단 18개월 만에 완료하였다. ㈜AbCellra는 SARS-CoV-2 감염증 치료제에 대하여 약물 스크리닝부터 전임상 연구 전 단계까지를 90일 이내에 완료하였으며 ㈜Schrodinger의 경우에는 COVID-19 치료제를 약물 후보군 선정 단계까지 10개월 이내에 완료하였다.

국내에서는 ㈜스탠다임이 표적 물질에 대한 선도 물질을 7개월 내에 도출하였으며, ㈜디어젠은 기존 16개월 소요되었던 약물 후보군 발굴 기간을 2개월 단축하는 가능성을 보였다. 그 외에 AI Therapeutics, AbCellera, Atomwise, BenevolentAI, Exscientia, Verge Genomics, ARIA Pharmaceuticals, BioAge Labs, Celsius Therapeutics, Deep Genomics, Insilico Medicine, Insitro, LabGenius, SOM biotech, e-Therapeutics, Isomorphic Labs 등의 국외 기업들과 스탠다임, 디어젠, 파로스아이바이오, 갤럭스, 신테카바이오, 팜캐드 등의 국내 기업들이 인공지능 기반 신약개발 기술을 활용하여 신규 약물 후보군을 생성하고 있다 [6-8].

2.3.1. Insilico Medicine

㈜Insilico Medicine은 인공지능 신약개발을 위해 자체적으로 인공지능 모델 Pharma.AI를 개발하고 이를 이용하여 다양한 질병 모델에 대한 신약 후보를 발굴하고 있다. Pharma.AI는 다중 오믹스 및 심층 분석 엔진을 사용하는 PandaOmics, 머신러닝 기반 de-novo drug design이 가능한 화합물 생성 인공지능 Chemistry42, 임상시험 성공률과 취약점을 인식하여 임상시험을 설계 및 예측하는 InClinico로 구성된다. PandaOmics는 현재까지의 의료 및 논문 데이터로부터 질병 모델의 분석을 통해 가장 치료 효율이 좋은 질병 치료 타깃을 도출하며 Chemistry42는 선정된 타깃에 대한 구조 분석을 통해 약물 활성이 가장 높은 화합물을 예측하여 후보 물질을 도출한다. 이후 InClinico를 통해 임상 시험을 디자인하여 신약 후보 물질 개발과 시험에 소요되는 시간을 단축할 수 있다. ㈜Insilico Medicine은 Pharma.AI를 사용하여 종래에 3년 이상이 소요되던 전임상 이전의 약물 발굴 기간을 18개월까지 단축하였으며, 특발성 폐섬유증의 치료제인 INS018_055를 개발하였고, 이는 FDA로부터 희귀 의약품으로 지정되었다 [12].

2.3.2. Schrodinger

㈜Schrodinger는 재료 과학 및 신약개발을 위한 소프트웨어 개발을 하는 기업이다. ㈜Schrodinger의 머신러닝 기반 플랫폼은 고성능의 분자 모델링을 기반으로 약물 발굴 및 재료 설계에서 성공 가능성이 높은 최적의 화합물을 예측하여 제공한다. 이러한 플랫폼을 기반으로 ㈜Schrodinger는 COVID-19 치료제의 약물 후보군 선정을 10개월 이내에 완료하였다.

2.3.3. 디어젠

㈜디어젠은 딥러닝 기술과 생물정보학을 기반으로 하여 인공지능 신약개발 플랫폼을 개발한다. 유전체 분석, 신규 바이오마커 도출 및 질병 타깃 예측, 화합물-단백질 상호작용을 기반으로 결합도를 예측하여 신약후보 물질을 생성하고 선도 물질의 효능 및 독성 최적화를 통해 화합물을 디자인하는 인공지능 기술과 플랫폼을 보유한다. 자사의 신약개발 플랫폼을 사용함으로써 기존에 선도물질 발굴 및 in vitro assay 활성 평가에 소요되었던 평균 1년의 기간을 3-4개월로 단축시켰으며, 단 10주 만에 삼중음성 유방암의 신규 타깃 화합물을 발굴 및 디자인하고 국내 특허를 출원하였다 [13].

2.3.4. DR.NOAH BIOTECH

㈜DR.NOAH BIOTECH은 의약학 빅테이터 분석과 인공지능을 바탕으로한 신약개발을 추구한다. 의약학 네트워크, 약물 유전체, 환자 유전체, 신경조직세포 이미지에 대한 데이터베이스를 분석하여 신규 타깃을 발굴하고 타깃과 결합하는 단일 약물 구조를 예측하였다. 최종적으로 약물-타깃 복합체를 3개월 안에 예측하는 인공지능 플랫폼을 보유하고 있다. 자사 플랫폼을 사용하여 뇌졸중 치료제 NDC-002를 개발 중이며 현재 식약처로부터 임상 1상 승인을 받은 상태이다 [14].

2.3.5. 신테카바이오

㈜신테카바이오는 유전체 빅데이터를 바탕으로 하여 슈퍼컴퓨터 기반 유전체 빅데이터 기술 및 인실리코 신약개발을 수행한다. 유전체 빅데이터 플랫폼과 함께 암 환자의 체내에 존재하는 종양과 혈액 유전체로부터 도출한 데이터로부터 암의 유전변이를 분석하여 신생 항원을 예측하는 NEO-ARS 및 화합물 라이브러리 검색을 통해 타깃에 해당 유효물질 도출 및 최적화를 통해 후보물질을 발굴하는 DeepMatcher로 대표되는 인공지능 신약개발 플랫폼을 보유하고 있다. 이러한 자사 신약개발 플랫폼을 인공지능 신약개발을 원하는 기업에 공급하고 있으며 클라우드 기반 인공지능 신약개발 서비스인 STB CLOUD를 미국 시장에 정식으로 론칭하였다.

2.3.6. NEC-Transgene

프랑스의 ㈜Transgene에서 보유하고 있는 myvac기술과 일본의 ㈜일본전기주식회사(NEC)가 보유하고 있는 인공지능 기술을 기반으로 한 암 백신 신약으로 TG4050이 개발되었다 [15]. 본 백신의 특징은 환자 개개인에 대한 맞춤형 약제로 오더메이드형 치료법을 기반으로 하여 제작된다는 것이다. 암질환 환자 개개인의 체내에 존재하는 암세포와 정상세포를 비교하고 암세포 특유의 neoantigen을 예측하고 선택하기 위해 알고리즘이 활용된다. 최대 30개의 환자별 neoantigen 변이를 인코딩하고 바이러스 기반 면역요법을 생성할 수 있는 patient-specific neoantigens-cancer cell mutations 표적화를 바탕으로 하는 백신을 투여함으로써 면역세포가 이를 항원으로 인식하여 공격하여 원래부터 환자의 체내에 존재하였던 암세포를 사멸시킬 수 있다. 난소암, HPV 음성, 두경부 편평세포암종 환자를 대상으로 한 임상시험을 진행하여 TG4050 단독요법 및 보조요법 활성을 평가한다.

2.3.7. CHUGAI 제약

일본 ㈜CHUGAI 제약에서는 항체의약품 시스템에 기계학습을 접목시킨 MALEXA를 개발하고 있다. 인공지능 기술을 바탕으로 하여 약제로서 기능성이 높은 화합물을 개발 초기 단계에서 선별함으로써 성공률을 높이고 전체 개발 공정에 의료 빅데이터, 디지털 공장 등을 연계시킴으로써 업무의 효율성을 향상시키고자 한다. MALEXA (Machine learning x Antibody)에 의해 기존의 항체에 비해 1800배 이상의 항원 결합성을 보유하는 항체를 선별하고 그 아미노산 배열이 동정 되었는데, 이는 항체 라이브러리에서부터 next generation sequencing을 통해 유전자배열 정보를 확보하고, 이를 해석한 데이터를 기계학습모델로 구성한 것과, 항체의 아미노산 배열을 동정하기 위한 LSTM (Long Short-Term Memory) 알고리즘에 기반한다 [16].

3. 결론

신약개발은 성공적으로 완료될 경우 인류의 건강을 증진시키고 개발 기업은 경제적 가치를 확보할 수 있지만 평균 10년 이상의 시간과 약 2조 원 이상의 비용이 소모되며 성공 확률이 낮은 등 그 위험 또한 크기 때문에 대부분의 기업에서는 개발에 쉽게 착수하지는 못하는 실정이다. 표적 약물 선정을 위해서는 방대한 양의 화합물 또는 단백질 라이브러리로부터 약물 스크리닝을 통해 선정된 선도물질의 약리활성과 독성 테스트를 위해 장시간 동안의 노력이 필요하다. HTS와 같은 고성능, 대량 분석 방법이 존재하지만 여전히 방대한 양의 물질들을 검증하는데 어려움이 있으며, 신규 분석법 및 실험법 개발은 시간과 비용 단축 측면에서 한계가 있다. 이러한 문제를 해결할 수 있는 돌파구가 바로 인공지능이다. 딥러닝 모델을 통해 바이오 분야에 적용되며 기존에 불가능했던 단백질 3차 구조 예측 등과 같은 방대한 데이터에 대한 예측 결과물을 생성할 수 있게 되었다. 인공지능 시스템은 신약개발에 적용되어 표적 단백질 선정 및 후보 물질 발굴에 드는 비용과 시간을 획기적으로 단축시켰고, 많은 제약회사와 스타트업 기업에서 이를 활용한 연구를 진행하고 있다.

신약개발은 기업의 경제적인 가치뿐 아니라 인류의 건강과 의료를 위해서도 필요하다. 최근 몇 년간 SARS, MERS, COVID-19과 같은 전염병이 등장하며 인류의 보건안전을 위협했다. 특히 COVID-19의 경우 강력한 전염성으로 수백만 명의 목숨을 앗아 갔다. 이러한 전염병의 발생에 대응할 수 있는 신약개발이 발 빠르게 이루어진다면 피해를 절감할 수 있을 것이다. 신약개발 속도와 기업들의 참여를 위해서는 개발 비용과 소모를 줄이기 위해 인공지능의 도입이 필수적이다. 현재 많은 제약산업 대기업들이 신약개발을 위한 인공지능 프로그램을 소유하거나 연구개발 중이며 몇 년 후 인공지능은 신약개발의 판도를 바꿀 것이라 기대한다. 앞으로의 바이오 및 제약산업의 발전을 위해서는 연구자들 또한 인공지능에 대한 지식 함양이 필요하며 인공지능에 대한 연구와 활용에 보다 활발한 투자가 필요하다.


4. 참고문헌

==>첨부파일(PDF) 참조

  추천 0
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
Citation 복사
윤한울, 정희진(2023). 인공지능을 활용한 바이오 신약개발 동향. BRIC View 2023-T08. Available from https://www.ibric.org/myboard/read.php?Board=report&id=4647 (Apr 21, 2023)
* 자료열람안내 본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다. 내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(view@ibric.org) 바랍니다.
 
  댓글 0
등록
목록
위로가기
동향 홈  |  동향FAQ
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
ACROBIOSYSTEMS 광고