[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 동향
웅비 메디텍
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
BioLab 한창석 교수
전체보기 뉴스 Bio통계 BRIC View BRIC이만난사람들 웹진(BioWave)
목록
조회 7394  인쇄하기 주소복사 트위터 공유 페이스북 공유 
바이오통신원   
[바이오토픽] 인공지능 이용, 단백질 구조 신속 예측: 알파폴드 게 섰거라!
생명과학 양병찬 (2019-07-23)

인공지능 이용, 단백질 구조 신속 예측: 알파폴드 게 섰거라!

생물학계의 가장 야심찬 도전 중 하나인 '아미노산에서 단백질이 3D 구조 예측하기'가, 새로운 인공지능(AI) 접근방법 덕분에 열기를 띠고 있다.

지난해 말에는 구글의 AI 업체인 딥마인드(DeepMind)가 알파폴드(AlphaFold)라는 알고리즘을 선보인 바 있다(참고 1). 알파폴드는 기존의 두 가지 신생기법을 결합한 것으로, 한 단백질 구조 예측 경진대회에서 내로라하는 경쟁자들을 놀라운 스코어 차이로 따돌렸다(참고 2). 그리고 올해 4월에는 미국의 한 연구자가 전혀 색다른 접근방법을 사용했는데, 그는 "내 AI가 모든 상황에서 정확한 건 아니지만, 딥마인드보다 100만 배 빨리 단백질 구조를 예측할 수 있다"고 주장했다.

생물학자들은 두 가지 접근방법이 사용하는 AI 기법인 딥러닝(deep learning)에 주목하며, 그것이 '단백질의 배열 및 기능 예측'을 겨냥하는 데 경탄을 금치 못하고 있다. 이 접근방법들은 기존의 방법(예: 엑스선 결정법)보다 저렴하고 빠르며(참고 3), 그에 관한 지식은 연구자들이 질병과 신약설계를 더 잘 이해하도록 도와줄 것이다. "현재 진행되고 있는 상황이 어떻게 전개될지 귀추가 주목된다"라고 칼리지파크 소재 메릴랜드 대학교의 생물학자로서 단백질 구조예측 학술대회인 CASP(Critical Assessment of protein Structure Prediction)의 설립자인 존 몰트(생물학)는 말했다. 연구팀들은 2년마다 한 번씩 CASP에 참가하여, '시퀀스에서 단백질 구조를 예측하는 컴퓨터 프로그램'을 설계하는 과제를 수행하며 자웅을 겨룬다.

혁신적 접근방법

가장 최신 알고리즘을 개발한 하버드 의대의 생물학자 모하메드 알쿠라이시는 "내 방법의 정확성을 알파폴드와 직접 비교해 보지는 않았지만, 분석 대상 단백질과 유사한 시퀀스를 가진 '참조용 단백질'이 존재할 경우에는 정확성 면에서 알파폴드의 적수가 되지 못할 것"이라고 생각하고 있다. 그러나 그의 알고리즘은 수학적 함수를 이용하여 단백질 구조를 단번에 계산하므로, 두 단계를 거치는(첫 번째 단계에서, 유사한 구조를 토대로 사용한다) 알파폴드와 달리 수 시간 ~ 수일이 아니라 수 밀리세컨드 만에 구조를 예측할 수 있다고 한다.

"알쿠라이시의 접근방법은 매우 유망하다. 그것은 알쿠라이시가 창안한 새로운 트릭은 물론, 딥러닝의 진보에 바탕을 두고 있다"라고 UC 버클리의 이안 홈즈(계산생물학)는 말했다. "장차 그의 아이디어가 딥러닝 분야의 다른 진보와 결합하는 것은 가능하다"라고 CASP13에 참여했던 토요타 기술연구소(일리노이주 시카고 소재)의 쉬진보(컴퓨터과학)는 말했다.

알쿠라이시의 시스템의 핵심을 이루는 것은 '단일 신경망'이다. 신경망(neural network)이란 '사례에 기반하여 학습하는 뇌'에서 영감을 얻어 개발된 알고리즘의 일종으로, '아미노산 시퀀스가 단백질 구조를 만드는 방법'에 대한 기존의 데이터를 입력받아 '낯선 시퀀스로'부터 '새로운 구조'를 만드는 방법을 학습한다. 다른 시스템들의 경우, 먼저 하나의 신경망을 이용하여 한 구조의 특정한 특징을 예측한 다음, 다른 유형의 알고리즘을 이용하여 (예측된 특징을 포함하는) 타당한 구조를 열심히 탐색하는 2단계 공정을 사용한다. 알쿠라이시의 네트워크에서 참신한 부분은 '일관된 공정'을 사용한다는 것이다. 따라서 그의 네트워크는 훈련받는 데 수 개월이 걸리지만, 일단 훈련받고 나면 '하나의 시퀀스'를 거의 즉각적으로 '하나의 구조'로 전환한다.

스스로 「반복적·기하학적 네트워크(recurrent geometric network)」라고 이름붙인 알쿠라이시의 접근방법은, 전후맥락에 부분적으로 기반하여 단백질의 한 분절(segment)을 예측한다. 그것은 사람들이 문장 속의 한 단어를 해석하는 과정과 비슷하다. 사람의 경우에는 주변의 단어와 핵심단어가 차례로 해석에 영향을 미친다.

알쿠라이시의 알고리즘이 CASP13에서 좋은 성적을 거두지 못한 것은, 기술적 난점을 시사한다. 그는 지난 4월 《Cell Systems》에 실린 논문에서(참고 4) AI의 디테일을 설명하고, 다른 연구자들이 자신의 연구를 확장하기를 바라는 마음에서 코드를 GitHub(참고 5)에 공개했다. (CASP13에서 출제됐던 단백질 중 대부분의 구조는 아직 공개되지 않았으므로, 그는 지금껏 자신의 방법을 알파폴드와 직접 비교할 수 없었다.)

신경망

알파폴드는 CASP13에서 두각을 나타냈고, 한 평가기준에 따르면 다른 알고리즘들을 거의 15%의 스코어 차이로 리드하며 어려운 과제를 수행함으로써 센세이션을 일으켰다.

알파폴드는 두 단계를 거쳐 작동한다. CASP13에 참가한 다른 접근방법들과 마찬가지로, 알파폴드는 다중서열정렬(MSA: multiple sequence alignment)에서부터 시작한다. MSA는 한 단백질의 시퀀스를 데이터베이스 속의 유사한 단백질과 비교하여, '사슬 속에서 서로 이웃하지 않지만, 함께 등장하는 듯한 아미노산쌍들'을 드러낸다. 이는 '그런 아미노산쌍들이 폴딩된 단백질 속에서 가까운 곳에 위치한다'는 것을 시사한다. 딥마인드는 신경망을 훈련시켜, 그런 아미노산쌍들을 찾아낸 후 '폴딩된 단백질 속에서 두 아미노산의 거리'를 예측하게 했다.

자신의 예측을 '단백질 속에서 측정된 정확한 거리'와 비교함으로써, 딥마인드는 '단백질이 폴딩되는 메커니즘'에 대한 예측능력을 향상시키는 방법을 학습했다. 그리고 또 하나의 신경망을 이용하여, 폴딩된 단백질 사슬 속에서 '연속된 아미노산들 간의 결합각도'를 예측했다.

그러나 이상과 같은 첫 번째 단계에서는, 하나의 구조를 독자적으로 예측하는 것이 불가능하다. 왜냐하면 예측된 거리와 각도의 정확한 세트 중에서 '물리적으로 불가능한 것'이 존재할 수 있기 때문이다. 따라서 두 번째 단계에서, 알파폴드는 하나의 시퀀스에 대해 물리적으로 가능한(그러나 거의 무작위적인) 폴딩배열을 만들었다. 이를 위해 또 하나의 신경망 대신 경사하강법(GD: gradient descent)이라는 최적화방법(optimization method)을 이용해 1단계에서 예측된 구조를 반복적으로 세련화함으로써, '상당히 가능한 구조'에 근접한 버전을 만들었다.

CASP13에 참가한 팀들 중 MSA와 GD 중 하나를 사용한 팀은 몇몇 있었지만, 두 가지를 모두 사용한 팀은 하나도 없었다. 첫 번째 단계에서, 대부분의 팀들은 아미노산쌍들의 접촉을 예측했을 뿐, 거리를 예측하지는 않았다. 두 번째 단계에서, 대부분의 팀들은 (거의 자동화된) GD 대신 복잡한 최적화방법을 사용했다.

"알파폴드는 탁월한 성적을 거뒀다. 딥마인드 팀의 수준은 다른 팀들보다 1년 정도 앞서 있었다"라고 쉬는 말했다.

향후 전개방향

딥마인드는 알파폴드에 대한 디테일을 아직 공개하지 않았다. 그러나 CASP13 이후, 다른 팀들은 딥마인드를 비롯한 우수팀들이 사용한 전술을 채택하기 시작했다. "나는 내 심층신경망을 변형하여 알파폴드의 특징 중 일부를 가미했다"고 컬럼비아 소재 미주리 대학교의 청젠린(컴퓨터과학)은 말했다. "예컨대, 거리를 예측하는 단계에서 신경망에 더 많은 층(層)을 추가했다. 층이 더 많아지면 신경망이 더욱 심화되어, 정보를 더욱 심층적으로 처리할 수 있다. 딥러닝이란 바로 이런 것을 말하는 것이다."

"우리는 알파폴드와 유사한 시스템들이 사용되기를 바라고 있다"라고 알파폴드 팀을 이끌었던 딥마인드의 앤드루 시니어(컴퓨터과학)는 말했다.

"CASP13에서, '딥러닝을 단백질 폴딩에 응용하는 방법'에 대해 많은 논의가 이루어졌다. 그로 인해 '단백질 구조 예측을 세련화하는 방법', '폴딩 예측 알고리즘의 신뢰성을 제고하는 방법', '단백질 간의 상호작용을 모델링하는 방법'이 향상될 것으로 기대된다"고 몰트는 말했다.

컴퓨터를 이용한 예측이 신약설계에 당장 사용될 만큼 정확한 건 아니지만, 날로 향상되고 있음을 감안할 때 다른 어플리케이션에 활용되는 것은 가능하다. 이를테면 '변이된 단백질이 질병에 기여하는 메커니즘'이나 '단백질의 어떤 부분이 백신으로 전환되는지'를 알아내는 데 도움이 될 것이다. "새로운 모델들의 유용성이 향상되고 있다"라고 몰트는 말했다.

※ 참고문헌
1. https://deepmind.com/blog/alphafold/
2. https://www.ibric.org/myboard/read.php?Board=news&id=300218&SOURCE=6
3. https://www.nature.com/news/the-revolution-will-not-be-crystallized-a-new-method-sweeps-through-structural-biology-1.18335
4. https://doi.org/10.1016%2Fj.cels.2019.03.006
5. https://github.com/aqlaboratory/proteinnet

※ 출처: Nature (https://www.nature.com/articles/d41586-019-01357-6)

  추천 0
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
양병찬 (약사, 번역가)

서울대학교 경영학과와 동대학원을 졸업하고, 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학대학을 졸업하고 약사면허를 취득한 이색경력의 소유자다. 현재 서울 구로구에서 거주하며 낮에는 약사로, 밤에는 전문 번역가와 과학 리...

다른 연재기사 보기 전체보기 >
[바이오토픽] 델타 변이주는 왜 그렇게 감염성이 높은가?
새로운 실험도구 덕분에, 지금껏 별로 주목받지 않은 SARS-CoV-2 델타 변이주의 변이(R203M)가 밝혀졌다. 그것은 뉴클레오캡시드(N)를 코딩하는 유전자의 변이로, 바이러스...
[바이오토픽] 이번 주 Nature 커버스토리: 고래, 상상을 초월하는 어마무시한 대식가(大食家)
이번 주 《Nature》 표지에는, 캐나다 브리티시 컬럼비아주(州)의 밴쿠버 섬 앞바다에서 돌진섭식(lunge-feeding)을 하는 혹등고래(humpback whale)의 모습이...
[바이오토픽] 강성(剛性)과 탄성(彈性)을 겸비한 폴리머 → 손상된 인체조직 대체, 플라스틱 소비 저감
손상된 인체조직을 대체할 수 있는, 질기고 내구성 높은 폴리머 소재(polymer material)가 개발되었다. 이는 플라스틱의 소비도 줄일 수 있을 것으로 기대된다.  ...
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다. [기사 오류 신고하기]
 
  댓글 0 댓글작성: 회원 + SNS 연동  
첫 댓글을 달아주세요.
 
위로가기
동향 홈  |  동향FAQ
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
써모피셔사이언티픽 광고