메뉴바로가기본문바로가기.

동아사이언스

단백질 구조 예측 AI 구글·페이스북 경쟁...'알파폴드' 대항마 'ESM폴드' 등장

통합검색

단백질 구조 예측 AI 구글·페이스북 경쟁...'알파폴드' 대항마 'ESM폴드' 등장

2022.11.02 15:29
'메타' 개발 ESM폴드, 6억개 단백질 구조 예측 결과 공개
단백질의 3차원 구조를 재현한 모식도. 메타가 개발한 단백질 구조 예측 AI가 6억 개 이상의 단백질 구조를 예측하는데 성공했다. 게티이미지뱅크
단백질의 3차원 구조를 재현한 모식도. 메타가 개발한 단백질 구조 예측 AI가 6억 개 이상의 단백질 구조를 예측하는 데 성공했다. 게티이미지뱅크

페이스북의 모회사인 메타가 직접 개발한 인공지능(AI)으로 단백질 구조 약 6억 개를 예측하는데 성공했다.

 

메타는 텍스트를 예측하는 '대형 언어 모델(LLM)'이 적용된 AI 'ESM폴드(ESMFold)'로 박테리아와 바이러스 등 미생물의 단백질 약 6억1700개 이상을 예측한 결과를 논문 사전공개 사이트 '바이오 아카이브' 11월 1일자에 공개했다. 대형 언어 모델이란 일부 글자만 적어도 전체 단어를 예측하는 자동완성 기능에 사용되는 AI다.

 

단백질은 20여 개의 아미노산이라는 단위체로 이뤄져 있고 각각의 아미노산은 알파벳 약자를 가지고 있다. 글리신은 'G', 세린은 'S'로 표기하는 식이다. 연구팀은 단백질의 구조를 20개의 아미노산 알파벳으로 이뤄진 서열정보로 표기한 뒤 이를 이용해 텍스트 예측 AI를 학습시켰다. 그 결과 일부 아미노산의 서열이 가려져 있을 때도 단백질의 구조를 '자동완성' 하는 AI 'ESM폴드'가 탄생했다.

 

메타는 ESM폴드로 2주만에 6억1700개의 단백질 구조를 예측하는 데도 성공했다. 이중 3분의 1 이상은 전체 단백질의 모양이 정확하고 경우에 따라서는 원자 수준까지도 식별할 수 있도록 정교했다. 나머지 3분의 2는 낮은 신뢰도로 예측할 수 있었다. 세르게이 옵치니코프 미국 하버드대 교수는 ESM폴드가 예측하지 못한 부분에 대해 "우리가 전혀 알지 못하는 단백질 부위가 있는 것으로 보인다"고 말했다.

 

ESM폴드의 단백질 구조 예측 정확도가 구글 딥마인드의 단백질 구조 예측 AI '알파폴드'에 미치는지는 아직 미지수다. 다만 마치 검색을 하듯 빠른 속도로 손쉽게 단백질 구조 예측이 가능하다는 것은 충분한 강점으로 작용한다는 평가가 나온다. 버르크하드 로스트 독일 뮌헨공대 컴퓨터공학 및 컴퓨터생물학과 교수는 "단백질 구조 예측이 더 단순하고 저렴해질 수 있다는 가능성을 열어줬다"고 말했다.

 

딥마인드는 당장 ESM폴드가 만든 단백질 구조를 데이터베이스로 활용할 계획은 없지만 가능성은 열어두겠다는 입장이다. 알파폴드 개발에 참여한 마틴 스타이네거 서울대 생명과학부 교수는 "(ESM폴드가) 어두웠던 영역을 해결할 수 있는 기회가 될 것"이라고 평가했다.

관련 태그 뉴스

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기