제너레이트 바이오메디신 '크로마', 워싱턴대 '로즈TTA폴드 디퓨전' 각각 개발...
텍스트로 구조 또는 기능 설명하면 새로운 단백질 분자 생성
새롭고 효과적인 약물 개발 가능해져

새로운 단백질을 설계할 수 있는 단백질 생성 AI가 나왔다.(사진=제너레이트 바이오메디신)
새로운 단백질을 설계할 수 있는 단백질 생성 AI가 나왔다.(사진=제너레이트 바이오메디신)

텍스트로 설명하면 이미지를 생성하는 '달리(DALL-E)'처럼 텍스트로 구조적 또는 기능적 속성을 설명하면 새로운 단백질 분자를 생성하는 단백질 생성 인공지능(AI)이 개발됐다.

MIT 테크놀로지 리뷰는 1일(현지시간) 제너레이트 바이오메디신과 워싱턴 대학이 생성 AI의 확산 모델을 사용해 새로운 단백질 디자인을 생성하는 '크로마(Chroma)'와 '로즈TTA폴드 디퓨전(RoseTTA Folod Diffusion)’이라는 바이오 달리를 각각 공개했다고 보도했다. 

단백질 생성기는 모양과 크기 및 기능과 같은 특정 속성을 지시하면 새로운 단백질 디자인을 생성한다. 이는 필요에 의해 특정 임무를 수행할 수 있는 새로운 단백질을 찾아내는 것을 가능하게 한다. 궁극적으로는 새롭고 효과적인 약물 개발로 이어질 수 있다.

이와관련해 게보그 그리고리안 제너레이트 바이오메디신 CEO는 "우리는 진화에 수백만 년이 걸린 것을 몇 분 만에 발견할 수 있다"라고 말했다. 또 아바 아미니 마이크로소프트 리서치의 생물물리학자는 "이 작업에서 주목할 만한 것은 원하는 제약 조건에 따라 단백질을 생성하는 것"이라고 말했다. 

단백질은 살아있는 유기체의 기본 빌딩 블록이다. 총 20개의 고유한 아미노산 사슬이 있기 때문에 상상할 수 없을 정도로 많은 수의 독특한 단백질이 가능하다. 각각은 특정 아미노산 서열로 암호화된다. 단백질을 일련의 문자로 생각하기 쉽지만 세포 내에서 단백질은 특정 생물학적 기능을 수행하는 3차원 모양으로 접힌다.

단백질은 음식을 소화하고, 근육을 수축하고, 빛을 감지하고, 면역 체계를 구동하는 등 많은 일을 한다. 사람들이 아플 때도 역할을 한다. 후각이나 시각과 같이 단백질 기능이라고 생각하지 않을 수도 있는 것들도 사실 단백질에 의해 가능하다.

이번에 공개된 두 종의 단백질 생성 AI에 사용한 확산 모델은 입력에서 노이즈를 제거하도록 훈련된 신경망이다. 임의의 픽셀 혼란을 주면 이를 인식 가능한 이미지로 바꾸려고 시도한다.  

크로마에 의해 생성된 대칭 단백질 구조(사진=제너레이트 바이오메디신)
크로마에 의해 생성된 대칭 단백질 구조(사진=제너레이트 바이오메디신)

‘크로마’에서는 단백질이 만들어지는 아미노산 사슬을 풀면 노이즈가 추가된다. 이러한 사슬의 무작위 덩어리를 제공하면 크로마는 이들 사슬을 결합해 단백질을 형성하려고 한다. 결과가 어떻게 보여야 하는지에 대한 지시된 제약 조건에 따라 크로마는 특정 속성을 가진 새로운 단백질을 생성할 수 있다.

최종 결과는 비슷하지만 ‘로즈TTA폴드 디퓨전’은 다른 접근 방식을 취한다. 확산 모델은 훨씬 더 뒤섞인 구조로 시작한다. 또 다른 주요 차이점은 딥마인드의 알파폴드가 하는 것처럼 단백질 구조를 예측하도록 훈련된 별도의 신경망에서 제공하는 단백질 조각이 어떻게 함께 맞춰지는지에 대한 정보를 사용한다는 것이다.

SARS-CoV-2 스파이크 단백질에 결합하는 로즈TTA폴드 디퓨전에 의해 생성된 단백질 구조(사진=워싱턴 대학)
SARS-CoV-2 스파이크 단백질에 결합하는 로즈TTA폴드 디퓨전에 의해 생성된 단백질 구조(사진=워싱턴 대학)

크로마와 로즈TTA폴드 디퓨전은 모두 원형, 삼각형 또는 육각형 단백질을 포함해 다양한 대칭성을 가진 단백질을 생성하는 결과를 보여준다.

제너레이트 바이오메디신은 크로마가 만들 수 있는 디자인을 생성했는지를 테스트하기 위해 일부 디자인의 시퀀스를 가져와 다른 AI 프로그램을 통해 55%가 크로마에 의해 생성된 구조로 접힐 것으로 예측된다는 것을 확인했다. 이는 이것이 생존 가능한 단백질을 위한 디자인임을 시사한다.

워싱턴 대학도 비슷한 테스트를 했다. 그들은 연구실에서 로즈TTA폴드 디퓨전이 생성한 디자인 중 일부를 실제 단백질로 만들었다. 브라이언 트리페 워싱턴대 연구원은 "이것은 단순한 개념 증명 이상이다"며 "우리는 실제로 이것을 사용해 정말 훌륭한 단백질을 만들고 있다"고 말했다.

로즈TTA폴드 디퓨전으로 생성된 단백질 구조(왼쪽)와 실험실에서 생성된 동일한 구조(오른쪽) (사진=워싱턴 대학)
로즈TTA폴드 디퓨전으로 생성된 단백질 구조(왼쪽)와 실험실에서 생성된 동일한 구조(오른쪽) (사진=워싱턴 대학)

워싱턴 대학의 가장 중요한 결과는 혈중 칼슘 수치를 조절하는 부갑상선 호르몬에 부착되는 새로운 단백질의 생성이다.

생물학자인 데이비드 베이커 워싱턴대 교수는 "우리는 기본적으로 모델에 호르몬만 주고 그것에 결합하는 단백질을 만들라고 지시했다"고 말했다. 그들이 실험실에서 새로운 단백질을 테스트했을 때, 그들은 다른 계산 방법을 사용해 생성할 수 있는 어떤 것보다 더 밀접하게, 그리고 기존 약물보다 더 밀접하게 호르몬에 결합한다는 것을 발견했다. 베이커는 "이 단백질 디자인은 허공에서 나왔다"라고 말했다. 

그리고리안 CEO는 "새로운 단백질을 발명하는 것은 첫 단계에 불과하고, 중요한 것은 효과가 있는 약을 만들 수 있느냐 없느냐"라며 "임상실험까지는 몇 년이 걸릴 수 있는 일이지만 AI가 가속화할 방법을 찾을 것으로 생각되다"고 말했다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • 메타, '단백질 구조 예측'서 딥마인드 뛰어 넘었다
  • 딥마인드, 단백질 구조 솔루션으로 인류에 선물
  • AI가 약물 후보 분자 수천 배 빠르게 찾아