최신 연구동향 정보를 제공하기 위해 생명과학관련 정보제공자를 모집합니다.
Bio리포트 학회참관기
HUPO 2022 참관기
천성민(서울대학교병원)
목 차
1. Human Proteome Organization 2022 (HUPO 2022)
1.1. HUPO 2022
1.1.1. HUPO Pre-Congress Training Course
2. 주요 발표 내용
2.1. 12월 5일 주요 발표 내용
2.1.1. Biognosys Spectronaut 17
2.1.2. Plenary Session: Modeling Protein Structure
2.1.3. 주요발표 1
2.2. 12월 6일 주요 발표 내용
2.2.1. 주요 발표 2
2.2.2. Bioinformatics Hub Program
2.2.3. 주요 발표 3
2.2.4. 주요 발표 4
2.3. 12월 7일 주요 발표 내용
2.3.1. 주요 발표 5
2.4. 12월 8일 주요 발표 내용
3. 총평
1. Human Proteome Organization 2022 (HUPO 2022)
1.1. HUPO 2022
1.1.1. HUPO Pre-Congress Training Course
HUPO2022는 12월 4일부터 8일까지 5일에 걸쳐 개최되었다. 이번 학회의 개최지는 북아메리카 대륙의 멕시코 칸쿤으로, 칸쿤 중심부인 Cancun Center에서 강의가 이루어졌다. 이번 HUPO는 2019년 이후로 3년 만에 오프라인에서 진행된 행사로, 전 세계 천여 명에 이르는 수많은 학자들과 단백체 분석 기술 회사의 연구자들이 참가하였다.
4일은 본 학술대회에 앞서 SomaLogic의 데이터를 활용한 Proteomic Studies Along the Lifespan, 단일 단백체 분석 기법, 파킨슨병 치료를 위한 멀티오믹스 분석 기법, 단백질 구조 역학, 번역 후 변형 분석법, Seer 사의 질량분석 기반 단백체를 위한 표준화, Human Proteome Project의 진행 사항 업데이트에 대한 워크숍과 네트워킹을 위한 교류 시간이 마련되었으며, 지난 2020, 2021년도의 HUPO 온라인 학회의 10명의 수상자들의 오프라인 수상식이 진행되었다.
1일 차는 주로 컨소시엄을 위한 회의와 단백체 분석을 위한 유료 워크숍이 진행되었으며, 본격적인 학회 발표는 2일부터 진행되었다.
2. 주요 발표 내용
2.1. 12월 5일 주요 발표 내용
2.1.1. Biognosys Spectronaut 17
12월 5일의 첫 발표는 질량분석 기반 데이터 분석을 위한 소프트웨어를 개발하는 Biognosys의 분석 기술 업데이트 및 소프트웨어 발표가 진행되었다. Spectronaut은 LC-MS 기반 단백체 데이터인 스펙트럼 데이터를 분석하기 위한 소프트웨어로, Data Independent Acquisition (DIA) 기법으로 획득한 단백체 스펙트럼 데이터를 분석하는데 특화되어 있다. DIA는 질량분석기를 통한 스펙트럼을 획득하기 위한 전략 중에 하나로, liquid chromatography (LC)에서 조각난 펩타이드가 hydrophobicity에 따라서 분리되어 질량분석기로 들어가게 되는데, 이때 들어온 물질을 각각 분리하지 않고, 특정 범위의 mass to charge (m/z) 범위 안에 해당하는 물질을 전부 ms2 분석을 하는 전략이다. 이는 질량분석기에 들어와 ms1에 측정된 물질의 양이 가장 높은 것부터 하나씩 분리하여 ms2 분석을 진행하는 DDA (Data Dependent Acquisition)과 다르게, 물질을 하나씩 분리하지 않기 때문에 하나의 스펙트럼에 크기가 비슷한 펩타이드 조각의 스펙트럼이 섞여 독립적인 분석이 불가능하지만, 양이 적은 펩타이드의 스펙트럼을 분석상에서 제거하지 않고 얻을 수 있다는 장점이 있다. 다만 기존의 스펙트럼 데이터를 분석하여 펩타이드를 동정하는 과정에서 데이터베이스에 단일 펩타이드의 스펙트럼 정보 유무에 따라 식별 여부가 갈리며, 분석 장비에 따라 동일한 펩타이드가 측정되는 Retention time (RT) 이 변동되는 문제로 인해, DIA로 획득한 펩타이드 스펙트럼 데이터에서 단백질을 동정하는 과정에서 정확도가 떨어지거나 잃어버리는 정보가 많았다. 이는 기존의 DIA 분석에 사용되는 데이터베이스가 식별된 스펙트럼 정보를 요구하기 때문인데, spectronaut 17은 DirectDIA+ 분석 알고리즘을 도입하여 이 문제를 해결하고자 하였다.
DirectDIA+는 FASTA 파일로 구성된 단백질 서열 정보를 기반으로 Tryptic peptide를 예측하고, 질량분석기의 ms2를 통해 획득 가능한 스펙트럼 정보를 계산하여, 데이터베이스화하기 때문에, 기존의 DDA를 통해 질량 분석된 특정 펩타이드의 스펙트럼 정보 뿐 아니라 서열정보만을 가지고 있는 단백질의 스펙트럼도 데이터베이스로 사용 가능하다.
이때 질량분석 크기와 펩타이드를 구성하고 있는 아미노산 조성에 따라, 해당 서열의 hydrophobicity를 계산하고, Biognosys에서 개발한 표준 artificial 펩타이드 서열인 iRT의 RT에 따라, 해당 서열의 Retention time을 머신러닝 기반 알고리즘으로 예측하며 서열 동정의 정확도를 높였다.
또한 iRT를 기반으로 Spectronaut에 포함된 QuiC 알고리즘을 활용하면 여러 종류의 Mass Spectrometry 장비에서 획득한 질량 분석 결과를 혼용하여 사용 가능하다고 하였는데 이는 liquid chromatography, 질량 분석에 따른 배치, 사용한 용매 및 런타임에 따른 fluctuation을 각 샘플에서 측정된 iRT의 질량분석 시간(RT)에 따라 전체 펩타이드의 질량분석 측정 시간을 보정하여, 서로 다른 장비에서 획득한 데이터를 동일하게 표준화 할 수 있었다. 이렇게 라이브러리 스펙트럼을 사용하지 않고, DirectDIA+를 활용한 결과 기존보다 측정된 Precursor가 35% 증가되었으며, 전체 동정 된 단백질은 10%가량 증가되었다.
또한 PTM 분석 중 phospho-protein의 분석 또한 DirectDIA+를 통한 결과를 공개하였는데, 펩타이드의 번역 후 변형이 이루어지면, 기존 서열과 m/z가 차이가 나게 되어, 여러 펩타이드의 스펙트럼이 섞여서 데이터를 획득하는 DIA 방식에서 높은 False Positive가 있을 수 있으나, Spectronaut 17은 기존의 다른 분석 기법보다 높은 정확도를 보이는 것을 보여주었다. 기존의 오픈소스를 통해 공개된 DIA-NN과 비교하였을 때는 global proteome 분석은 결과가 비슷하거나 조금 더 정확한 결과를 보였고, 전체 단백질 양이 적은 경우나 phospho-protein의 경우 Spectronaut 17의 분석 결과가 10~20% 높은 식별 및 정량 결과를 보여주었다.
2.1.2. Plenary Session: Modeling Protein Structure
2020년에 14번째로 개최된 CASP14 (Critical Assessment of Protein Structure) 단백질 구조 예측 대회에서 알파폴드의 단백질 구조 예측 정확도 점수가 공개되었다. 여기서 구글의 자회사인 딥마인드(DeepMind)가 개발한 인공지능 기반 단백질 구조 예측 소프트웨어 "알파폴드"가 다른 경쟁팀의 스코어와 현격한 차이를 보이며, 실험적으로 결정된 구조에 거의 상응하는 정확도의 단백질 구조를 아미노산 서열로부터 예측할 수 있다는 것을 보여주었다.
사실 알파폴드는 2018년 CASP13에서 첫 공개가 되었는데 당시 기존 연구팀들의 최고 점수가 40점이었던 것에 반해 알파폴드1은 60점이라는 점수를 기록했고, 2020년 12월 CASP14에서 공개한 알파폴드2는 90점에 근접한 점수를 받았다. 컴퓨터 예측이 90점 이상을 기록하면, 실험과 대등한 결과로 간주한다는 점을 고려하면 알파폴드2의 결과 정확도는 엑스선 결정학이나 극저온 현미경 등을 통한 실험적 구조 결정 결과와 대등한 수준인 것이다.
알파폴드1을 통해 구조정보를 높은 정확도로 예측할 수 있다는 결과를 얻은 뒤, 이를 활용해 인간 단백질 서열 전부를 구조예측하기 위한 프로젝트가 진행되었다. 발표 연사인 Robert Winkler는 EMBL-EBI 소속 연구자로, 이 프로젝트에 참가하였는데 알파폴드를 사용해 Uniprot protein database에 있는 인간 단백질 서열 전부를 구조 예측하여, 데이터를 공개하였다.
서열 구조 예측 정보는 AlphaFold Protein Structure Database 혹은 Uniprot에서 접근 가능하며 2021년 Nature에 논문이 공개된 바 있다. 이 당시 데이터베이스로 활용한 PDB 에는 전체 인간 단백질의 약 17%만 residue의 구조 정보가 있었는데 알파폴드를 통해 예측 가능한 구조 정보는 인간 단백체의 92% 이상, 실험적 데이터에 근접한 수준의 정확도를 보이는 서열은 30~40% 정도가 높은 정확도로 예측되었다. Robert Winkler는 이 데이터가 실험적 결과와 높은 확률로 근접할 것이지만 prediction 된 결과임을 잊지 말라는 조언을 하였다.
알파폴드1에는 몇 가지 단점이 존재했는데, 단일 단백질의 구조 예측만 가능하다는 점, 단백질과 결합하여 구조가 변경될 수 있는 ligand의 정보가 구조 예측에 활용되지 않았다는 점, 마지막으로 서열의 mutation에 따라 구조가 변경될 수 있음을 학습시키지 않은 점 3가지를 꼽았다.
단백질은 단일 구조를 이루기도 하지만 complex를 이루거나, DNA 혹은 RNA와 결합하였을 때 특정 구조를 이룰 수도 있고 서열 내 존재하는 흐느적거리는 부분(disordered region) 등은 다른 단백질과의 결합에 큰 영향을 주기도 하지만 기존의 실험적 결과로 얻기 어려운 정보이기 때문에 이를 위한 학습이 충분하지 못하였다.
이는 곧 다른 연구팀들과 함께 문제가 해결되었는데, 알파폴드2 개발을 통해 서열 예측 정확도가 높아진 한편, Alphafold-Multimer가 개발되어 여러 단백질과의 complex 구조를 예측할 수도 있게 되었고, 발표에서 공개하지는 않았으나 최근 Nautre 지를 통해 AlphaFill이라는 ligand와 결합한 단백질 구조를 예측하는 모델을 공개하기도 하였다.
2.1.3. 주요 발표 1
- Population Proteogenomics for precision healthcare
최근 UKBiobank에서 Olink 사의 PEA기술 기반 단백체 분석 결과를 공개한 바 있다. 집단 단백유전체학 분야에서도 기존의 SomaLogic 사의 SomaScan과 최근 공개된 Olink 사의 SCALLOP 컨소시엄의 데이터를 활용하여 GWAS 데이터와 함께 다양한 단백체 연구를 진행 중인데, 이러한 단백질 발현 정보를 기반으로 pQTL의 분석이 활발하게 진행되고 있다.
GWAS데이터와 단백질 발현 정보를 기반으로 분석하여 공개한 내용 중 기존의 GWAS 분석을 통해 성별 특이적인 4,403 woman specific, 3,945 men specific variant를 단백질 발현 정보와 함께 pQTL 분석을 하여, 성별 특이적인 현상을 분석하고자 하였는데, 흥미롭게도 전체 4,979개 단백질 중 고작 17개만 성별 특이적인 pQTL임을 확인할 수 있었다.
- Proteomics Beyond Mass Spectrometry: New Techniques for Protein ID and Quantification
단백질체학 분야에서 아미노산 서열 정보를 직접적으로 시퀀싱 할 수 있는 방법은 현재까지 질량분석기를 이용하는 방법 뿐이다. 현재 Next Generation Sequencing을 기반으로 한 2세대, 3세대 염기서열 분석 방법은 DNA를 기반으로 서열을 증폭하여 서열 분석을 하고 있는데, 단백질은 현재까지 서열을 증폭할 방법이 존재하지 않는다. 하이브리드 기반의 서열 분석 방법으로는 Aptamer나 affinity reagent 기반의 방법이 개발되고 있으나, 이는 아미노산 서열을 직접적으로 읽어내는 방법이 아니고, Nanopore를 기반으로 한 펩타이드 서열 분석 방법이 고안되고 있으나 언제 개발이 가능할지 아직은 알 수 없다. 따라서 단일 단백질의 서열을 결정하여 분석 가능한 방법은 현재까지 Mass spectrometry를 기반으로 한 단백질 분석 방법이 주류를 이루고 있으나, 최근 Edman 반응을 기반으로 하여 peptide N-term부터 아미노산을 하나씩 제거하며, 아미노산에 붙은 형광 물질을 읽어내는 방법이 개발되고 있다. NAUTILUS 사의 Prlsm 분석 기법이 바로 그것인데, plate에 조각난 단백질의 C-term 부분을 붙인 뒤, 아미노산에 반응시킨 형광 물질을 N-term부터 Edman 반응으로 하나씩 잘라내며, 잘린 아미노산에 붙은 형광 물질을 디텍션 하는 방법이다. 하지만 큰 단점이 존재하는데, 모든 아미노산에 각기 다른 형광물질을 다는 것이 불가능하여, 현재까지는 두세 개 정도의 아미노산만 서열 분석이 가능하다는 점과 형광물질을 아미노산의 잔기에 붙여야 하기에, 특정 아미노산(K, L 등)에만 형광물질을 붙일 수 있어서 몇 가지 아미노산이 어떤 간격으로 존재하는지 정보만을 얻는 것이 가능하다는 단점이 있다.
따라서 해당 서열 정보를 기반으로 단백질을 동정하기 위해서 K 나 L 등의 아미노산의 위치 정보를 기반으로 단백질을 동정하게 되는데, 이로 인해 동정 정확도가 떨어진다는 큰 단점이 있다.
이 외에도 짧은 epitope을 활용하는 등 다양한 단백질 식별을 위한 방안을 고안하는 발표가 있었으나 아직까지 기술적 완성도가 현재 생명과학 분야에서 요구하는 분석량과 정확도에 현저히 부족하지만, 질량분석 이외의 단백질 식별 및 동정 방법을 다양하게 고안하고 있다는 것은 향후 기술이 더 발전하면 기존의 기술을 대체할 새로운 분석 방법이 등장하게 될 수도 있음을 기대하게 하였다.
2.2. 12월 6일 주요 발표 내용
2.2.1. 주요 발표 2
- SCIEX, Agilent, Bruker 신규 질량분석기 업데이트 발표
질량분석기를 주로 개발하고 있는 Scienx, Agilent, Bruker, Thermofishers 사 들은 몇 년 주기로 신규 질량분석기를 개발하고 이를 통해 더 빠르고 많은 양의 물질을 질량분석 할 수 있는 기술을 발표해 왔다. 그중 SCIEX는 SWATH-MS를 기반으로 한 질량분석 장비를 개발 중인데, 이번에 공개된 ZenoSWATH 질량분석기를 통한 분석 결과를 공유하였다. 기존의 질량분석 장비에 비해 최대 20퍼센트 이상의 성능 향상폭을 보였는데, 특히 DIA 기반의 단백체 분석 결과의 분석량과 결과 정확도가 높게 향상된 것을 보였다. 그중 Evosep 사의 EvosepOne LC장비와 함께 분석하였을 때 다량의 샘플을 빠른 속도로 분석할 수 있음을 보여주었는데, 당일 발표한 Agilent, Bruker 사의 질량분석 장비 역시 Evosep 사의 LC 장비를 통해 분석 시간과 샘플 처리 시간을 줄이고, 분석량을 증가하는 것을 보여주었다. 또한 Bruker에서는 TimsTOF Pro2와 TimsTOF-HT 두 가지 종류의 질량분석장비를 공개하였는데, 이를 통해 EvoSepOne과 함께 하루에 100여 개의 샘플을 질량 분석할 수 있는 속도를 보여주었다.
2.2.2. Bioinformatics Hub Program
- Annotating translated smORF in GENCODE & Implications of smORF detections for the HPP
이번 2022 HUPO 미팅 기간 동안 단백체 분석 기법의 각 분야 데이터 분석가들이 각자의 연구 분야에 대한 방향과 필요성에 대한 논의를 할 수 있는 Bioinformatics hub program이 진행되었다. 학회 기간 중 참석하였던 내용은 smORF에 대한 미팅이었는데, GENCODE 팀의 Jonathan Mudge와 PeptideAtlas 팀의 Eric Deutsch 가 미팅을 주도하였다.
일반적으로 유전자의 발현에 따른 mRNA에 Ribosome이 결합하여 open reading frames (ORFs)를 인식해 단백질로 번역한다고 알려져 있는데, Jonathan Mudge의 최근 연구 결과에 따르면 (2022 Nature Biotech) 5` UTR이나 3` UTR 영역에서 번역된 100aa 보다 짧은 펩타이드 서열 및 ncRNA에서 번역될 것으로 예상되는 non-canonical Ribo-seq ORFs 서열을 발견하였고, 이를 peptideAtlas와 함께 질량분석 결과에서 확인하였다고 발표하였다. 이러한 펩타이드 서열의 기능적 탐색을 해 본 결과 대체로 immunopeptide로 보이는 부분이 많은 것으로 확인되었다. 해당 미팅 최종적 목적은 이렇게 동정 된 단백질 서열을 GENCODE에서 어떤 biotype으로 분류할 것인지 논의하는 것이었다. 이를 immunopeptide라고 구분하면, 기존의 HLA 유전자에서 translation 된 immunopeptide와 구분을 어떻게 할 것인지, 해당 서열이 단백질로 구분할 것인지 아니면 펩타이드인지, 단순 변역 프로덕트 인지 등등에 대한 논의가 진행되었다. 이는 GENCODE에서 발견 및 동정한 유전자 서열 정보를 기반으로 다양한 데이터베이스에서 이를 체계적으로 검증하고 등록하는 등 인간 유전체 및 어노테이션 표준을 정하는 시작 지점이 될 수 있기에, 기존 연구자들과 논의를 통해 해당 결과가 적합한지, 어떤 이름을 사용할지, 기존의 체계 및 다른 데이터베이스와 상충되지 않을지 논의하기 위함 이었다. 해당 미팅에는 HPP 프로젝트를 구축하는데 기여하고, 진행하고 있는 Gil Omenn, Lydie Lane와 EBI의 ProteomeXchange 컨소시엄의 리더인 Juan Antonio Vizcaino 등이 참여하여 두세 시간에 걸친 논의가 이어졌다.
2.2.3. 주요 발표 3
- Beyond ID – Why High Precision and Accuracy for Quantitative Proteomics is Needed for Biological Insight
한 개의 세포 당 단백질의 숫자는 mRNA에 비해서 더 높은 다이내믹 레인지를 가지고 있다. 따라서 발현이 아주 높은 단백질은 쉽게 정보를 얻을 수 있으나, 이로 인해 발현이 낮은 것들은 정보를 얻는 것이 상대적으로 어려워진다. 질량분석 기반 단백체학 분석 기법에서는 다양한 기술적 방법과 정밀도와 속도가 높은 질량분석기의 개발을 통해 많은 단백질을 동정할 수 있게 되었고, 얻을 수 있는 정보의 양이 많아졌기에 이제는 소량 존재하는 단백질의 양까지 고민감도로 정량하기 위한 다양한 검증 및 기술 개발이 필요한 시점이 되었다. 단일세포 전사체 분석 방법이 개발된 이후 NGS 기술 기반의 전사체 분석 기법이 다양한 생물학 분야에서 활용되고 있다. 이는 염기서열이 증폭 가능하기에 소량 존재하는 서열을 감지 할 수 있기 때문인데, 이와 반대로 단백질은 증폭이 불가능하기에 소량의 샘플의 단백질을 최대한 손실 없이 분석하는 것이 필요하다. ThermoFisher 사의 Obitrap 기반 질량분석기를 기반으로 한 분석 결과를 공유한 발표는 Jesper V. Olsen의 주도로 이루어졌는데, FFPE 조직 슬라이드 시료에서, 단위면적을 다양하게 쪼개어 1ug의 조직에서부터 2.5ng의 조직 크기를 기반으로 분석 효율을 증가시키기 위한 실험 결과를 발표하였다. 특히 전체 단백질에서 소량 발견되는 phospho-protein을 분석하기 위한 결과를 공유하였는데, 이를 분석하기 위해 샘플을 fractionation 하는 것이 좋은가, fractionation을 phosphopeptide enrichment 하기 전 혹은 한 뒤에 하는 것이 좋은가, 이 결과를 TMT와 같은 물질로 multiplexing 하는 것이 좋을지 혹은 LFQ나 DIA 방법을 사용하는 것이 좋을지 몇 가지 의문을 두고 실험을 비교하였다. 그중 TiO2를 사용해 Phospho-enrichment를 진행한 동일 시료를 LFQ, TMT labeling 24Fraction MS2 , TMT labeling 24Fraction MS3, SILAC labeling 10Fraction MS2 방법으로 각각 분석하여 결과를 비교하였고, 이중 TMT labeling 24Fraction MS2로 분석한 결과가 가장 많은 phospho-protein을 정성, 정량 분석하였고 반드시 정확한 정량 분석이 필요한 것이 아닌 이상 MS2, TMT-labeling 기반 정량화 분석의 사용을 추천하였다.
그 외 최근 진행하였던 Olsen lab에서 진행된 시료 분석량에 따른 결과, directDIA를 통한 분석 결과, offline-fractionation과 short LC gradient를 사용한 분석법 등등을 기반으로 phospho-peptide 분석을 위한 벤치마크 결과를 공개하였다. 분석 장비는 EvoSep One과 Obitrap Exploris 480을 사용하여, TMT-Fractionation, single-shot, stage-tip fractionation, DIA LFQ 분석 방법을 시료 양에 따라서 비교하였다. 한 run 당 12.5ug의 start material로 사용한 결과가 가장 많은 양의 단백질을 동정하였고, TMT-labeling with fractionation 한 방법이 높은 정확도를 보이나, LFQ-DIA분석 방법 역시 이에 근접한 수준의 결과를 보였다. 다만 시료 양이 적을 때의 정확도가 급격하게 감소하는 것을 보여 최종적으로 각 방법에 대해, 시료 양에 따른 방법의 최적화된 방법의 선택과, 전체 질량분석 시간의 증가, 특정 장비의 필요성 등을 따져, 사용 가능한 시료가 적고, 분석 소요시간이 충분히 확보 가능할 경우에는 TMT-labeling 한 시료를 Stage Tip Fractionation 하는 방법을, 시료가 많고 가장 높은 depth를 확보하고 싶을 경우는 TMT-labeling 한 시료를 Microflow fractionation 하는 방법을, 장비가 있고, 최대한 많은 수의 시료를 짧은 시간 안에 분석해야 하면 DIA-LFQ 방법을 사용하여 분석하는 것을 벤치마크 결과로 공유하였다.
2.2.4. 주요 발표 4
- The human proteome grand project
인간 단백체 프로젝트 (HPP)의 진행 이후 단백체 조직기구인 HUPO가 같이 설립되어 다양한 실험실에서 진행된 결과를 공유하기 위한 자원 관리 시스템들을 구축하였다. 대표적으로 HPP에서 진행된 srmatlas, nextprot, MassIVE, peptideAtlas, Proteomexchange, proteinAtlas 등이 있으며, 이러한 데이터베이스를 통해 데이터 공개 및 재사용을 위한 가공 등이 이루어졌다. 그 외에 기존의 DNA 서열로부터 단백질 서열을 예측 및 획득하는 과정과는 반대로 단백체 수준에서 발현된 유전자를 발굴하기 위한 다양한 확장이 이루어지고 있고, 이를 위해 non-canonical ORF 서열을 찾기 위한 프로젝트가 진행 중이다.
오전의 smORFs 미팅에서 발표하였던 Jonathan M Mudge의 non-canonical ORFs를 찾은 연구에 대한 발표가 진행되었는데, 기존의 ORF의 protein coding region이 아니라 uORFs, Dual frame translation 및 lncRNA에서 유래된 lncRNA ORFs, Pseudogene에서 유래된 translated pseudogene 등을 Ribo-Seq ORFs 에서부터 발굴하여, 동정하였다. 물론 일부 서열들의 번역체는 생물학적 노이즈 일 가능성이 있으며, 일부 cancer 등 세포의 비 정상적 상태에서 Aberrant protein 등이 생길 수 있으나, 이러한 단백질이 전부 기능이 없거나 노이즈라고 보기는 어렵다. 이 팀에서는 HUPO-HPP 팀과 Peptide Atlas 팀이 GENCODE, HGNC, Uniprot이 있는 EMBL-EBI 팀과 모여서 프로젝트를 진행하였으며, 최종적으로 총 7264개의 non-canonical Ribo-seq ORFs를 발견하였다. 이 단백질 서열들은 대체로 아직 어노테이션이 진행되지 않았으며, 여러 논란의 여지가 여전히 남아있으나 높은 서열 보존성을 PhyloCSF로부터 보이고, dual-frame ORFs로 발견된 POLG 유전자의 서열은 기존에 알려진 start codon뿐 아니라 upstream UTR에서부터 발현되는 형태를 보였다. 이러한 유전자가 대략 1400여 개 정도 있는 것으로 공개하였는데, 이를 통해 기존의 하나의 유전자 서열에서 여러 단백질이 발현하기 위한 방법이 alternative splicing 말고도 alternative translation이 있을 수 있다는 의견을 제시하였다.
2.3. 12월 7일 주요 발표 내용
2.3.1. 주요 발표 5
- Computational Proteomics
시료 전처리 기법과 자동화 시스템, 고성능 액체 크로마토그래피 및 초고속 질량분석기의 개발을 통해 질량분석 스펙트럼 기반 단백체 데이터는 전례 없는 속도로 대규모 데이터를 생산하고 있으며, 한편 시료당 데이터 사이즈 역시 큰 편이다. 이러한 대규모 데이터를 빠른 속도로 처리하여 정제하는 것 역시 중요한 부분이며, 이 발표에서는 스펙트럼 데이터로부터 펩타이드 서열 동정, 단백질 번역 후 변형 동정, phospho 및 glycol peptide의 분석에 대한 발표가 진행되었다. 첫 발표는 최근 활발하게 활용되고 있는 FragPipe 분석 파이프라인을 개발한 Alexey Nesvizhskii 팀의 PTM 분석을 위한 파이프라인 개발과 분석 업데이트에 대한 발표가 진행되었다. bottom-up proteomics 방식으로 LC-MS spectrum analysis를 진행할 때는, 단백질을 펩타이드로 절단 및 정제하여 LC 시스템에서 펩타이드의 용해도에 따라 순차적으로 시료를 질량분석기에 통과시켜 질량분석 하게 되는데, 이때 동일한 시간에 들어온 전체 시료를 MS1 질량분석 후, 각 물질의 크기와 양에 따라 질량을 측정하게 된다. 이후 가장 양이 많이 측정된 특정 크기의 분자를 MS2 분석을 위해 부순 뒤 이를 MS2 질량분석을 하여 물질의 스펙트럼을 측정하게 된다. 이 스펙트럼의 정보와 이론상 아미노산 서열이 부서져 나타나는 스펙트럼을 컴퓨터로 비교하여 스펙트럼을 아미노산으로 동정하게 되는데, 이때 생기는 한계점 중 하나로 펩타이드에 있는 번역 후 변형에 따라 이론적 질량 크기가 달라지는 문제와 MS1에서 측정된 동일 크기의 물질이 온전히 한 가지의 물질이 아닌 점(아미노산이 다르지만 펩타이드의 분자량이 같을 수 있는 등) 때문에 한 개의 MS2 스펙트럼에 여러 펩타이드의 스펙트럼이 같이 나타나게 된다. 그 이외에 몇 가지 고려할 점이 있지만 대표적으로 이 두 가지 문제가 스펙트럼 동정 과정의 정확도에 큰 영향을 주며, 이를 해결하기 위해 Open-search라는 방법이 적용되기도 하고, 한 개의 스펙트럼에서 여러 개의 아미노산 서열을 동정하기 위한 시도가 진행되고 있다.
FragPipe 역시 최근 업데이트를 통해 PTM-search를 위한 알고리즘 개선과 여러 스펙트럼을 동정하고 decoy 판별을 위한 업데이트를 진행하였다. 특히 특정 물질로 인위적인 펩타이드 변형을 일으킨 뒤 스펙트럼 서치를 통해 이러한 변형 펩타이드를 발견할 수 있는지 벤치마크 하였으며, 전반적인 분석 시간을 줄이더라도 찾아내는 펩타이드를 증가시키기 위한 개선이 진행되었다. 또한 TMT를 사용한 시료 멀티플렉스를 통한 분석에 표준적으로 사용되고 있는 분석 프로그램인 Proteome discoverer와 비교하여 FragPipe를 사용하였을 때 어떤 장단점이 있는지 비교 분석 하여 성능을 비교하였고, 이를 통해 전반적인 분석 시간을 줄이고 데이터 분석을 자동화할 수 있음을 보여주었다.
두 번째 발표는 일본의 Kiyoko Aoki-Kinoshita 팀의 Glycoprotein에 대한 데이터베이스 구축에 대한 발표가 진행되었다. 단백질은 mRNA에서 번역되어 구조를 이루어 기능을 수행하지만, 많은 단백질들이 번역 후 변형에 의해 기능의 변화, 활성화, 구조의 변화 등이 이루어지는 것으로 보고되고 있다. 특히 글라이코프로틴은 세포의 외부막에 주로 분포하여 cell-cell interaction 등에서 많은 기능을 하는 것으로 밝혀져 있으나, 이러한 glycosylation 된 단백질을 분석하는 것이 쉽지 않다. 그 이유는 glycosylation의 크기가 굉장히 크고, 구조를 밝히기 어려우며 시료 정제 및 분리 시 변형이 쉽게 일어나기 때문인데, 이 연구팀에서는 다양한 시료에서 glycoprotein을 질량분석 기반으로 분석 및 정제하고 각 시료와 글라이코실레이션 서열 정보 및 구조를 데이터베이스화 하여 다양한 연구팀에서 분석 결과를 공유하고 사용할 수 있는 기반을 마련하였고 이를 데이터로 공개하였다.
Cell과 Tissue specific 하게 발현되는 단백질은 세포 특이적 마커로 활용 가능하다. RNA와 protein 역시 다양한 조직 특이적 발현 패턴을 보이는 것으로 알려져 있고 이러한 정보는 GTEx Portal이나 ProteinAtlas에 잘 정리되어 있다. Tine Claeys 팀에서 진행된 연구는 이러한 패턴을 기반으로 머신러닝을 적용하여 조직 특이적 단백질을 RendomForest 모델로 분리하고, 이를 활용하여 세포 마커를 발견 및 조직과 암에 적용하여 판단하기 위한 연구를 진행하였다. 특히 조직 특이적 단백질 발현 패턴 및 바이오마커를 기반으로 한 분류는 단백질 식별 및 약물 표적 단백질 발굴을 위해 다양하게 활용될 수 있는데, 이를 위해 183개의 공개 데이터를 통해 66개 조직, 99개 세포 유형 및 질병 상태 정보를 기반으로 98%의 정확도로 조직을 예측하고, 97%의 정확도로 세포 타입을 분류할 수 있는 모델을 만들었다. 이를 활용해 질병 및 실제 암 샘플에 모델을 적용했을 때는 67%의 낮은 정확도로 떨어지지만 그럼에도 불구하고 해당 단백질 리스트를 기반으로 어느 도 발현 패턴을 통해 분류할 수 있음을 주장하였고 향후 PTM 등의 정보를 추가하여 조직 특이적인 패턴을 발굴하기 위한 연구를 진행 예정이라고 하였다.
인간 유전체에는 약 2만 3000여 개의 단백질 암호화 유전자가 있다고 하며, 그 이외에 다양한 비암호화 서열들이 조절을 위해 발현된다고 알려져 있다. 그러나 최근 단백체 연구에 따르면 다양한 상황에서 비암호화 서열로 예측되거나 원본 유전자 위치에서 발현된 것으로 보이지만 정식 ORFs가 아닌 frame shift나 LOF 등으로 인해 나타나는 펩타이드 등이 발견된다고 알려져 있다. 이러한 서열이 유전체의 mutation으로 인해 생겨난 것 일수도 있으나, OpenProt 프로젝트에 참여하여 연구 중인 Marie Brunet 연구팀은 이러한 서열이 원본 유전자의 사본인 peseudogene에서 변역 된 정식 유전자와 염기서열은 비슷하지만 mutation 등으로 서열의 변형이 일어난 사본 단백질이라고 생각하였다. 이를 위해 샘플 내 pseudogene 발현이 전사체 수준에서 확인되며, Ribo-seq 데이터에서 해당 전사체에 리보솜이 결합되었으며 질량분석에서 해당 서열의 펩타이드가 존재하는 경우를 찾아냈다. 이를 통해 스펙트럼 기반으로 140여 개의 pseudogene 기반에서 발현된 것으로 보이는 펩타이드 서열을 확보하였으며, 이중 약 30퍼센트 정도의 펩타이드가 원본인 부모 유전자와 유의한 아미노산 서열 상동성이 없기에 이를 기반으로 pseudogene으로 인한 신규 유전자 탄생에 대한 근거를 발굴하였다. 이는 gene duplication으로 인한 신규 유전자 탄생에 대한 가설을 펩타이드 스펙트럼 수준에서 분석하는 것을 통해 주장하기 위한 중요 데이터로 활용될 수 있다.
이번 세션을 발표한 연구팀들은 대체로 데이터 처리를 통해 효율적이고 정확한 정보를 스펙트럼에서 얻어내고자 하는 연구를 진행 중이기에, 세션이 끝난 뒤 해당 미팅에 참석한 사람을 위한 Bioinformatic hub program이 진행되었다. 해당 미팅을 주도적으로 주최한 Alexey Nesvizhskii는 다른 연구팀과 함께 정확도를 높이기 위한 방법 및 다양한 연구팀에서 질량분석을 위해 필요한 사항들과 판단 기준 등을 논의하며 각 팀에서 개발, 배포 중인 툴킷을 실제 연구자들이 필요로 하는 것에 맞추어 추가적인 업데이트를 하기 위한 논의를 진행하였다.
2.4. 12월 8일 주요 발표 내용
학회의 마지막 날은 주요 발표가 아닌 Human Proteome Project에 직접적으로 참가한 연구팀의 컨소시엄 미팅과 패널 디스커션이 진행되었다.
3. 총평
이번 HUPO 2022 학회의 참석 목적은 전 세계 단백체 연구팀의 현행 연구 수준과 성과를 바탕으로 인간 단백체 연구에 대한 밑바탕을 습득하고, 추후 동향에 대한 정보를 획득하며 각 질량 분석 기술 회사의 신규 분석 장비와 기술을 공유하여 향후 질량분석기반 단백체 연구의 기술 방향과 동향을 공부하는 것에 있었다. 지난 기간 동안 진행된 학회는 기존의 non-target 단백체 대규모 연구를 위한 질량 분석 장비를 통한 연구 말고 항체 기반 대규모 코호트 분석 및 신규 펩타이드 시퀀싱 기술의 개발 등 다양한 분야에서 단백체 연구를 위한 기술적 발전과 규모 증가를 위한 연구가 진행되었음을 확인할 수 있었다. 한편 NGS 분야에서 시작된 단일 세포 분석 기술이 최근 질량 분석 기반 단백체 연구에서 많은 관심이 있을 것으로 예상되어 향후 단백체 연구의 신규 기술 개발을 단일 세포 및 spatial proteomics 분야 등 극소량 단백질 분석에 주요한 초점이 되었을 것으로 예상하였으나, 최근 대규모 시료를 짧은 시간 안에 분석하기 위한 high-throughput proteomics를 향한 기술개발이 많이 이루어졌고 정밀도와 정확도가 높아진 기술을 기반으로 소규모 시료를 분석하기 위한 기술 개발이 함께 이루어지고 있다는 것을 느낄 수 있었다. 유전체 전사체 분석 기술에 비하면 동일 시간에 분석 가능한 고품질 시료의 숫자가 적은 것이 현재 질량 분석 기반 단백체학 기술의 한계점이었으나 다양한 기술 개발을 통해 이러한 한계를 극복하고 있으며, 향후에도 대규모 시료를 고품질로 짧은 시간 내 분석할 수 있는 기술이 향후 더 발전될 것을 느낄 수 있었다.
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
자료열람안내
본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다.
내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(view@ibric.org) 바랍니다.