질문하신 것은 조금 더 읽어봐야 할 것 같구요. 소리마당에 올리신 글에 댓글로 주신 추가 질문에 일단 답변을...
<span style="color:#8e44ad">> (글쓴이 입니다)<br />
> 꼭 만성 골수성 백혈병이 아니어도, 다른 유전병 중에 염기 서열 변화로 정상인의 염기 서열과 비교했을 때 염기의 차이가 드러나는 유전병이 혹시 있을까요?</span>
이것 또한 다른 글에 댓글로 보여드렸던 NCBI ClinVar 데이터베이스가 도움이 될 것 같습니다.
https://www.ncbi.nlm.nih.gov/clinvar/?gr=0&term=leukemia
위 링크는 ClinVar 데이터베이스에서 백혈병 (Leukemia) 키워드로 검색해본 결과입니다. 검색 결과가 38,347개나 나오니까 조금 많죠.
왼쪽 변을 보시면 여러가지 Filter 를 선택하실 수 있습니다 (첨부 스크린샷 참조).
일단 "Clinical significance" 에서 확실히 병증이 나타나는 변이만 보고 싶으니까 "Pathogenic" 을 선택합니다.
"Variation type" 에서는 시퀀싱 기법으로 확인하기 편한 "Single nucleotide" 를 선택해봅니다. "Indel" 도 괜찬겠지만, Insertion / Deletion / Duplication 등은 규모가 큰 경우 확인하기가 까다로울 지도 모르겠습니다.
마지막 "Review status" 에서는 "Expert panel" 의 검토를 거쳐 승인된 것만 선택해보면 앞서 38,347개 중 129개만 남으니까, 이 정도면 직접 넘겨가며 검토해보실 수 있지 않을까요?
스크린샷에서 첫번째 경우는 RUNX1 이라는 유전자의 601번째 nucleotide 가 C에서 T 로 바뀌어서, 그 결과 단백질 산물의 201번째 amino acid 가 Arg 에서 termination codon (Ter) 으로 바뀌어서 단백질이 망가지는 모양이네요. 그 결과 백혈병 증상이 나타난다는 것 같습니다.
아마 "Variation" 패널 부분의 링크를 따라 들어가면 좀 더 자세한 내용 - 이 변이가 있으면 어느 단계에서 백혈병이 100% 나타나는지, 아니면 백혈병이 나타날 확률이 높아지는지 등등을 알 수 있지 않을까 싶습니다.
...
저는 사실 인간 유전병 전공은 아니고 (대학원때 인체 유전학 아주 두꺼운 책으로 한 학기 들어본 것이 전부...), 단지 이런 데이터베이스들을 많이 접하는 일을 하고 있습니다. 조금이나마 도움이 되었으면 하고, 좀 더 이 분야를 전공하신 분들이 더 도움을 주셨으면 좋겠네요.
염색체의 정의는 단분자 DNA 사슬과 거기에 결합된 여러 복합체(단백질 같은)로
세포간 유전정보를 옮기는 물질을 가리킵니다.
전좌의 정의는 (대부분의 경우) 두 염색체의 일부분이 떨어져나가 원래의 염색체가 아닌
서로 다른 염색체로 교환하듯 붙는 겁니다.
단분자 DNA 사슬이 쪼개지는데 그 중 염기서열이 없을 수 있을까요?
엑손과 인트론, 염기서열 단어의 정의를 다시 찾아보시길 바랍니다.
> QnA에 쓰신 답글 정말 감사히 읽었는데요, A G T C 염기서열들을 다운받을 수는 없는건지요?<br />
예를 들면 RUNX1 601번째 뉴클레오타이드가 C에서 T로 바뀌었다는 거를 직접 눈으로 601개의 염기 데이터를 다운받아서 알고리즘에 입력하는 법 혹시 아시나요?
이어서 위 질문에 답을 해볼께요. 지금 컴이 스크린샷을 찍기에 불편해서 최대한 URL 과 설명만으로 가보겠습니다.
(1) 우선 위에서 첨부한 스크린샷 상태에서 (URL 따라 들어가신 다음 filter 선택) "Variation" 컬럼의 link 를 클릭해보셔도 좋지만 (이 경우 해당 variation - 601번째 C->T 에 대한 자세한 정보를 볼 수 있습니다. 요 링크에 대해서는 다음 댓글에서...), 지금은 "Gene(s)" 컬럼의 RUNX1 링크를 클릭해봅시다.
(2) 그러면 아래 URL 로 가게 되는데요 (human RUNX1 유전자에 배정된 ID 가 861입니다):
https://www.ncbi.nlm.nih.gov/gene/861
이 페이지는 human RUNX1 유전자에 대한 NCBI 내에서 가능한 모든 정보 또는 정보의 링크를 포함하 (라고 노력하) 고 있습니다.
아래로 쭉쭉 스크롤 다운 하셔서 중간 쯤 "Variation" 섹션을 보시면
<a href="https://www.ncbi.nlm.nih.gov/clinvar/?term=RUNX1[gene]" ref="log$=recordlinks">See variants in ClinVar</a>
<a href="https://www.ncbi.nlm.nih.gov/dbvar?LinkName=gene_dbvar&from_uid=861" ref="log$=recordlinks">See studies and variants in dbVar</a>
<a data-gblink-text="Variation Viewer (GRCh37.p13)" data-genome-browser-link-sort="3" href="https://www.ncbi.nlm.nih.gov/variation/view/?q=861[geneid]&assm=GCF_000001405.25" ref="log$=recordlinks">See Variation Viewer (GRCh37.p13)</a>
<a data-gblink-text="Variation Viewer (GRCh38)" data-genome-browser-link-sort="3" href="https://www.ncbi.nlm.nih.gov/variation/view/?q=861[geneid]" ref="log$=recordlinks">See Variation Viewer (GRCh38)</a>
요런 링크들이 보이실 겁니다.
(3) 여기서 일단 <a href="https://www.ncbi.nlm.nih.gov/clinvar/?term=RUNX1[gene]" ref="log$=recordlinks">See variants in ClinVar</a> 링크로 가봅시다.
멀리 돌아왔는데, 사실은 위에서 말씀드린 ClinVar 페이지에서 "RUNX1[gene]"으로 검색한 결과랑 같은 페이지네요 ㅎㅎ. 다시 한번 "Pathogenic," "Expert Panel," 그리고 "Single nucleotide" 를 선택하신 다음 (18개 variation 이 남을 겁니다), 가장 위쪽 "Search results" 아래 있는 세 개의 풀-다운 메뉴 중 "Download" 를 선택하고, 이후 Format -> Tabular (Text), Sort by -> Location 을 선택한 다음 "Create File" 해 봅시다.
이렇게 해서 다운로드 받은 파일 (tab-delimited text) 을 Excel 에 copy&paste 해 넣으면 첨부한 파일과 같이, RUNX1 유전자에서 발견되는 모든 Pathogenic, reviewed by Expert Panel, Single nucleotide 변이 (variation) 들을 포함하는 파일이 됩니다.
* 엑셀 파일이 "Location" 별로 sort 되어 있을 테니까, 연습 삼아 "601C>T" 변이를 찾아보세요. :)
...
이제 질문하신 분께서 어떤 프로그램을 만들고 싶으시다면, 이런 파일을 해석 (parse) 해서 원하는 과정 (알고리듬?) 을 거치도록 하면 되겠지요.
Text tab-delimited 파일이라 사람도 알아볼 수 있는 점이 장점입니다.
사실 변이 정보를 파일로 저장할 때에는 유전자의 염기 서열을 전부 저장할 필요가 없습니다. 유전자 염기 서열은 다른 파일 (fasta 등) 형태로 있고, 변이 정보 파일에는 어느 위치의 어떤 서열이 어떻게 바뀌었는지만 적시하게 됩니다. 모든 변이들을 표시할 때마다 일부분만 바뀐 전체 유전자 서열을 저장하려면 공간도 많이 차지하고 낭비가 되겠지요.
...
다음 댓글에서는 "직접 눈으로" 부분에 가까운 것을 해보도록 하겠습니다.
> 다음 댓글에서는 "직접 눈으로" 부분에 가까운 것을 해보도록 하겠습니다.
RUNX1 유전자의 염기서열 601번째가 C->T 로 바뀌는 것을 눈으로 확인하는 법, 또 그 주변에 다른 어떤 변이들이 있는지 등을 살펴보려면 여러 가지 방법이 있겠는데, 아래와 같이 하는 것이 가장 쉬우리라 생각합니다.
우선 제일 처음 댓글 스크린샷에서 Variation 컬럼에 있는 <a href="https://www.ncbi.nlm.nih.gov/clinvar/variation/376018/" ref="db=clinvar&ordinalpos=1&ncbi_uid=376018&link_uid=376018&linksrc=tabular_docsum_title" title="376018">NM_001754.5(RUNX1):c.601C>T (p.Arg201Ter)</a> <- 요 링크를 클릭해보세요. 그러면 아래의 URL 이 나타날 겁니다.
https://www.ncbi.nlm.nih.gov/clinvar/variation/988835/?new_evidence=false
여기서 조금 스크롤 다운 해서
Links: <a data-ga-action="dbSNP" data-ga-label="https://www.ncbi.nlm.nih.gov/snp/rs2057998110" data-section="variant details" href="https://www.ncbi.nlm.nih.gov/snp/rs2057998110" target="_blank">dbSNP: rs2057998110</a> <- 요 링크를 클릭해봅니다. 그러면 아래 URL이 나옵니다.
https://www.ncbi.nlm.nih.gov/snp/rs2057998110
이 뷰에서 조금만 아래로 스크롤해보시면, 첨부한 스크린샷처럼 바로 601번째 염기서열의 변이가 똵 표시가 되어 있죠?
해당 변이에는 988835 라는 ID 가 배정되어 있고, 작은 자주색 사각형 위로 마우스 커서를 올려두면 박스가 뜰 텐데, 그 박스 속의 링크를 이용해 이 변이에 대한 다른 정보들도 볼 수 있습니다.
그리고 화면을 클릭한 다음 전채를 좌우로 drag 하면 유전체 내 해당 위치 주변을 browse 할 수 있구요. (+) (-) 표시가 있는 돋보기 마크 knob 을 통해 zoom-in, zoom-out 할 수도 있습니다.
...
이렇게 하면 전체 유전체/유전자 서열 중 어느 부분에서 변이가 일어났는지를 눈으로 보고, 그 주변에 있는 변이들도 탐색할 수 있겠지요.
하지만 질문하신 분께서 어떤 종류의 프로그램을 만들고 싶으시다면, 이런 browser 보다는 해당 변이 정보를 table 형태* 등으로 download 받아 그 table 을 해석 (parse) 해서 프로그램으로 읽어들이는 것을 시작으로 삼는 편이 좋으리라 생각합니다. 왜냐하면 눈과 손으로 interactive 하게 browsing 하는 것은, 어떤 일이 벌어지는 지 사람이 파악하기에는 좋지만, 기계에게는 딱히 효율적인 접근 방법이 아니니까요.
...
* 처음에는 tab-delimited text table 형태로 프로그램 내로 읽어들이는 편이 편하실 겁니다. 유전체/유전자 서열 변이를 표시하는 VCF 나 MAF 파일 포맷들도 결국은 tab-delimited text table 형태입니다. 사람이 읽기 좋은 것보다 기계가 더 효율적으로 다루는 것을 중시한다면 더 나은 data/file format 들이 있으리라 생각합니다 (이부분은 본격적으로 전산 전공하시는 분들이 잘 아실 ...)