안녕하세요?
> 질문1) Variant 1과, Variant 2 서열을 넣고 Blast 버튼을 눌렀더니 스샷처럼 두 부분으로 나뉘어 나옵니다. 왜 59 to 384랑 1 to 63으로 나누어져 나오는 것인가요? 이것이 의미하는 바가 뭔가요? 정말 너무 궁금합니다.
> 질문2) 스샷의 위쪽 부분을 보면 Query는 309로 시작을 하는데 Sbjct는 59로 시작을 합니다. 왜 각각 시작하는 번호가 다른건가요? 그리고 이것이 59 to 384와 관련이 있는건가요?
스크린샷이 Variant 1 이 query, Variant 2 가 각각 query, subject 인 sequence alignment 결과인 것으로 보입니다.
Query 와 subject 가 일단 1번 부터 63번 위치까지는 100% 일치합니다 (range 2).
Subject 기준으로 그 다음 번 homology (range 1) 는 신기하게도 query 300 번대 위치에서 시작하네요.
스크린샷에서는 range 1이 query-subject 309-59 부터 시작하는 것으로 나오지만, 처음 서너개의 nucleotide 는 앞서 1번부터 63번까지 alignment (range 2) 와 중복이 되니 제외하고, query-subject 313-64 부터 시작하는 것으로 보셔도 좋습니다.
즉 query 와 subject 가 거의 100% 일치하되, 다만 query 의 64부터 312 번 위치까지가 subject 에서는 삭제가 되었다고 볼 수 있습니다.
...
질문3) Score 595 bits(322)는 뭐라고 해석을 해야할까요? Score와 Bits가 각각 무엇을 의미하는지 알아듣기 쉽게 설명해주셨으면 합니다.
Score/bit 은 BLASTN 이라는 서열 비교 프로그램이 같은 서열을 찾을 때마다 점수를 더하고, 서열이 달라지거나 insertion/deletion 으로 alignment gap 이 생길 때마다 점수를 빼서 계산한, 얼마나 두 서열이 비슷한가를 말해주는 점수입니다.
다만 insertion/deletion 크기가 query 64 - 312, 즉 거의 250 bp 정도로 크면, 아예 두 개의 alignment (range 1, range 2) 로 분리해서 점수를 계산합니다.
Score/bit 점수가 높을 수록 서열이 더 많이 비슷하고 또한 비슷한 서열이 더 긴 구간에 걸쳐 발견되었음을 의미합니다.
Score/bit 과 Expect 점수에 대해서는 여기를 봐주세요:
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=FAQ#expect
(괄호 안의 숫자, 322 와 63 은 alignment length 인 듯 하네요)
...
질문4) Variant 1, Variant 2, Variant3 이 3개의 공통부분서열을 찾아내는 이유가 뭘까요?
Variant 3 은 잘 모르겠습니다만, 올려주신 screenshot 으로 보았을 때, range 2 에서 Variant 1 과 2의 공통부분 서열에서 forward primer 를, 그리고 range 1 에서 Variant 1과 2의 공통 부분 서열에서 reverse primer 를 얻으셔서 PCR 을 하면,
스크린샷에서 query 에 해당했던 variant 는 subject 에 해당했던 variant 보다 248 bp 정도 긴 PCR product 를 생성하게 됩니다. 이러면 PCR product 크기를 (gel electrophoresis 등으로) 비교해서, sample 이 어느 variant 에 해당하는 지를 알 수 있겠습니다.