제가 나방속 각기 다른 19종의 나방의 염기서열 데이터를 가지고 비슷한 유전자끼리 묶는 작업, 그러니까 계통도를 그리고 싶습니다.
관련 내용들을 찾아보니 pairwise alignment 등의 내용이 나오던데 쉽게 읽히질 않아서 단순히 one-hot encoding을 통해 값을 매핑하고 cosine similarity로 값을 구한 후 hierarchical clustering을 진행하려고 하는데 아무리 생각해도 올바른 방법이 아닌 거 같아 질문을 드립니다.
궁극적으로 19 x 19 크기의 유사도 테이블을 생성하고 이를 바탕으로 계통도를 그려내고 싶습니다.
작업은 파이썬으로 진행하려고 합니다.
#파이썬 #염기서열 #계통도 |