
별을 쫓는 대학원생의 뒷모습은 쓸쓸하다. 손만 뻗으면 닿을 것 같던, 바로 눈앞에 있는 듯 보였던, 하지만 잡힐 듯 여전히 잡히지 않는 저 별이 야속한지, 앞자리 대학원생은 몇 분째 한숨만 푹푹 내쉬고 있다. 벌써 동이 틀 시간이 다 되어가는 데도 여전히 저렇게 애쓰는 모습을 보고 있자니 참 안타깝다. 마음 같아서는 그냥 포기하라고 이야기해 주고 싶은데, 그럴 수도 없다. 저 대학원생은 반드시 별을 잡아야만 한다. 별 없이는 오늘 집에 갈 수 없다. 그렇다고 잡히지 않는 별을 억지로 만들 수도 없는 법이니 참 답답할 노릇이다.
무슨 뚱딴지같은 소리냐고 생각하겠지만, 별을 쫓는 것은 대학원생들의 평범한 일상이다. 당연히 이 별이 저기 밤하늘에 떠 있는 항성을 의미하는 건 아니다. 대학원생들이 그토록 바라는 별은 바로 실험 데이터의 유의 확률significance probability을 표현하는 *이다.
많은 실험실 연구는 자연 현상에 영향을 주는 여러 변인을 통제할 수 있는 환경에서 재현하고, 그중 하나 혹은 몇에 변화를 주었을 때 나타나는 차이를 대조군control group과 비교하여 살펴보는 방식으로 진행된다. 예를 들어 생쥐에 우리가 관심 있는 유전자의 야생형wild type과 질병 연관성이 밝혀진 돌연변이 형태를 각각 도입하고, 수명이나 암의 형성 등 연관성이 알려진 질병의 표현형을 각 조건에서 비교해 보는 것이다. 만약 그 결과, 두 조건에서 생쥐의 수명에 차이가 나타난다면 이 돌연변이의 발생은 수명을 변화시키는 데 충분하다고 말할 수 있다. 반대로 수명에 별 차이가 없다면 이 돌연변이의 도입만으로는 생쥐의 수명 변화를 볼 수 없었다고 말할 수 있을 거다.
그런데 이 대목에서 고민이 하나 생긴다. 도대체 각 조건에서 생쥐의 수명이 얼마나 달라져야 이들의 수명에 차이가 있다고 말할 수 있는 걸까?
구체적인 예를 들어 살펴보자. 만약 야생형 유전자를 도입한 쥐의 평균 수명은 12개월이었고 돌연변이 유전자를 도입한 쥐의 평균 수명은 11개월이었다면 돌연변이 유전자가 생쥐의 수명을 줄였다고 말할 수 있을까? 1개월이나 차이가 나니 그럴 수 있을지도 모르겠다. 그럼 만약 야생형 생쥐는 11개월 29일, 돌연변이 생쥐는 11개월 1일의 평균 수명을 보였다면? 혹은 야생형 생쥐는 11개월 20일, 돌연변이 생쥐는 11개월 10일의 평균 수명을 보였다면? 그래도 평균에 차이가 있으니 수명이 줄었다고 말할 수 있을까? 그럼 야생형 생쥐와 돌연변이 생쥐의 평균 수명이 각각 11개월 16일, 11개월 14일이었다면, 이번에는 어떤가? 2일 정도야 같은 조건 내 개체별 차이로도 충분히 나타날 수 있는 수치 아닌가? 고작 이 정도로 수명이 변한 것이라고 말할 수 있을까? 2일 차이를 보고 수명이 줄었다고 하는 주장은 그리 설득력 있어 보이지 않는다. 그럼 다시 앞으로 돌아가 보자. 2일이 개체별 차이에 의한 결과라면, 10일 차이는? 이건 개체별 차이라고 말할 수 없을 정도의 큰 차이일까? 그 근거는 뭐지? 글쎄, 이제 잘 모르겠다. 선뜻 답이 나오지 않는다. 도대체 평균 수명에 얼마만큼의 차이가 나야 이를 유의미한 차이라고 말할 수 있는 걸까? 이에 대한 명확한 기준이 있기는 한 걸까?
그럼 조금 더 구체적으로, 야생형 유전자가 도입된 생쥐 3마리가 모두 정확히 11개월 20일의 수명을 보였고, 돌연변이 유전자가 도입된 생쥐 3마리가 모두 정확히 11개월 10일의 수명을 보인 실험 결과를 얻었다고 하자. 이 경우에 두 조건의 평균 수명에 차이가 있다고 말할 수 있을까? 조금 망설여지기는 하지만, 조건별로 일관된 수명이 나타났고, 그 값에 차이가 있었으니 아마 돌연변이의 도입이 수명을 10일 정도 줄였다고 이야기해도 이상하지는 않을 것 같다. 그럼 만약 야생형 생쥐 3마리가 각각 11개월, 12개월, 12개월의 수명을 보였고, 돌연변이 생쥐 3마리는 각각 11개월, 11개월, 12개월의 수명을 보였다면 이 경우는 어떨까? 이번에도 앞선 예시와 마찬가지로 야생형 생쥐의 평균 수명은 11개월 20일, 돌연변이 생쥐의 평균 수명은 11개월 10일 정도다. 하지만 느낌은 조금 다르다. 이번엔 각 조건 안에서의 수명 편차가 너무 커 고작 평균 10일 정도의 차이는 유의미한 변화라고 말할 수 없을 것 같다는 생각이 든다. 이처럼 두 그룹을 정량화된 값으로 비교할 때는 평균뿐만 아니라 조건 내의 편차 역시 아주 중요한 기준이 된다.
편차의 중요성은 이제 알겠는데, 그래도 여전히 서로 다른 두 실험군의 차이를 자신 있게 주장할 수 있는 명확한 기준이 무엇인지는 잘 모르겠다. 도대체 편차가 얼마, 평균이 얼마여야 야생형과 돌연변이가 정말 다르다고 말할 수 있는 걸까?
이런 복잡한 문제를 해결하고자, 과학자들은 유의 확률 혹은 p-값 개념을 적용하여 조건의 차이에 따른 실험 결과를 비교할 수 있는 통계적인 기준을 제시했다. p-값은 귀무가설의 유의성을 검증하는 수치로, 그 사전적 정의는 ‘귀무가설이 참이라고 가정할 때, 통계치가 관찰될 확률’이다. 여기서 귀무가설null-hypothesis은 ‘의미 있는 차이가 없을 거라는 가설’을 뜻한다. 앞의 예시에서는 야생형 생쥐와 돌연변이 생쥐의 수명이 유의미한 차이가 없을 거라는 가설이 귀무가설이 되는 것이다. 따라서 이 경우, p-값은 야생형 생쥐와 돌연변이 생쥐 수명에 유의미한 차이가 없을 거라는 가정이 맞을 확률을 의미하게 된다. 그러므로 p-값이 작을수록 야생형 생쥐와 돌연변이 생쥐가 유의미한 수명 차이를 보일 가능성이 커진다.
실험실 생물학 연구에서는 보통 p-값이 0.05보다 작을 경우, 두 조건 사이에 유의미한 차이가 있을 거로 생각한다. 그리고 이 차이를 표현하기 위해 *을 띄운다. 그리고 이 차이가 더 심할수록 별을 더 많이 띄워 그 유의성을 강조한다. 예를 들어 모든 야생형 생쥐와 돌연변이 생쥐의 수명을 분석하여 p-값이 0.05보다 작고 0.01보다 크면 별 하나(*), 0.01보다 작고 0.001보다 크면 별 둘(**), 0.001보다 작으면 별 셋(***)을 그래프 위에 띄우는 거다.
앞자리 대학원생은 바로 이 통계적 유의성을 찾고자 밤을 새우고 있다. 그림으로만 보면, 그리고 경향성으로만 보면 분명히 유전자 돌연변이가 세포 위치의 차이를 만들어내는 것 같은데, 도저히 별이 뜨지 않으니, 다시 말해 p-값이 0.05보다 작아지지 않으니 미칠 지경인 거다.
이런 경우 사실 좀 안타깝기도 하다. 많은 연구자가 p-값 0.05를 기준으로 별을 띄우고, 이 별을 기준으로 그 차이의 유의성을 확인한다. 따라서 데이터만 봤을 때는 분명히 차이가 있어 보이는 두 조건의 p-값이 0.055가 나오면 찝찝한 상태로 결과를 세상에 내보일 수밖에 없고, 당연히 그 결과가 주는 의미 역시 희석될 수밖에 없다.
한편, 편차를 반영하는 p-값은 실험군의 수가 많아질수록 자연스레 점점 낮아지게 된다. 따라서 앞의 경우와는 반대로, 큰 차이가 없어 보이는 결과를 무작정 실험군 수를 늘려 p-값을 0.049로 만들고 유의한 차이를 발견했다고 주장하는 상황도 생길 때가 있다.
유전자 돌연변이가 일으키는 변화의 유의성을 판단할 기준이 필요해 p-값이라는 기가 막힌 통계 수치를 찾아냈지만, 사실 이도 완벽한 방법은 아닌 셈이다. 그런데도 어쩌겠나. 별이 뜨지 않으면 사람들이 내 연구 결과에 관심을 주지 않는걸. 앞자리 대학원생은 지금도 여전히 명백해 보이는 자신의 그래프 위에 별이 뜨지 않는 이유를 고민하고 있다. 어릴 적 상상 속 과학자의 모습에 이런 현실은 없었는데, 참 안타깝다. 그래도 다행인 것은 이런 p-값의 딜레마를 느끼는 연구자가 점점 늘어나고 있고, 이를 개선하기 위한 다양한 크고 작은 시도가 계속되고 있다는 사실이다. 그리 머지않은 미래에는 부디 이 노력들이 모여 천문학자가 아닌 우리가 별에 집착하지 않아도 되는 날이 오기를 바라며, 밤하늘을 수놓은 별들과 함께 늦은 퇴근길을 나서본다.
|