초보자를 위한 STATA 통계분석 강좌의 맛보기 강의입니다.
지금 우리가 살펴볼 것은 정규분포입니다. 정규분포는 통계에서 가장 많이 사용되는 분포입니다. 앞에 보이는 이 식은 정규분포의 확률밀도함수를 나타내는 식입니다. 이 식에서 볼 수 있듯이 정규분포의 모양은 두 가지 모수에 의해서 결정이 되는데요. 하나는 μ라고 적혀져 있는 평균, 그리고 σ라고 적혀있는 표준편차에 의해서 그 모양이 결정된다고 보시면 될 것 같습니다. 다음 분포는 정규분포에서 파생된 표준화 정규분포입니다. 이름에서 볼 수 있듯이 어떤 것을 표준화 했는데 표준화 한 것이 정규분포의 평균과 표준편차를 각각 0과 1로 표준화를 시킨 정규분포 함수라고 보시면 됩니다. 보시면 정규화식은 하단에 보이는 이 식과 같습니다. 식을 보시면 표준화 값을 z값이라고 하는데요. 이 z값은 표본의 평균에서 데이터의 값을 뺀 다음에 그것을 표준편차로 나눠준 값이 z값이라고 보시면 될 것 같아요. 그래서 이 z값은 평균이 0이고 표준편차가 1인 정규분포를 따르게 되는 거죠. 실생활에서 정규분포를 따르는 데이터는 굉장히 많다고 볼 수 있습니다. 대한민국의 남성의 신장도 정규분포를 따른다고 볼 수 있죠. 만약 대한민국 남성의 평균 신장이 175이고 표준편차가 7이라는 사실을 알고 있다면 우리는 189cm의 신장을 가진 남성이 대한민국 상위 몇 %인지를 금방 계산할 수 있습니다. 표준화 정규분포는 이렇듯 신장이라든지 IQ 수능 점수는 모두 평균과 표준편차가 다르지만 데이터의 분포는 정규분포를 나타냅니다. 그런데 예를 들어서 신장 189, 혹은 아이큐 132 수능점수 420점, 이런 점수가 각각의 정규분포 상에서 어디에 위치하는지를 쉽게 구하기는 어렵습니다. 이런 문제를 해결하기 위해서 표준화 정규분포를 확인하다고 보시면 될 것 같습니다. 정규분포의 성질을 한번 살펴보자면 평균을 중심으로 해서 플러스 마이너스 1표준편차 사이에 모집단의 데이터의 약 68%가 밀집이 되어 있습니다. 이 성질을 기억하시고요. 다음에 마찬가지로 평균에서 마이너스 2표준편차부터 플러스 2표준편차 사이에 면적이 약 95%, 이 말은 즉슨 모집단의 데이터의 95%에 해당하는 값이 여기에 속한다는 의미입니다. 마찬가지로 평균에서 마이너스 3표준편차부터 플러스 3표준편차 사이에 소속되는 데이터는 모집단의 약 99.7%의 값들이 여기에 속합니다. 이런 성질을 잘 이용해서 지금 우리가 가지고 있는 대한민국 남성의 키의 평균, 표준편차를 이용해서 신장이 189cm인 남성이 상위 몇 %인지를 계산해 낼 수 있습니다. 이런 거는 어렵지가 않습니다. 식을 보시면 z값을 먼저 구해야 되겠죠. 지금 우리가 할 것이 평균이 0이고 표준편차가 1인 정규분포, 표준화 정규분포를 가지고 189cm인 남성이 대한민국 상위 몇 %인지를 계산해내는 겁니다. 그러기 위해서는 대한민국 남성의 키, 평균 175와 표준편차 7을 각각 평균 0과 표준편차 1로 표준화 시켜야 되겠죠. 표준화 시키기 위해서 왼쪽에 보시면 z값을 구하는 식이 있습니다. 이 식에 우리가 가지고 있는 데이터를 그대로 대입하면 평균이 175이기 때문에 185에서 175를 빼고 여기에서 표준편차 7로 나눠주면 약 값이 2가 됩니다. 이 2는 표준화값이에요. 2라는 것을 알 때, 그러면 우리가 어떤 것을 계산할 수 있을까요. 앞에서 공부했던 내용을 기억을 해보시면 그렇게 어렵지 않게 우리가 원하는 값을 구할 수가 있습니다. 우리가 앞서서 마이너스 2표준편차, 플러스 2표준편차일 때 여기 해당하는 구간이 전체 모집단의 약 %를 차지한다고 했죠. 95% 정도를 차지한다고 말씀을 드렸습니다. 100에서 95를 빼면 결국 나머지 부분의 값은 다 합해서 5%가 되겠죠. 5%를 절반으로 나누면 2.5%가 됩니다. 그래서 결국 신장이 189cm인 사람의 키는 대한민국 상위 2.5%라는 결론을 내릴 수 있습니다. 이러한 성질은 앞서 봤던 표준화 정규분포의 성질을 기반으로 우리가 어렵지 않게 이런 값들을 유추해 낼 수 있다는 것이죠. 이런 값을 유추할 수 있는데는 중요한 정규분포의 성질이 그 기저에 있습니다. 정규분포는 중위값, 그러니까 가장 작은 값에서 가장 큰 값까지 차례대로 나열을 했을 때 그 중간에 위치하는 값과 그리고 평균, 그리고 가장 빈번하게 발생하는 값인 최빈값이 모두 동일합니다. 데이터의 특징을 보면 평균을 중심으로 데이터가 좌우 대칭을 가지고 있기 때문에 우리가 쉬운 표준화 값을 통해서도 해당 값이 확률적으로 어느 부분에 속하는지를 쉽게 계산할 수 있는 것이죠. 이 정규 분포의 성질을 활용해서 많은 것을 알 수 있습니다. 일단은 계산이 쉽고 해석 자체가 굉장히 쉬워집니다. 집단 간의 통계적 비교를 가능하게 합니다. 이상치도 걸러낼 수 있어요. 일반적으로 오른쪽 표에서 보시면 여기서 이상치라고 할 때, 예를 들어서 이런 부분의 값이 절대값 기준으로 2.5표준편차, -2.5. 여기는 +2.5표준편차, 각각 이하 이상인 값을 이상치로 간주할 수도 있고요. 좀 더 타이트하게 잡자면, 절대값 기준으로 3표준편차보다 더 큰 값을 이상치로 걸러낼 수 있습니다. 쉽게 이상치 스크리닝을 표준화 점수를 통해서 활용할 수도 있고요. 통계적 유의도 평균 차이를 쉽게 계산할 수 있습니다. 그 원리는 어떻게 되냐면, 오른쪽에 보시면 이전 표와 다르게 분포의 이름이 조금 바뀌었죠. 표집 분포라고 적혀져 있습니다. 영어로는 sampling distribution이고요. 이 표집 분포라는 것은 표본 평균의 분포라고 생각하시면 돼요. 전체 모집단의 평균이 있으면 표본의 평균이 모집단의 평균과 정확하게 일치하지는 않겠죠. 그 개념이 오차의 개념입니다. 여기에서 제시되어 있는 se라는 값이 바로 표준오차라고 보시면 될 것 같아요. 표본의 평균을 가지고 95% 신뢰구간을 구한다는 것은 바로 이 구간, 모집단의 평균값이 실제로 있을 수 있는 구간 이 구간안에 모집단의 평균이 있을 확률이 약 95%정도 된다라는 거예요. t 테스트를 할 때는 결국은 A 집단의 평균과 B 집단의 평균이 보시면 파란색 부분이 하얀색 부분으로 바뀌는 이 시점 이 시점이 바로 기강역입니다. 만약 각 집단의 평균이 이 파란부분 안에 있다면 우리는 귀무가설을 기약하지 못해요. 한 마디로 차이가 없다라고 가설 검정이 되는 거죠. 그런데 평균 차이가 이 95% 영역 밖에 있다면 우리는 이 차이는 통계적으로 유의미하다. 그 말인 즉슨 표준오차의 합리적인 수준을 고려해 봤을 때 B집단의 평균이 A집단의 평균보다 상당히 멀리 떨어져 있다, 통계적으로, 이런 의미입니다. 이 정규분포의 성질을 활용해서 통계적 유의도 계산도 합니다. 다음으로 모집단의 분포와 표집 분포도 마찬가지로 정규분포의 성질을 가지고 중요한 통계적인 정리를 이끌어 낼 수 있습니다. 그 정리는 굉장히 자주 사용되는 정리인데 많은 분들이 이론적으로는 알고 있는데 실증적으로 어떻게 나타나는지는 잘 모르세요. 슬라이드를 보시면서 어떤 개념인지 확실히 짚고 가시기 바랍니다. 제가 소개해드릴 개념은 중심극한 정리라고 하는 것인데요. 중심극한 정리라는 것은 모집단의 분포에 상관없이 표본 수가 충분히 크면, 일반적으로 표본 수가 30개 이상이면 표본의 평균의 분포, 혹은 표집 분포는 정규 분포에 근사한다라는 그런 정리입니다. 사실 우리가 관심있는 대부분의 연구가 평균 비교에 관심이 많습니다. t 테스트나 아노바, 회귀 계수도 어떻게 보면 평균과 같은 의미로 해석할 수 있습니다. 따라서 표본 수가 30이 넘으면 왜 정규성을 가정할 수 있는지를 다음 예를 통해서 보시도록 하겠습니다. 첫 번째로 모집단의 분포가 나와있어요. 지금 분포를 보시면 어떤 집단의 분포는 균일분포입니다. 그리고 두 번째는 약간 솟은 게 두 개가 있는 양봉 분포같은 그런 모양을 가지고 있죠. 그리고 이거는 전체적으로 왼쪽으로 치우친 그런 모델입니다. 보시면 여기에서 우리가 한 작업이 각 모집단에서 표본을 5개로 해서 1000번을 복원추출했어요. 그럴 때 이 표본의 평균의 분포를 나열해보면 이런 식으로 된다라는 겁니다. 좀 완만해졌어요. 그리고 이렇게 균일 분포는 상당히 정규분포와 흡사하게 됐고요. 더 나아가서 여기서 우리가 표본의 사이즈를 조금 더 키워서 n을 30을 했습니다. n을 30을 하고 그거를 1000번 반복 복원추출을 했어요. 그럴 때 표본 평균의 분포, 표집 분포는 다음과 같이 정규 분포에 거의 근사하게 됩니다. 그래서 이게 정규분포를 이용한 중심극한 정리의 도식적인 이해라고, 도식적인 증명이라고 이해하시면 됩니다. 따라서 이 표본 수 30이 의미하는 것은 굉장히 큽니다. 표본 30은 실제로 모집단의 분포가 어떤 분포든 간에 심지어 균일분포, 균일분포죠. 약간 양분분포, 치우져진 분포. 어떤 분포간에 표본의 크기가 30 이상이 되면 그 표본 평균의 분포, 표집 분포는 결국 정규분포에 근사한다는 그런 중요한 통계적인 정리라고 보시면 될 것 같습니다.
