부트스트래핑

강의 대본

이번 시간부터는 부트스트래핑에 대해서 한번 다뤄보도록 하겠습니다. 부트스트래핑이라는 건요. 일단은 Brad Efron이라는 사람이 부트스트래핑에 대해서 연구한 학자인데 이 말이, 이런 말을 했어요. 우리가 주로 하는 통계가 모수 통계죠. 그 모수 통계는 주로 모수에 대한 추론에 관심이 있습니다. 그런데 우리가 모집단에 전수조사를 할 수가 없어요. 그렇기 때문에 우리가 가지고 있는 것은 표본 데이터밖에 없습니다. 이러한 문제점으로 인해서 정확성 측정이 문제가 간혹 있을 수가 있습니다. 이런 문제 때문에 모집단을 모르더라도 실제로 우리가 가지고 있는 표본을 모집단의 대리 변수로 이해하자, 어떤 proxy의 개념으로 이해해서 데이터를 한번 다뤄보자 라고 주장을 했던 분이 Brad Efron이라는 사람입니다. 그래서 부트스트래핑 기법은 쉽게 말해서 재표본을 통해서 모수 추정치의 정확성을 도출해내기 위한 기법이라고 보시면 될 것 같습니다. 그래서 이 부트스트래핑 기법은 주로 정의를 보자면 표본 데이터를 무작위 복원 추출을 통해서 이루어진 테스트 혹은 측정치를 의미한다. 그리고 부트스트래핑은 표본 추정치에 대한 정확성 측정 도구를 제공한다. 이 말은 제가 영어를 해석하는 과정에서 좀 한글이 딱딱하게 해석할 수가 있어요. 제가 풀어서 설명을 드리자면은 부트스트래핑이 사용되는 거의 90% 이상의 상황이 이 표준오차의 정확성을 추정하기 위해서 사용이 됩니다. 이 표준오차는 식을 보여드리자면은 표준편차에서 루트 N, 샘플 사이즈로 나눈 건데요. 결국 이 표준편차는 어떻게 되죠? 루트 분산에 루트를 씌운 값입니다. 그렇죠. 한마디로 지금 관련성은 보이시나요? 표준오차, SD, 분산 다 변량 관련된 정보예요. 이 변량 관련된 정보는 여러분이 나중에 가설 검정을 할 때 평균이 유의미하게 다르다 혹은 회귀계수가 유의미하다 할 때 사용하는 표준오차와 다 연관이 있습니다. 밀접하게 연관이 있어요. 그래서 보통은 90% 이상은 표준오차의 정확성을 구하기 위해서 부트스트래핑을 많이 사용합니다. 어떻게 사용하냐고요? 보통 이 표준오차를 구하는 기법은 기존의 델타 메서드 방법을 많이 사용했어요. 어떤 통계적인 성질을 이용해서 표본의 이런 표준편차나 분산값 같은 정보를 이용해서 단순하게 구하는 경우가 많았는데 문제가 뭐냐면 이렇게 단순하게 구했을 때 그 표집분포가 정규성을 따르지 않는다면 거기에 따른 편향도 덩달아 커지게 되는 문제점을 가지고 있었습니다. 그래서 이 부분을 극복하기 위해서 우리가 표본을 마치 모집단으로 간주를 하고 거기에서 재표본을 통해서 각 재표본된 재표본에 어떤 관심있는 모수값을, 추정치들을 다 도출하는 거죠. 그래서 그 추정치들의 분포를 통해서 우리가 관심있는 이런 정확성에 관련된 지표를 도출해내자 라는 겁니다. 그럴 때 사용하는 기법이 부트스트래핑 기법이다 정도로 이해를 하시고 다음 슬라이드에서 좀 디테일하게 설명을 드리도록 하겠습니다. 부트스트래핑 기법을 도식으로 설명하자면 원표본에서 우리가 재표본을 이렇게 합니다. B번까지, 보통 이 재표본이 한 2000번에서 5000번 정도 됩니다. 여기에서 예를 들어서 우리가 관심있는 게 모집단의 평균이에요. 모집단의 평균을 mu라고 하거든요. 이 mu를 구하는데 기존에는 원표본에서 여기에서 그냥 이 원표본의 평균을 가지고 우리가 이 모집단의 평균값 추정을 했는데 기본적으로 원표본은 표본수가 적기 때문에 모집단의 값과 일치하지 않죠. 그래서 거기에 따른 어떤 차이를 표준오차라는 개념으로 또 따로 계산을 해서 신뢰구간이라든지 이런 걸 구하죠. 근데 이 신뢰구간이 어떻게 구성되어 있냐면 표준편차에서 N수를 나눠주는 거예요. 이런 식으로 구했어요 표준오차를. 그런데 그 구하는 방식을 좀 바꾸자 라는 거예요. 이거는 결국 N이 충분히 커지면 그 값이 모수에 일치한다는 가정 때문에 이런 식으로 구하는 건데 그러지 말고 우리가 재표본을 해서 각 재표본에서 도출한 평균값이 있겠죠. 이런 식으로요. 그래서 B번째 재표본에서 도출한 평균값을 이거를 통해서 우리가 관심있는 이 정확성의 측정도구에 대한 분포를 추론하자는 거예요. 이렇게 해서 여러분이 2000번의 재표본을 통해서 구한 모수추정치라면 분포가 발생하겠죠. 여러분이 각 재표본의 평균을 다 나열해 보면 그 분포가 이런 식으로 구성이 될 거예요. 그래서 이 분포를 가지고 우리가 표준오차를 유추해내자 이겁니다. 왜 굳이 그렇게 하나요? 사실 제가 보여드린 예는 평균을 어떻게 구하느냐 이것보다는 주로 회귀분석에서 베타값을 정확히 추정할 때 많이 사용됩니다. 왜냐하면 여러분이 모형이 복잡해질수록 각 변수당 해당되는 케이스가 많지 않아요. 그렇게 되면 그 상태에서 표준오차를 구하게 되면 일반적으로 표준오차가 부정확해질 가능성이 높습니다. 그렇기 때문에 이 표준오차를 재표본을 통해서 귀납적으로 다시 구해보자 라는 취지에서 우리가 부트스트래핑을 많이 사용한다고 볼 수가 있어요. 일단 부트스트래핑을 사용하게 되면 거기에서 나온 재표본의 추정치의 분포는 정규성을 충족을 시키기 때문에 여기에서 나온 어떤 정확성에 대한 추정치, 표준오차 같은 게 상대적으로 그냥 구한 것보다 편향이 덜하다는 그런 논리로 진행이 된다고 보시면 될 것 같아요. 다시 한번 예를 들어서 보여드리자면 이런 경우입니다. X를 통해서 이런 표본을 통해서 우리가 평균을 구했어요. 평균을 구하고 이 X에서 우리가 재표본을 해서 X3까지, 보통 이렇게 3까지는 안 합니다. 3번 추출을 안 하고 한 2000번에서 5000번 추출하는데 지금 공간 제약상 제가 3번 정도 추출했다고 가정할게요. 이렇게 복원 추출해서 새 집단을 만들고 여기에서 또 각각 평균의 추정치도 구합니다. 그래서 여기에서 구한 SD와 N을 통해서 SE 표준오차를 구하는 방법도 있고 아니면은 지금 이 값들에 우리가 재표본을 통해서 추정한 재표본의 평균값의 분포를 통해서 우리가 표준오차를 귀납적으로 구하는 방법도 있습니다. 그래서 후자의 방법을 보통 우리가 부트스트래핑 기법이라고 많이 얘기를 합니다. 그렇다면 많이 물어보세요. 왜, 어떤 이유에서 이 재표본 하는 게 이론적인 근거가 있습니까? 라고 많이 여쭤보시는데 일단 재표본을 통해서 우리가 관심있는 모수의 표집분포는 기본적인 원표본의 표본수와 그리고 추출된 추출된 횟수라든지 추출할 때 표본수가 충분히 커질수록 그 표집분포는 모집단의 표집분포에 근사한다라는 그런 통계적인 이론에 근거하여서 이 부트스트래핑 기법이 실제로 모수통계에 굉장히 많이 쓰인다고 이해하시면 될 것 같습니다. 그래서 부트스트래핑이 사용되는 경우를 좀 나열하자면 예전에 2000년대 전에는 컴퓨터 사양이 재표본법이 단순한 기법임에도 불구하고 연산이 빠르지 않았기 때문에 사용하기 어려웠는데 컴퓨터 성능이 개선되면서 많이 사용됐고요. 그 사용되는 목적은 주로 표준오차를 정확하게 구하기 위해서 사용되는 경우가 대부분이었고 표준오차를 어디에서, 어디에 관련된 표준오차냐면 모형이 복잡해지기 때문에 각각 우리가 추정하고자 하는 모수의 값이 편향이 많이 돼요. 특히 여러분의 데이터 수는 제한이 있는데 모형이 복잡해져 버리면 어느 한 모수는 부족한 케이스에서 도출된 변량 정보를 가지고 표준오차를 구하게 됩니다. 이때 발생할 수 있는 표준오차 자체의 부정확성을 극복하기 위해서 부트스트래핑이 보급되고 사용되고 현재 상용통계 패키지 안에 실제로 사용할 수 있게끔 많이 보급되어 있다고 보시면 될 것 같습니다. 그러면 부트스트래핑의 강점을 다시 한번 요약하자면 이겁니다. 결국은 우리가 어떤 모집단의 실제 신뢰구간을 알 수는 없어요. 구하기는 어려우나 부트스트래핑을 통해서 통한 신뢰구간은, 이 말은 무슨 말이냐면은 그냥 표준오차라고 생각하세요. 어차피 신뢰구간 구하는 공식 보시면은 95% 신뢰구간은 M±1.96SE입니다. 결국 핵심은 이게 아니라 이거예요. 이 표준오차를 구하는 방법은 그냥 일반적으로 정규성을 갖췄다고 가정을 하고 표본분산을 통해서 구한 일반적인 신뢰구간보다 점근적으로 더 정확하다는 귀납적인 연구결과와 실제 이론적인 백그라운드가 있습니다. 그래서 이러한 이유 때문에 부트스트래핑이 복잡한 모형을 연구할 때 많이 사용된다고 보시면 될 것 같아요. 하지만 이러한 부트스트래핑에 대한 한계가 있습니다. 어떤 한계가 있을까요? 샘플 수가 적은 경우 이미 이 표본 자체에 정확성이 많이 떨어질 수가 있어요. 한번 생각을 해보세요. 여러분이 대한민국 남성의 평균 키를 재야 되는데 자신의 어떤 있는 아파트에 있는 성인 남성들, 아파트가 아니라 빌라라고 해볼게요. 성인 남성들이 한 10명 있다면 10명 가지고 대한민국 전체의 어떤 남성의 평균 키를 측정하려고 해요. 이렇게 샘플 수 자체가 너무 얼토당토않게 작게 있는 경우는 부트스트래핑을 백날 한들 이게 나아질 수가 있을까요? 없겠죠. 샘플 수가 이미 적은 경우 여기 안에서 굉장히 일단 모수와의 괴리가 클 수가 있습니다. 이 상태에서 백날 부트스트래핑 한들 결과가 어떻게 되죠? 좋지 않게 나오겠죠. 두 번째로 지저분한 데이터입니다. 이상치들 그리고 결측치들, 입력오류 이런 것 때문에 데이터 자체가 굉장히 지저분한 경우, 이런 경우는 이 상태에서 부트스트래핑을 하게 되면 결과 자체도 마찬가지로 왜곡될 가능성이 높겠죠. 그리고 세 번째로는 일반적으로 부트스트래핑을 할 때 각 케이스가 나올 확률은 독립이라고 가정을 하는데 그 독립성 가정이 깨지는 경우 관련성이 있을 경우, 어떤 시계열적인 관련성이라든지 자기 상관이 있을 경우 그럴 때는 마찬가지로 부트스트래핑에서 도출한 값들이 부정확해질 수가 있습니다. 그래서 항상 명심을 하세요. 이건 데이터 핸들링 하는 부분에서 많이 쓰이는 그런 관용어인데 garbage in, garbage out 이라고 여러분이 아무리 좋은 기법이라 할지라도 쓰레기를 안에 넣으면 그 결과는 쓰레기일 수밖에 없죠. 그래서 이걸 명심하시고 부트스트래핑이 만능이 아니다, 여러분의 데이터가 어느 정도 갖춰진 상태에서 진행을 해야지 그게 우리가 원하는 그런 정확한 추정치들을 제공해 준다 라고 이해를 하시면 될 것 같습니다.

이 강좌의 강의

[5분 통계] SPSS로 하는 통계분석 인트로맛보기
spss 구하기
결과창과 신텍스
데이터 및 변수보기
데이터 생성과 저장하기맛보기
다른 형식의 데이터 불러오기
변수 유형
변수 축약(aggregation)맛보기
변수 필터링, 변수 나열(sorting), 변수 분리(splitting)
롱 포맷에서 와이드 포맷으로 변환
케이스 추가하기
변수 추가하기
변수 재코딩
와이드 포맷에서 롱 포맷으로 변환
결측값 단순 대체
역코딩
막대 그래프 그리기
산점도 그리기
상자도표 그리기
선 그래프 그리기
히스토그램 그리기
정규성 확인
정규성 확인 실습
중심화 경향치와 변산성
가설검정
점추정과 구간추정
통계적 추론
F 분포
t 분포
이항 분포
정규 분포
카이제곱 분포
포아송 분포
피어슨 상관 이론
피어슨 상관 실습
스피어만 순위상관 이론
스피어만 순위상관 실습
카이제곱 검정 이론
카이제곱 검정 실습
급내상관(ICC) 이론
급내성관(ICC) 실습
카파(Kappa) 통계량 이론
카파(Kappa) 통계량 실습
크론바흐 알파 이론
크론바흐 알파 실습
단일집단 t 검정 이론
단일집단 t 검정 실습
대응표본 t 검정 이론
대응표본 t 검정 실습
독립집단 t 검정 이론
독립집단 t 검정 실습
만 휘트니 U 검정 이론
만 휘트니 U 검정 실습
부호검정 이론
부호검정 실습
윌콕슨 부호화 순위검정 이론
윌콕슨 부호화 순위검정 실습
ANOVA 이론
ANOVA 실습
반복측정 이론
반복측정 실습
이원분산분석 이론
이원분산분석 실습
크루스칼 왈리스 검정 이론
크루스칼 왈리스 검정 실습
프리드만 검정 이론
프리드만 검정 실습
ANCOVA 이론
ANCOVA 실습
다중회귀분석 이론
다중회귀분석 실습
로지스틱 회귀분석 이론
로지스틱 회귀분석 실습
요인분석 이론
요인분석 실습
process 설치
매개효과 이론
매개모형 실습
조절효과 이론
조절효과 실습
부트스트래핑재생 중
결측치 다루기
평균 대체법
다중 대치법
이상치 개념
이상치 실습

초보자를 위한 SPSS 통계분석강좌 자세히 보기