데이터 사이언스와 비즈니스 애널리틱스를 위한 통계 분석 마스터 과정 강좌의 맛보기 강의입니다.
확보한 데이터에서 인사이트를 도출하기 위해서 데이터를 값으로 요약하는 통계량에 대해서 살펴보도록 하겠습니다. 통계량이라고 하는 것은 데이터 분석에서 인사이트를 도출하기 위한 하나의 방법이에요. 구체적으로는 데이터 특징을 하나의 숫자로 요약해 내는 거구요. 데이터에서 어떤 특징을 요약하고 싶은가에 따라서 여러 가지 통계량이 활용됩니다. 대표적인 통계량은 평균, 분산, 표준편차 등이 있어요. 그 외에도 다양한 통계량이 존재하고요. 이에 대해서는 엑셀을 가지고 기술통계법을 적용해서 주요 통계량을 도출해보면서 설명드리도록 하겠습니다. 자, 이제 분석 대상 데이터를 확보했습니다. 자, 근데 이 데이터는 결국 모든 데이터는 1차 자료, 자, 내가 만든 데이터가 있을 거고요. 2차 자료, 자, 남이 만든 데이터가 있어요. 자, 근데 이 데이터는 우리가 만든 데이터인가요? 그렇지 않죠? 주어진 데이터죠? 그럼 2차 자료고요. 주어진 데이터를 갖다가 우리가 확보를 했을 때는 데이터를 좀 파악을 해야 됩니다. 결국 모든 데이터는 분석을 하기 위해서는 테이블 형태 로 데이터가 만들어졌다고 말씀드렸어요. 테이블 형태라는 건 결국 행과 열로 구성되어 있어요. 그러면 기술 통계는 데이터 요약이라고 표현했는데 데이터 요약 대상은 결국 행일까요? 열일까요? 데이터 요약 대상이 행과 열이냐 이걸 이해하는 게 중요한데요. 우리는 다 열 중심으로 생각한다 라고 말씀드렸습니다. 그래서 우리가 이제 이렇게 그 데이터가 주어졌을 때는 처음에 데이터에 대한 규모 파악부터 해야 됩니다. 자 같이 한번 데이터를 갖다 파악해 볼게요. 자 A1셀 한번 클릭하시구요. 컨트롤키 누르고 화살표 오른쪽, 컨트롤키 누르고 화살표 아래, 컨트롤키 누르고 화살표 왼쪽, 컨트롤키 누르고 화살표 위 하면 데이터를 한번 스킵을 했습니다. 자 행은 300개 정도고 열이 A부터 I까지 있다 열 정보를 좀 더 보도록 할게요. 결국 성명, 사번, 성별, 부서, 나이, 입사 년도, 연봉, IQ, 3년 평균 실적이라는 항목을 갖고 있습니다. 자 여기서 우리는 어떤 인사이트를 도출해 내고 싶어요. 그래서 이제 이 데이터를 기술 통계에 의해서 요약을 해보려고 합니다. 그런데 보니까 나이나 연봉이 너무 데이터가 촘촘하게 들어 있어요. 그래서 이 부분을 좀 가공을 한 상태에서 제가 인사이트를 도출하고 싶습니다. 이런 걸 가공하는 것을 데이터 전처리라고 표현합니다. 데이터 전처리라는 시트를 클릭해 보도록 할게요. 이건 조금 전에 데이터 시트랑 동일한 내용인데 데이터를 구분하기 위해서 시트를 구분했습니다. E열 선택하고 마우스 오른쪽 버튼 눌러서 복사하도록 하겠습니다. 그리고 F열 누르고 다시 마우스 오른쪽 버튼 눌러서 복사한 셀을 삽입하도록 하겠습니다. 그리고 나이라는 레이블을 나이대라고 설정을 하고요. 지금 보면 39라고 되어 있는 걸 equal을 선택하고 ROUNDDOWN 함수에 여기 보면 지금 E1셀이 곧바로 선택이 안 되네요. 그럴 때는 D1셀을 선택하고 마우스 커서를 가지고 화살표 오른쪽을 딱 선택해서 지금 보시는 것이 E2를 선택해주세요. 그리고 그 다음에 여기다 마이너스 1이라고 설정을 하면 지금 보시는 것처럼 30대로 변경이 됩니다. 47은 이거 채우기 핸들로 더블 클릭하면 40대, 34세는 30대, 보면 나이를 구간으로 이렇게 요약했죠. 이런 것들을 버킷이라고 표현합니다. 일단 나이대라고 설정하고 자 보면 구분하기 위해서 이건 컨트롤 쉬프트 화살표 아래, 컨트롤 쉬프트 화살표 아래 하고 색깔만 좀 보면 다른 색으로 좀 설정을 해보도록 하겠습니다. 똑같이 제가 보면 연봉 역시 연봉대를 만들고 싶어요. 그래서 이번에는 I열 선택하고 마우스 오른쪽 버튼 삽입해서 빈 열을 하나 삽입을 하고요. 이건 연봉대라고 설정하도록 하겠습니다. 그리고 equal 자 이거 역시 연봉을 선택하려고 하는데 좀 선택이 좀 어려울 것 같아서 자 요 녀석은 이 간격을 좀 크게 키워 놓고 진행하도록 하겠습니다. 자 이퀄, 자 라운드 다운, 똑같이 자 라운드 다운 선택하고 탭키 눌러서 라운드 다운을 선택하고 앞에 있는 H2 선택한 다음에 저는 여기 보면 이 4만 남기고 뒤에는 3자리를 보면 다 0으로 바꾸고 싶어요. 그럼 마이너스 3이라고 입력하고 엔터 치시면 연봉 4천만원대가 설정이 됩니다. 채우기 핸들로 값을 다 채워보도록 할게요. 그리고 요 녀석도 다시 줄이도록 하겠습니다. 이 연봉대 역시 여기 색깔을 좀 다르게 설정하도록 하겠습니다. 지금 보시는 것처럼 요 녀석은 나이대와 연봉대라고 하는 것을 추가했습니다. 지금 원래 있던 데이터에서 제가 어떤 목적을 가지고 이 데이터를 요약하는 것, 이런 것을 데이터 전처리라고 표현합니다. 데이터 전처리한 내용은 보면 뒤에서 좀 더 자세하게 어떻게 활용하는지를 설명드릴 겁니다. 자 그리고 이제 보면 데이터 전처리가 끝났으면 본격적으로 이제 인사이트를 도출하면 됩니다. 기술통계법 시트를 선택하도록 하겠습니다. 편의상 데이터 전처리에 있던 IQ와 3년 평균 실적만 복사해 넣었어요. 자, 여기서 조금 전에 통계량이란 건 우리 어떤 걸 사용했죠? 주요 통계량이라고 하는 거에서 평균, 분산, 표준편차 같은 거 우리가 설명드렸습니다. 자, 그 외에도 첨도, 왜도, 미디언 뭐 다양한 통계량이 있어요. 그걸 일일이 예를 들어서 평균을 계산하려고 하면 이렇게 하면 되는 거죠. 평균을 계산하려고 한다면 자 equal average, 편하게 하기 위해서 이렇게 하도록 하겠습니다. 평균 계산하기 위해서 자 여기 이 IQ라고 하는 거 선택하고 컨트롤 쉬프트 화살표 아래, 그리고 그 다음에 요 녀석 이 범위를 IQ라고 하고 엔터 치도록 하겠습니다. 그렇게 하면 이제 자 이 엑셀에서 IQ라는 거 선택하면 IQ를 지칭하게 돼요. 내가 원하는 특정 범위를 하나의 문자로 그 보면 할당하는 게 이름 정의 단계 있습니다. 자 B열 선택하고 똑같이 컨트롤 쉬프트 화살표 아래, 이건 3년 평균 실적이라고 하도록 하겠습니다. 자 설정이 안 됐네요. 다시 3년 평균 실적 엔터, 잠깐만요. 평균 실적이라고 할당하도록 하겠습니다. 자 평균 실적, 자 그러면 평균을 구할 때 IQ에 대한 평균을 구하고 싶어요. equal average 한 다음에 제가 조금 전에 설정했던 IQ라고 하는 이름을 주면 자 이 보면 IQ 범위에 대한 이름이 설정이 됩니다. 똑같이 3년 평균 실적도 이건 이번에 이렇게 볼게요. average 하고 자 결국은 지금 보시는 것처럼 이렇게 범위를 지정해야 되는데 이 범위 지정하는 게 귀찮죠? 그러니까 조금 전에 우리는 이름을 활용을 했다고 보시면 됩니다. 그러면 A, B열 전체를 제가 선택해서 기술 통계를 적용하고 싶어요. 그러면 A, B열 선택하고 Ctrl, Shift, 화살표 아래 한 다음에 이건 IQ 실적이라고 하도록 하겠습니다. IQ 실적이라고 하는 이름은 A열과 B열 전체를 선택하게 됩니다. 이렇게 한 다음에 저희는 기술 통계를 적용하려고 합니다. 기술 통계 메뉴는 데이터라는 곳에 들어있습니다. 데이터라는 것을 선택하시고요. 데이터라는 것을 선택하시면 오른쪽 끝에 보면 데이터 분석이라고 하는 메뉴가 나옵니다. 데이터 분석이라는 메뉴가 여러분에게는 보이지 않을 수가 있습니다. 그런 경우에는 파일에 옵션 메뉴를 선택하시고요. 옵션 메뉴를 선택하시고 추가 기능에서 엑셀 추가 기능의 이동 선택하시고 분석 도구라고 하는 거 해제하고 확인해 보도록 하겠습니다. 그러면 분명 있었던 분석 도구가 없어지는 걸 확인해 볼 수 있어요. 다시 나타나게 해 볼게요. 나타나게 하려면 다시 여기 보면 파일에서 옵션에서 추가 기능에 이동해서 여기 분석 도구에 체크하고 확인하도록 하겠습니다. 그러면 다시 여기 데이터 분석 도구가 활성화된 걸 확인해 볼 수 있을 거예요. 이 상태에서 데이터 분석 메뉴 실행하시고 그러면 엑셀에서 제공되는 표준 데이터 분석 메뉴가 실행이 됩니다. 데이터 분석에 의한 데이터 요약 명령어들이 존재하고요. 그 중에서 저희는 오늘 가장 많이 쓰는 것 중에 하나인 기술 통계법이라는 것을 선택하도록 하겠습니다. 선택하고 확인하도록 하겠습니다. 자 기술 통계법이 적용됐고 입력 범위에 지금 입력 범위에 이렇게 입력해야 되는 거예요. 근데 밑에 입력하는 게 부담이 되니까 제가 어떤 걸 갖다 이름으로 만들어 놨죠? IQ 실적이라는 걸 만들어 놨죠? IQ 실적하면 이 A열, B열이 다 선택이 됩니다. 그리고 첫째 행 이름표 사용, 위에 있는 건 header고 밑에 있는 건 값이다 라는 걸 표현하기 위해서 첫째 행 이름표를 사용하고 다시 요약 통계량, 평균에 대한 신뢰 수준 선택하도록 하겠습니다. 그리고 결과 값이 새 시트에 만들어지는 게 아니라 같은 시트 내에서 확인을 보려고 해요. 출력 범위를 선택하시고 출력 범위에 저는 H2 선택하도록 하겠습니다. H2 선택하고 엔터 치고 그대로 확인하면 지금 보시는 것처럼 IQ란 영역의 기술 통계값, 3년 평균 실적에 대한 주요 기술 통계량이 나오게 됩니다. 저희가 주로 보는 것은 핵심 통계량은 평균과 표준편차 두 가지예요. 그 외에도 많이 쓰는 게 분산이라든가 최소, 최대라든가 중앙값이라든가 그걸 많이 쓸 텐데 저희는 핵심 통계량으로 평균과 표준편차가 왜 핵심 통계량이고 중요한지는 뒤에서 좀 더 설명드리도록 하겠습니다. 일단 우리가 설명드리고자 하는 주요 통계량, 평균, 표준 오차, 중앙값, 최빈값, 분산, 첨도, 왜도 등 다양한 통계량을 저희는 이렇게 쉽게 만들어낼 수 있습니다. 정리를 해보면 데이터를 확보한 다음에 데이터 분석에 기술 통계량을 선택해서 내가 요약하고자 하는 열 중심 범위를 지정한 다음에 쉽게 함수를 사용하지 않고 엑셀의 데이터 분석 기능을 이용해서 기술 통계량을 구할 수 있다고 말씀드릴 수 있습니다.
