통계량 - 데이터를 값으로 요약하기

데이터 사이언스와 비즈니스 애널리틱스를 위한 통계 분석 마스터 과정 강좌의 맛보기 강의입니다.

강의 대본

확보한 데이터에서 인사이트를 도출하기 위해서 데이터를 값으로 요약하는 통계량에 대해서 살펴보도록 하겠습니다. 통계량이라고 하는 것은 데이터 분석에서 인사이트를 도출하기 위한 하나의 방법이에요. 구체적으로는 데이터 특징을 하나의 숫자로 요약해 내는 거구요. 데이터에서 어떤 특징을 요약하고 싶은가에 따라서 여러 가지 통계량이 활용됩니다. 대표적인 통계량은 평균, 분산, 표준편차 등이 있어요. 그 외에도 다양한 통계량이 존재하고요. 이에 대해서는 엑셀을 가지고 기술통계법을 적용해서 주요 통계량을 도출해보면서 설명드리도록 하겠습니다. 자, 이제 분석 대상 데이터를 확보했습니다. 자, 근데 이 데이터는 결국 모든 데이터는 1차 자료, 자, 내가 만든 데이터가 있을 거고요. 2차 자료, 자, 남이 만든 데이터가 있어요. 자, 근데 이 데이터는 우리가 만든 데이터인가요? 그렇지 않죠? 주어진 데이터죠? 그럼 2차 자료고요. 주어진 데이터를 갖다가 우리가 확보를 했을 때는 데이터를 좀 파악을 해야 됩니다. 결국 모든 데이터는 분석을 하기 위해서는 테이블 형태 로 데이터가 만들어졌다고 말씀드렸어요. 테이블 형태라는 건 결국 행과 열로 구성되어 있어요. 그러면 기술 통계는 데이터 요약이라고 표현했는데 데이터 요약 대상은 결국 행일까요? 열일까요? 데이터 요약 대상이 행과 열이냐 이걸 이해하는 게 중요한데요. 우리는 다 열 중심으로 생각한다 라고 말씀드렸습니다. 그래서 우리가 이제 이렇게 그 데이터가 주어졌을 때는 처음에 데이터에 대한 규모 파악부터 해야 됩니다. 자 같이 한번 데이터를 갖다 파악해 볼게요. 자 A1셀 한번 클릭하시구요. 컨트롤키 누르고 화살표 오른쪽, 컨트롤키 누르고 화살표 아래, 컨트롤키 누르고 화살표 왼쪽, 컨트롤키 누르고 화살표 위 하면 데이터를 한번 스킵을 했습니다. 자 행은 300개 정도고 열이 A부터 I까지 있다 열 정보를 좀 더 보도록 할게요. 결국 성명, 사번, 성별, 부서, 나이, 입사 년도, 연봉, IQ, 3년 평균 실적이라는 항목을 갖고 있습니다. 자 여기서 우리는 어떤 인사이트를 도출해 내고 싶어요. 그래서 이제 이 데이터를 기술 통계에 의해서 요약을 해보려고 합니다. 그런데 보니까 나이나 연봉이 너무 데이터가 촘촘하게 들어 있어요. 그래서 이 부분을 좀 가공을 한 상태에서 제가 인사이트를 도출하고 싶습니다. 이런 걸 가공하는 것을 데이터 전처리라고 표현합니다. 데이터 전처리라는 시트를 클릭해 보도록 할게요. 이건 조금 전에 데이터 시트랑 동일한 내용인데 데이터를 구분하기 위해서 시트를 구분했습니다. E열 선택하고 마우스 오른쪽 버튼 눌러서 복사하도록 하겠습니다. 그리고 F열 누르고 다시 마우스 오른쪽 버튼 눌러서 복사한 셀을 삽입하도록 하겠습니다. 그리고 나이라는 레이블을 나이대라고 설정을 하고요. 지금 보면 39라고 되어 있는 걸 equal을 선택하고 ROUNDDOWN 함수에 여기 보면 지금 E1셀이 곧바로 선택이 안 되네요. 그럴 때는 D1셀을 선택하고 마우스 커서를 가지고 화살표 오른쪽을 딱 선택해서 지금 보시는 것이 E2를 선택해주세요. 그리고 그 다음에 여기다 마이너스 1이라고 설정을 하면 지금 보시는 것처럼 30대로 변경이 됩니다. 47은 이거 채우기 핸들로 더블 클릭하면 40대, 34세는 30대, 보면 나이를 구간으로 이렇게 요약했죠. 이런 것들을 버킷이라고 표현합니다. 일단 나이대라고 설정하고 자 보면 구분하기 위해서 이건 컨트롤 쉬프트 화살표 아래, 컨트롤 쉬프트 화살표 아래 하고 색깔만 좀 보면 다른 색으로 좀 설정을 해보도록 하겠습니다. 똑같이 제가 보면 연봉 역시 연봉대를 만들고 싶어요. 그래서 이번에는 I열 선택하고 마우스 오른쪽 버튼 삽입해서 빈 열을 하나 삽입을 하고요. 이건 연봉대라고 설정하도록 하겠습니다. 그리고 equal 자 이거 역시 연봉을 선택하려고 하는데 좀 선택이 좀 어려울 것 같아서 자 요 녀석은 이 간격을 좀 크게 키워 놓고 진행하도록 하겠습니다. 자 이퀄, 자 라운드 다운, 똑같이 자 라운드 다운 선택하고 탭키 눌러서 라운드 다운을 선택하고 앞에 있는 H2 선택한 다음에 저는 여기 보면 이 4만 남기고 뒤에는 3자리를 보면 다 0으로 바꾸고 싶어요. 그럼 마이너스 3이라고 입력하고 엔터 치시면 연봉 4천만원대가 설정이 됩니다. 채우기 핸들로 값을 다 채워보도록 할게요. 그리고 요 녀석도 다시 줄이도록 하겠습니다. 이 연봉대 역시 여기 색깔을 좀 다르게 설정하도록 하겠습니다. 지금 보시는 것처럼 요 녀석은 나이대와 연봉대라고 하는 것을 추가했습니다. 지금 원래 있던 데이터에서 제가 어떤 목적을 가지고 이 데이터를 요약하는 것, 이런 것을 데이터 전처리라고 표현합니다. 데이터 전처리한 내용은 보면 뒤에서 좀 더 자세하게 어떻게 활용하는지를 설명드릴 겁니다. 자 그리고 이제 보면 데이터 전처리가 끝났으면 본격적으로 이제 인사이트를 도출하면 됩니다. 기술통계법 시트를 선택하도록 하겠습니다. 편의상 데이터 전처리에 있던 IQ와 3년 평균 실적만 복사해 넣었어요. 자, 여기서 조금 전에 통계량이란 건 우리 어떤 걸 사용했죠? 주요 통계량이라고 하는 거에서 평균, 분산, 표준편차 같은 거 우리가 설명드렸습니다. 자, 그 외에도 첨도, 왜도, 미디언 뭐 다양한 통계량이 있어요. 그걸 일일이 예를 들어서 평균을 계산하려고 하면 이렇게 하면 되는 거죠. 평균을 계산하려고 한다면 자 equal average, 편하게 하기 위해서 이렇게 하도록 하겠습니다. 평균 계산하기 위해서 자 여기 이 IQ라고 하는 거 선택하고 컨트롤 쉬프트 화살표 아래, 그리고 그 다음에 요 녀석 이 범위를 IQ라고 하고 엔터 치도록 하겠습니다. 그렇게 하면 이제 자 이 엑셀에서 IQ라는 거 선택하면 IQ를 지칭하게 돼요. 내가 원하는 특정 범위를 하나의 문자로 그 보면 할당하는 게 이름 정의 단계 있습니다. 자 B열 선택하고 똑같이 컨트롤 쉬프트 화살표 아래, 이건 3년 평균 실적이라고 하도록 하겠습니다. 자 설정이 안 됐네요. 다시 3년 평균 실적 엔터, 잠깐만요. 평균 실적이라고 할당하도록 하겠습니다. 자 평균 실적, 자 그러면 평균을 구할 때 IQ에 대한 평균을 구하고 싶어요. equal average 한 다음에 제가 조금 전에 설정했던 IQ라고 하는 이름을 주면 자 이 보면 IQ 범위에 대한 이름이 설정이 됩니다. 똑같이 3년 평균 실적도 이건 이번에 이렇게 볼게요. average 하고 자 결국은 지금 보시는 것처럼 이렇게 범위를 지정해야 되는데 이 범위 지정하는 게 귀찮죠? 그러니까 조금 전에 우리는 이름을 활용을 했다고 보시면 됩니다. 그러면 A, B열 전체를 제가 선택해서 기술 통계를 적용하고 싶어요. 그러면 A, B열 선택하고 Ctrl, Shift, 화살표 아래 한 다음에 이건 IQ 실적이라고 하도록 하겠습니다. IQ 실적이라고 하는 이름은 A열과 B열 전체를 선택하게 됩니다. 이렇게 한 다음에 저희는 기술 통계를 적용하려고 합니다. 기술 통계 메뉴는 데이터라는 곳에 들어있습니다. 데이터라는 것을 선택하시고요. 데이터라는 것을 선택하시면 오른쪽 끝에 보면 데이터 분석이라고 하는 메뉴가 나옵니다. 데이터 분석이라는 메뉴가 여러분에게는 보이지 않을 수가 있습니다. 그런 경우에는 파일에 옵션 메뉴를 선택하시고요. 옵션 메뉴를 선택하시고 추가 기능에서 엑셀 추가 기능의 이동 선택하시고 분석 도구라고 하는 거 해제하고 확인해 보도록 하겠습니다. 그러면 분명 있었던 분석 도구가 없어지는 걸 확인해 볼 수 있어요. 다시 나타나게 해 볼게요. 나타나게 하려면 다시 여기 보면 파일에서 옵션에서 추가 기능에 이동해서 여기 분석 도구에 체크하고 확인하도록 하겠습니다. 그러면 다시 여기 데이터 분석 도구가 활성화된 걸 확인해 볼 수 있을 거예요. 이 상태에서 데이터 분석 메뉴 실행하시고 그러면 엑셀에서 제공되는 표준 데이터 분석 메뉴가 실행이 됩니다. 데이터 분석에 의한 데이터 요약 명령어들이 존재하고요. 그 중에서 저희는 오늘 가장 많이 쓰는 것 중에 하나인 기술 통계법이라는 것을 선택하도록 하겠습니다. 선택하고 확인하도록 하겠습니다. 자 기술 통계법이 적용됐고 입력 범위에 지금 입력 범위에 이렇게 입력해야 되는 거예요. 근데 밑에 입력하는 게 부담이 되니까 제가 어떤 걸 갖다 이름으로 만들어 놨죠? IQ 실적이라는 걸 만들어 놨죠? IQ 실적하면 이 A열, B열이 다 선택이 됩니다. 그리고 첫째 행 이름표 사용, 위에 있는 건 header고 밑에 있는 건 값이다 라는 걸 표현하기 위해서 첫째 행 이름표를 사용하고 다시 요약 통계량, 평균에 대한 신뢰 수준 선택하도록 하겠습니다. 그리고 결과 값이 새 시트에 만들어지는 게 아니라 같은 시트 내에서 확인을 보려고 해요. 출력 범위를 선택하시고 출력 범위에 저는 H2 선택하도록 하겠습니다. H2 선택하고 엔터 치고 그대로 확인하면 지금 보시는 것처럼 IQ란 영역의 기술 통계값, 3년 평균 실적에 대한 주요 기술 통계량이 나오게 됩니다. 저희가 주로 보는 것은 핵심 통계량은 평균과 표준편차 두 가지예요. 그 외에도 많이 쓰는 게 분산이라든가 최소, 최대라든가 중앙값이라든가 그걸 많이 쓸 텐데 저희는 핵심 통계량으로 평균과 표준편차가 왜 핵심 통계량이고 중요한지는 뒤에서 좀 더 설명드리도록 하겠습니다. 일단 우리가 설명드리고자 하는 주요 통계량, 평균, 표준 오차, 중앙값, 최빈값, 분산, 첨도, 왜도 등 다양한 통계량을 저희는 이렇게 쉽게 만들어낼 수 있습니다. 정리를 해보면 데이터를 확보한 다음에 데이터 분석에 기술 통계량을 선택해서 내가 요약하고자 하는 열 중심 범위를 지정한 다음에 쉽게 함수를 사용하지 않고 엑셀의 데이터 분석 기능을 이용해서 기술 통계량을 구할 수 있다고 말씀드릴 수 있습니다.

이 강좌의 강의

  • 통계분석 마스터 클래스 배울 내용 소개
  • 수업 수강 환경 안내
  • 직관적 의사결정과 데이터 기반 의사결정
  • 데이터 사이언티스트 필요 역량
  • 통계적 의사결정 모형맛보기
  • 데이터의 유형과 측정 기준
  • 정형 데이터
  • DIKW 피라미드 데이터 기반 비즈니스 전략 수립
  • 1차 자료와 2차 자료
  • 2차 자료 확보
  • 기술 통계의 필요성
  • 통계량 - 데이터를 값으로 요약하기재생 중
  • 차트 - 데이터를 그림으로 요약하기
  • 히스토그램
  • 중심 경향치
  • 산포도
  • 평균과 표준편차의 해석맛보기
  • 산점도
  • 상관관계와 상관계수
  • 상자수염 그림
  • 히트맵
  • 도수분포표
  • 파이 차트
  • 트리맵
  • 모집단 추정
  • 모수와 추정량
  • 점 추정과 구간 추정
  • 구간 추정 핵심 개념
  • 신뢰수준과 신뢰구간
  • 확률의 정의
  • 동전 던지기 확률 나무
  • 확률 변수
  • 확률 분포
  • 확률 법칙
  • 데이터 부트스트랩
  • 대수의 법칙맛보기
  • 중심 극한 정리
  • 무작위 추출
  • 적절한 표본 크기 산출
  • 인과 관계
  • 인과 관계와 상관 관계
  • 무작위 통제 실험
  • AB 테스트 실행 방법
  • 네이만-피어슨 추론 방식
  • 귀무가설과 대립가설
  • 가설 설정 실전 연습
  • 유의 확률과 유의 수준
  • 유의성 검정 절차와 도구
  • 배기량과 주행 연비의 관련성 검정맛보기
  • 통계분석 프로세스와 분석 로드맵
  • 카이제곱 검정의 이해
  • 카이제곱 검정 - 2범주 독립성 검정
  • 카이제곱 검정 - 4범주 독립성 검정
  • 카이제곱 검정 - 동질성 검정
  • 검정의 이해
  • 독립표본 T 검정(1)
  • 독립표본 T 검정(2)
  • 일표본 T 검정
  • 대응표본 T 검정
  • 분산분석의 이해
  • 일원배치 분산분석
  • 반복 없는 이원배치 분산분석
  • 반복 있는 이원배치 분산분석
  • 이원 분산분석 - 주 효과와 교호 작용
  • 회귀분석의 이해
  • 기온에 따른 아이스크림 판매량 추정
  • 회귀분석의 결과 읽기 - 회귀식과 회귀 계수
  • 회귀분석의 결과 읽기 - 결정계수와 잔차
  • 다양한 회귀분석 실행 방법
  • 잘못된 분석 사례
  • 다중 선형 회귀분석의 이해
  • 다중 선형 회귀분석의 실행과 결과 읽기
  • 다중 선형 회귀분석 - 회귀분석식을 활용한 추정
  • 로지스틱 회귀분석의 이해
  • 로지스틱 회귀분석의 실행
  • 로지스틱 회귀분석의 결과 읽기
  • 실전프로젝트-PPDAC 모형
  • 실전프로젝트-데이터 요약 및 패턴 찾기(1)
  • 실전프로젝트-데이터 요약 및 패턴 찾기(2)
  • 실전프로젝트-데이터 요약 및 패턴 찾기(3)
  • 실전프로젝트-결론 도출과 새로운 문제 발견
  • 실전프로젝트_매장 방문횟수가 늘수록 구매금액이 오르는가
  • 실전프로젝트_어떤 요인이 매출에 영향을 미치는가
  • 실전프로젝트_DM 발송이 정말 효과가 있는지 확인해보자
  • 실전프로젝트_어느 매체를 사용할 것인가
  • 실전프로젝트_구매 여부를 예측해보자
데이터 사이언스와 비즈니스 애널리틱스를 위한 통계 분석 마스터 과정
데이터 사이언스와 비즈니스 애널리틱스를 위한 통계 분석 마스터 과정강좌 자세히 보기