빅데이터분석기사 필기: 2과목 빅데이터 탐색 강좌의 맛보기 강의입니다.
다음은 데이터 탐색의 개요에 대해서 학습해 보도록 하겠습니다. 이 부분은 우리 1과목에서도 학습을 한 바가 있는데요. 탐색적 데이터 분석 즉 EDA라고 얘기를 합니다. Exploratory Data Analysis라고 얘기를 하는데요. 데이터를 본격적인 분석에 들어가기 전에 데이터를 먼저 탐색해서 이해를 할 수 있는 초기 단계다 라고 볼 수가 있습니다. 그런데 이 탐색적 데이터 분석을 통해서도 꽤 많은 인사이트를 발견해 낼 수 있기 때문에 분석 전에는 반드시 EDA의 과정을 거치는 것이 좋을 것 같습니다. EDA를 통해서 데이터의 기본적인 특성이나 구조를 파악할 수 있고 또 이상과 패턴, 트렌드 같은 것을 찾아내는 데 활용할 수가 있습니다. 보통 EDA는 여러 가지 시각화 도구나 또 요약 통계 등 기술 통계의 가장 기초적인 것들을 활용할 수가 있습니다. 간단한 그래프를 그려보거나 또는 데이터의 구조나 서머리 등을 이용해서 이 데이터에 대해서 먼저 탐색을 하는 그런 과정을 의미하게 됩니다. 이 데이터 탐색에서는 EDA에 4R이라는 요소가 있습니다. 4가지 요소들을 기억을 해두시면 좋겠는데요. 이 4R이라는 것은 데이터 분석 과정에서 데이터의 정확한 이해를 하고 또 강관성, 로버스트라는 말을 사용했었는데요. 강건성을 증진시키는 원칙과 기법을 의미하게 됩니다. 그러면 각각 한번 살펴보도록 하겠습니다. 첫 번째는 저항성, Resistance라는 성질이 되겠는데요. 이게 로버스트한 값과 관련이 있는 것이죠. 데이터의 이상치에 대한 저항력을 높이는 것으로 이상치가 분석 결과에 미치는 영향을 최소화하기 위해서 사용합니다. 그럼 예를 들면 평균이라는 값은 이상치에 굉장히 민감하기 때문에 평균 대신에 중앙값이나 IQR 같은 대표값을 사용하는 방식을 예로 들 수가 있습니다. 두 번째는 잔차, Residual이라고 얘기를 하는데요. 이 잔차라는 것은 일종의 오차를 의미하는 것이죠. 우리가 예측한 값과 실제 값의 차이를 잔차라고 얘기를 하는데요. 이 잔차를 분석함으로써 모델의 성능을 평가하고 또 개선할 수 있습니다. 당연히 잔차라는 값은 작을수록 좋은 모델이라고 볼 수가 있겠죠. 그래서 잔차의 분포를 분석함으로써 모델의 성능을 평가하고 모델을 개선하는 데 활용할 수가 있습니다. 세 번째는 재표현, Re-expression이라고 얘기를 하는데요. 이건 원래 데이터를 다른 형태로 변환하는 것을 의미합니다. 우리 변환에 대해서는 사실 학습한 바가 있는데요. 데이터의 분포를 정교화하거나 선형관계를 만드는 그런 목적으로 사용할 수 있습니다. 예를 들면 로그 변환이 있을 수가 있겠죠. 그 다음은 현시성, Representation 성질이 되겠는데요. 이건 데이터를 시각적으로 표현하는 것을 의미합니다. 그래서 대부분의 EDA는 시각적인 툴을 이용해서 하게 되는데요. 데이터의 패턴, 트렌드, 이상치 등을 더 쉽게 파악할 수 있도록 만들어 줍니다. 그럼 이렇게 4R을 저항성 Resistance, 잔차 Residual, 재표현 Re-expression, 현시성 Representation 이렇게 4가지의 성질을 기억하실 필요가 있겠습니다. 다음은 이제 그 변수들을 탐색하는 방법이 되겠는데요. 변수는 앞서 제가 설명을 드렸던 것처럼 크게 범주형 자료가 있을 수 있고 그 다음 수치형 자료가 있을 수 있습니다. 그래서 여기에 범주형과 연속형으로 나누어 봤는데요. 범주형에는 명목척도와 순서척도, 연속형은 구간척도와 비율척도가 있었습니다. 데이터의 척도라는 것이 굉장히 중요하다는 것을 말씀드렸는데요. 그 척도에 따라서 분석을 하는 방법도 달라지고 당연히 여기에서 탐색을 하는 방법도 달라지게 됩니다. 그래서 어떤 데이터에 어떤 탐색 방법을 사용할 수 있는지를 구분해 두실 필요가 있는데요. 우선 범주형 데이터가 되겠습니다. 지금 단일 변수라는 것은 한 개의 변수가 있는 것을 의미하게 되겠죠. 그러면 어떤 예를 한번 들어볼까요? 성별 데이터가 있습니다. 성별 데이터는 남자다, 여자다 이런 데이터들을 구분을 해 놓은 것인데요. 그럼 이런 단일한 데이터, 다른 것들 말고 성별 데이터만 딱 주어졌을 경우에는 어떤 분석이 가능할까요? 당연히 여러분들은 남자는 몇 명이고 여자는 몇 명인지를 세겠죠. 그래서 빈도수를 측정하게 된다는 것입니다. 또는 비율을 계산하게 되죠. 전체 100% 중에 남성이 차지하는 비율과 여성이 차지하는 비율을 정리할 것 같고요. 그 다음 백분율도 계산할 수 있습니다. 여기에 최빈값이라는 것은 이 중에 제일 많이 등장한 값. 그러니까 예를 들어서 성별에서 남자는 70명이 있고 여자는 30명이 있다. 그럼 두 개의 데이터 중에서는 남자가 70번 등장하기 때문에 최빈값이 높다고 볼 수가 있죠. 이런 것들에 대한 분석을 할 수가 있다는 것입니다. 그리고 이것을 막대 차트로 시각화를 할 수가 있겠죠. 남자와 여자로 나누어서 남자는 70명, 여자는 30명이 있다라는 것을 막대 차트로 시각화를 할 수가 있을 것입니다. 자 그렇다면 이제 연속형 데이터가 있을 때는 어떻게 할까요? 예를 들어보면 몸무게 데이터가 있습니다. 그래서 우리 반 학생들의 몸무게 50kg, 55kg, 60kg, 53kg 이렇게 몸무게들이 있을 때는 어떤 분석을 하게 될까요? 가장 간단한 기술 통계량으로서 보통 평균을 굉장히 많이 사용을 하죠. 그래서 이 데이터들을 모두 더한 다음에 전체의 개수로 나누는 평균 계산을 아마도 여러분들도 먼저 하실 것 같고요. 또는 중앙값이라고 해서 작은 값부터 분산이나 표준편차라는 것은 평균값으로부터 이 값이 얼마나 떨어져 있는지 즉 전체 데이터가 얼마나 퍼져 있는지를 관측할 수 있는 값이 되겠는데요. 이런 것들도 계산해 볼 수 있고, 첨도나 왜도는 분포에 관한 것인데요. 첨도는 분포의 뾰족한 정도, 그 다음에 왜도는 한쪽으로 치우친 정도. 이런 것들을 기술 통계량을 통해서 계산을 해보는 거죠. 그래서 전체적인 분포라든지 평균이 어디 있는지 이런 것들을 계산을 해보고, 그 다음에 그래프 시각화로는 히스토그램, 히스토그램이 분포를 알 수 있는 것이고요. 상자 그림도 이런 여러 가지 정보들을 전달해 줄 수 있다는 거 이미 학습하신 바가 있습니다. 단일 변수를 탐색할 때는 이 데이터가 범주형이냐 연속형이냐 이걸 반드시 먼저 파악을 하고 그 다음 변수 탐색에 들어가 주셔야 될 것 같습니다. 그런데 이제 다중 변수를 탐색하는 경우도 있겠죠. 2개 이상 될 수가 있는데요. 2개라고 생각한다면 범주형 대 범주형, 그리고 수치형 대 수치형, 그리고 범주와 수치를 함께 분석하는 경우가 있을 수 있는데요. 모두 다 범주인 경우에는 교차 테이블이라는 것을 사용하게 됩니다. 여기 예를 한번 들어봤는데요. 이렇게 감기라는 변수가 있고 운동이라는 변수가 있습니다. 감기에 걸렸다, 걸리지 않았다. 운동을 했다, 하지 않았다. 이렇게 돼서 각각의 숫자를 적어 보는 거죠. 빈도수를 적어 보는데요. 이런 것들을 교차 테이블이라고 얘기를 합니다. 그 다음에 시각화를 할 때는 범주형의 경우에는 모자이크 플롯을 사용할 수 있습니다. 모자이크 플롯은 이런 그림이 되겠구요. 뒤에 이제 또 모자이크 플롯 나올 때 설명을 드리게 되겠습니다 이렇게 두 개의 범주형 자료가 있을 때 이것의 각각 너비나 높이를 이용해서 빈도수를 비교할 수가 있는 것입니다 그 다음에 카이 제곱 검정 이라는 것을 할 수 있는데요 카이 제곱 검정을 통해서는 여러가지 검정이 가능한데요 두 범주형 변수 사이에 독립성 검정을 할 때 많이 사용을 하게 됩니다 범주형 이니까 예를 들어서 남자 여자 이것도 범주형이죠 남자 여자가 그 좋아하는 공부하는 장소 공부하는 장소도 범주형이 되겠죠 공부하는 장소의 차이가 있는가 뭐 이런 것들을 검정할 때 카이제곱 검정 사용할 수 있습니다 뒤에 다시 공부를 하게 되겠구요 그 다음 수치와 수치는 수치와 수치는 어떤 것들을 탐색할 수 있을까요? 두 개의 숫자 값이 있으면 두 개가 관계가 있는지 그렇지 않은지를 파악하겠죠. 예를 들면 하나는 키고 하나는 몸무게입니다. 키와 몸무게는 연관이 있겠죠. 키가 큰 사람은 당연히 몸무게가 많이 나갈 수밖에 없을 겁니다. 이 두 가지의 관계를 시각화 할 수 있는 게 바로 산점도 스캐터플롯이 되겠습니다. X축, Y축에서 키와 몸무게에서 이것의 관계를 점을 찍어서 표현하는 방법이 되겠구요. 우리 앞에서 상관계수에 대한 것도 간단히 설명을 드렸었는데요. 상관성을 따지는데 상관계수 사용할 수 있죠. 하나의 변수가 증가할 때 다른 변수가 함께 증가하는지 그렇지 않은지를 판단할 수 있는 상관계수라는 것이 있습니다. 그 다음 범주형과 수치형이 있을 수 있는데요. 하나는 범주형이고 하나는 수치형일 때는 상자 그림을 앞에 문제풀 때도 나왔는데 닭의 사료들, 닭의 사료는 범주형이 되겠죠 사료에 따라서 이 몸무게의 범위를 조사할 수 있는데요 몸무게는 수치형이라는 것을 알 수 있습니다 그 다음 뒤에 이제 T검정에 관한 것도 나오는데요. 이것은 평균 검정을 할 때 보통 사용합니다. 예를 들어서 남자와 여자, 남자와 여자는 범주형이 되겠고요. 남자와 여자의 성별에 따라서 수학점수 평균의 차이가 있는가, 수학점수라는 건 수치형이 되겠죠. 이런 검정을 할 때 사용이 되겠고요. 그 다음 분산분석이라는 것도 있습니다. ANOVA 이것도 뒤에 나오는데요. 이런 것들이 이제 범주형과 수치형 자료를 탐색하는 그런 방법이라고 볼 수가 있습니다 그래서 아직은 뭐 하나하나를 자세하게 다루진 않았지만 이런 것들을 먼저 알고 계신다면 뒤에 내용들을 하나씩 설명 드릴 때마다 조금 더 잘 이해가 되실 것 같습니다 그래서 항상 중요한 것은 데이터를 탐색하거나 분석할 때 이 데이터가 범주형인지 수치형인지 먼저 그것을 생각하는 게 굉장히 중요하다는 사실 기억을 해주시면 좋겠습니다 그럼 여기까지 데이터 탐색 개요에 대한 학습을 마치도록 하겠습니다
