비즈니스 애널리틱스 - 데이터 기반 전략 수립 실무 마스터 클래스 강좌의 맛보기 강의입니다.
이번 영상에서는 부산남부점과의 포트폴리오 비교를 위해서 데이터를 그림으로 요약하는 과정을 함께 살펴보겠습니다. 여러분께서 가지고 계시는 실습자료의 02 서울중앙점과 부산남부점 매출비중 파일을 이용해서 함께 하실 수 있습니다. 이익률이 굉장히 높은 편이지만 마소전자마트 전체에서는 무척 높은 편이지만 하지만 항상 부산남부지점에 밀려서 만년 2등인 서울중앙점은 혹시 서울중앙점에서 판매하고 있는 어떤 제품들이 부산남부점에 비해서 이익률이 다소 낮은 제품들만 판매하고 있는 건 아닐까? 라고 하는 의문을 갖게 됐습니다. 그래서 서울중앙점은 부산남부지점을 벤치마킹해서 제품의 판매 포트폴리오를 좀 재편하려고 합니다 조금 더 이익이 많이 남는 제품들에 조금 더 힘을 써서 더 많이 팔아야 겠다 라고 하는 이런 생각을 하게 된 것이죠 그래서 서울중앙점과 부산 남부점의 데이터를 그림으로 요약해서 한눈에 우리가 어떤 제품을 두 지점이 어떤 제품을 조금 더 많이 팔고 있는가 라고 하는 것을 확인해 보려고 합니다 이러한 것을 요약할 수 있는 차트의 종류는 굉장히 많이 있지만 우리는 이번 시간에 선버스트 차트 지금 보시는 것과 같이 여러 개의 이 도넛 차트, 파이 차트를 합쳐 놓은 것처럼 보이는 이러한 선버스트 차트를 이용해서 데이터를 요약해 보도록 하겠습니다 참고로 이 선버스트 차트라고 하는 것은 엑셀의 2016 이상 버전에서부터 사용하실 수 있습니다 실습파일을 열어보시면 두 개의 워크시트가 있는 걸 보실 수 있습니다 먼저 데이터라고 하는 워크시트를 확인하실 수 있는데요 데이터라고 하는 워크시트에는 마소전자마트의 24개 지점에 5년간 2016년부터 2020년까지의 판매 데이터를 정리한 약 68,000건의 데이터가 들어 있습니다 우리는 주로 01 매출 비중 비교 라고 하는 워크시트를 사용하도록 하겠습니다 이 워크시트는 크게 두 부분으로 되어 있습니다 위쪽에는 지금 보시는 바와 같이 부산 남부점에 대해서 부산 남부점이 주로 어떤 제품들을 판매하고 있는가 라고 하는 것을 요약하는 부분이 있고요 스크롤을 아래로 내려 보시면 동일한 구조를 띄고 그렇다면 서울 중앙점은 어떠한가 주로 어떤 제품들을 판매하고 있는가 라고 하는 것을 요약하는 부분이 있습니다 동일한 작업을 두 번 반복함으로써 부산남부점은 주로 이런 제품들을 판매하고 있고 서울중앙점은 이런 제품을 판매하고 있다 라고 하는 것을 그림으로 요약하고 이 두 개의 차트를 비교해 보려고 합니다 그러면 우리가 먼저 부산남부점의 데이터부터 살펴보도록 하겠습니다 부산남부점에 대해서 지금 보시다시피 데이터 워크시트에서부터 연결되어서 부산 남부 지점에 대한 데이터를 요약한 피벗 테이블이 있습니다. 이 피벗 테이블을 가지고 우리가 선버스트 차트를 좀 만들려고 하는데요. 그래서 어떤 제품 분류별로 선버스트 차트이기 때문에 어떤 제품 분류별로 각각의 제품 분류별로 각 제품 분류에는 다시 아래쪽에 하위 분류인 상세 분류라고 하는 것이 있습니다 각각의 상세 분류를 몇 퍼센트 정도 판매하고 있는가 라고 하는 것을 정리하려고 합니다 우리가 그걸 위해서 부산 남부점의 데이터를 모든 지점의 데이터가 다 붙어 있는 데이터에서 요약하기 위한 차트를 만들기 위해서 먼저 값으로 요약하는 피벗 테이블을 만들었습니다 이 피벗 테이블로부터 선버스트 차트를 바로 만들 수 있으면 굉장히 편리하겠지만 안타깝게도 엑셀에서는 그렇게 할 수가 없습니다. 확인해 보기 위해서 여러분께서 이 피벗 테이블에 아무데나 클릭하신 상태로 위쪽에 있는 삽입의 차트를 선택해 보도록 하겠습니다. 삽입의 차트를 선택하시면 차트 선택 메뉴가 열리게 되는데요. 선버스트 차트는 비교적 아래쪽에 지금 보시는 바와 같이 이렇게 여러개의 도넛 차트를 겹쳐 놓은 것 같은 이런 모양으로 배치가 되어 있습니다 물론 이것 말고도 굉장히 많은 차트 종류가 있습니다 그런데 이 차트를 선택해 보시면 예를 들어서 우리가 세로 막대형 이라던가 이런 많이 쓰이는 차트를 한번 선택해 보면 이 차트가 어떤 모양을 띨지 미리 요약한 화면 같은 것들을 미리미리 볼 수가 있습니다. 하지만 선버스트는 그게 나타나지 않죠. 나타나지 않고 뭐라고 나와있습니까? 피벗 테이블의 내부 데이터로는 이 차트 종류를 만들 수 없다라고 되어 있습니다. 지금 보시다시피 엑셀이 2016 버전 이상 2016 이상 버전에서는 굉장히 많은 종류의 차트를 지원하게 되었는데요. 예를 들어서 주식 트리 맵, 폭포 차트 등 유용한 차트를 많이 사용할 수 있지만 이런 차트들이 우리가 만들고자 하면 지금 보시는 바와 같이 피벗 테이블로는 만들 수 없다 라고 나타나는 것들이 꽤 많이 있다 라는 것을 보실 수 있습니다. 항상 보시는 것처럼 트리 맵 같은 것도 다 안된다 라고 나오죠. 그래서 우리는 어쩔 수 없이 지금 보시는 것과 같은 이런 선버스트 차트를 만들기 위해서 피벗 테이블의 데이터를 외부로 좀 복사해서 붙여 넣으려고 합니다 피벗 테이블 안에서는 못 만들기 때문에 복사해서 옆에 붙여 넣고 이 데이터 참조표라고 하는 이 데이터를 토대로 선버스트 차트를 만들어 가려고 하고 있습니다 그러면 이제 선버스트 차트를 만들기에 알맞은 형태로 데이터를 좀 요약해 줄 필요가 있겠죠 지금 우리가 보고 있는 이 피벗 테이블이라고 하는 것은 제품의 분류와 제품의 상세 분류 그리고 매출액 정보가 이렇게 잘 정리되어 있습니다 여러분께서 피벗 테이블을 보실 때 데이터를 요약하기 위해서 주로 피벗 테이블 많이 사용하실 텐데요 이 피벗 테이블을 보실 때 이러한 형태 또는 압축되어 있는 형태의 피벗 테이블에 익숙하실 겁니다. 피벗 테이블을 우리가 만들면 이러한 형태로 많이 나오게 되죠. 근데 이러한 피벗 테이블 형태라고 하는 것은 지금 보시는 것 같이 비열에 해당하는 곳에 제품의 분류 그리고 제품의 상세 분류라고 하는 두 개의 데이터 필드가 함께 들어가 있습니다 이런 경우에는 우리가 데이터를 값과 그림으로 잘 요약하기 위해서 자료를 항상 테이블 형태로 유지해야 된다 테이블 형태로 이 자료, 우리 갖고 있는 데이터셋을 좀 정리할 필요가 있다 라고 하는 기본적인 대원칙에 위배되는 것이죠 테이블이라고 하는 것은 세로열에 해당하는 필드들 그리고 가로 행에 해당하는 레코드들 그리고 각각의 필드에 대해서 이 필드가 무엇을 나타내는가 라고 하는 것을 표현해주는 한 행 딱 한 줄에 필드의 머리글 필드명 행이 가장 위에 머리글 행으로 들어가 있는 이런 구조가 바로 테이블입니다 테이블로 변경해줄 필요가 있죠. 이런 피벗테이블을 우리가 그림 차트로 쉽게 만들겠다 라고 하면 여러분께서는 가급적 테이블 형태를 택하시는게 좋습니다. 테이블로 만들려면 피벗테이블의 모양을 변경해줘야 할텐데요. 우리가 피벗테이블의 모양을 변경할 때 주로 사용하는 기능은 바로 피벗테이블의 디자인에서 보시는 보고서 레이아웃이라고 하는 형태를 이 버튼을 사용합니다. 보고서 레이아웃 선택하시면 방금 말씀드린 테이블 형식으로 데이터를 표현한다 라고 하는 것을 확인하실 수 있죠 우리가 방금 본 것 같이 각각의 필드를 분할해 주는 것이 바로 테이블 형태의 가장 기본적인 구조입니다 그렇다면 이것만으로 우리가 테이블로 잘 변경이 되었고 이 데이터를 잘 요약할 수 있는가 라고 하면 안타깝게도 그렇지는 않습니다 우리는 이렇게 딱 표현되어 있어도 공기정화기 라고 하는 것 아래쪽에 가습기 공기청정기 에어컨 제습기 라고 하는 이런 상세 분류가 모두 존재한다 라는 것을 사람은 논리적으로 잘 이해할 수가 있는데요 그것은 단지 사람이 그럴 뿐 기계가 볼 땐 그렇지 않습니다 엑셀이라고 하는 데이터 분석 도구의 눈에는 이 데이터는 현재 가습기는 공기정화기에 속하게 되지만 아래쪽에 공기청정기, 에어컨, 제습기라고 하는 것은 적절한 값을 가지고 있지 않은 빈칸, 즉 결측으로 이루어져 있습니다 그렇기 때문에 우리가 이러한 결측을 허용하지 말아야겠죠 데이터의 결측을 허용하지 않기 위해서 이 범주를 모두 채워줘야겠습니다 다시 디자인의 보고서 레이아웃에서 모든 항목 레이블을 반복한다 라고 하는 옵션을 선택해 주실 필요가 있습니다 이와 같은 형태로 모든 레이블이 반복되서 이제 선버스트 차트를 만들기에 적절한 형태를 갖추게 됐습니다 그런데 선버스트 차트라고 하는 것은 기본적으로 결국 파이차트 도넛 차트와 같은 것입니다 즉 이 동그라미 하나가 전체가 100% 라고 가정했을 때 각각의 항목들, 여러 항목들이 차지하는 비중이 얼마인가 라고 하는 것을 표현해 주는 것이죠. 지금 우리는 사전에 피벗 테이블을 조금 시간을 단축하기 위해서 사전에 피벗 테이블을 만들었고 이 피벗 테이블의 필드, 특히 여기서 중요한 값 필드에 해당하는 매출액의 합계라고 하는 필드를 열 합계 비율로 표시를 해줬습니다. 열 합계 비율이라는 것은 지금 보시는 바와 같이 전체를 100%로 봤을 때 부산남부지점의 이러한 각각의 항목들 제품 분류를 100%로 봤을 때 그 중에 개별적인 항목들이 도대체 몇 퍼센트 이 매출의 몇 퍼센트나 차지하고 있는가 라고 하는 것을 확인하는 거죠 의류관리기에서 건조기가 부산남부점의 전체 매출에서 차지하는 비중은 6.78% 예를 들어서 커피 메이커라면 0.85% 이렇게 표시가 됩니다 우리가 도넛 차트를 만든다 선버스트 차트를 만든다 라고 할 때는 100%는 실제 데이터로 포함시킬 필요가 없겠죠 그러니까 우리가 이 항목은 지워 버리도록 하겠습니다 디자인 탭에서 총합계를 선택하시고 총합계 표시를 해제해 주도록 하겠습니다 총합계, 행 및 열의 총합계를 해제한다 라고 하는 것을 선택하겠습니다 이제 우리는 선버스트 차트를 만들기에 적절한 형태로 데이터의 가공이 끝났습니다. 그럼 이 데이터를 피벗 테이블 안에 데이터가 있으면 선버스트 차트를 만들 수 없기 때문에 이것을 복사해서 옆에 붙여놓고 외부에서 선버스트 차트를 만들어 보도록 하겠습니다. 여러분께서 이 피벗 테이블에 아무데나 클릭하신 상태로 컨트롤 A 컨트롤 그리고 A키를 눌러서 전체 영역을 선택하시고 컨트롤 C키를 눌러서 복사하도록 하겠습니다 컨트롤 A 컨트롤 C F4번 셀에 붙여넣어 볼까요 이때 피벗 테이블 자체가 복사되지 않도록 마우스 오른클릭하시고 값만 붙여넣기를 선택하도록 하겠습니다 보시는 것처럼 아이콘에 123 표시되어 있는 값만 붙여넣기 선택하시면 이와 같이 해당하는 값만 오는 것을 우리가 볼 수가 있습니다. 좀 보기 좋도록 표로 만들어 볼까요? 컨트롤 T를 누르시면 표 만들기가 나타납니다. 확인 누르면 표로 설정되는 것을 보실 수 있습니다. 자 그러면 이 표를 가지고 우리가 선버스트 차트를 만들어 보도록 하겠습니다. 선버스트 차트는 피벗 차트로 만들어도 괜찮고 삽입의 차트로 만드셔도 괜찮습니다. 종전에 삽입 탭에서 확인했기 때문에 동일하게 그냥 삽입 탭의 차트로 만들어 보도록 하겠습니다. 삽입의 차트 선택하시고 모든 차트 탭에서 선버스트를 선택해 보도록 하겠습니다. 아까와 달리 이제 어떤 모양을 띄는지 미리 보여주는 것을 볼 수 있습니다. 확인을 누르시면 선버스트 차트가 만들어지는데요. 이렇게 우리가 원하는 모양이 잘 만들어지는 것을 볼 수 있습니다. 간혹 선버스트 차트를 정확하게 만들지 못하시는 경우가 있습니다. 그럴 경우에는 지금 보시는 것과 같은 제대로 된 모양이 나오지 않는다 라고 하시면 차트의 데이터 부분 선택하시고 마우스 오른클릭하셔서 데이터 선택해서 지금 보시는 것과 같이 범례 항목을 합계 매출액으로 그리고 제대로 나오지 않을 경우에는 여기 나오는 내용을 편집하기 위해서 편집 버튼을 누르셔서 축 레이블 범위를 이곳을 지우시고 축 레이블 범위에 해당하는 곳을 제품의 분류 그리고 제품의 상세 분류에 해당하는 범위로 잡아주시면 즉 F4셀부터 G31 셀까지 선택하시고 확인해 주시면 제대로 된 선버스트 차트를 만드실 수 있습니다. 혹시 안 되시는 분은 그렇게 참고해서 만드시면 되겠습니다. 우리가 선버스트 차트를 하나 만들었습니다. 부산남부점의 매출 비중이라고 이름 지어보도록 하겠습니다. 동일한 방법으로 서울중앙점도 설명을 자세히 드렸기 때문에 빠르게 만들어 보도록 하겠습니다. 동일하게 데이터의 디자인에서 총합계를 지우시고 보고서는 테이블 형식으로 변경하셔서 모든 항목의 레이블을 만들어 주시고 Ctrl+A, Ctrl+C 복사하셔서 F46번 셀에 값만 붙여넣기 하신 다음에 표로 만들어 보겠습니다. 이번엔 홈 탭에 있는 표 서식을 한번 써볼까요? 사용하시면 표로 제대로 만드는 걸 보실 수 있습니다. 삽입의 차트 그리고 선버스트 차트를 만들어 주면 되겠죠. 추천 차트에 나타나는 걸 볼 수 있습니다. 확인하시면 선버스트 차트가 만들어진다. 이렇게 간혹 데이터 선택이 좀 잘못돼서 선버스트 차트가 제대로 안 만들어질 경우가 있는데요. 아까 말씀드린 것처럼 이런 경우에는 당황하지 마시고 마우스 오른 클릭하시고 데이터 선택해서 지금 보시는 것처럼 범례 항목은 제대로 되어 있지만 이 축 레이블 항목 부분이 잘못 선택되어 있는 걸 볼 수가 있습니다. 이런 경우에 절대 당황하실 필요 없고 편집을 누르셔서 해당하는 내용을 지우시고 우리가 지금 하려는 것은 서울 중앙점에 잠깐만요. 선택하기 쉬운 곳으로 바꿔볼까요? 차트 위치를 조금 바꿔서 클릭하기 좋도록 차트 위치를 바꿨습니다. 다시 마우스 오른 클릭하셔서 데이터 선택에서 편집 부분을 지우신 다음에 여기 선택하는 영역에서 서울중앙점의 선버스트 차트표 F46번 셀부터 G73번 셀까지 해당하는 제품 분류 그리고 제품의 상세 분류만 제대로 정리해 주시면 되겠습니다. 확인하시면 해당하는 내용이 잘 만들어지는 것을 보실 수 있습니다. 한눈에 보실 수 있도록 선버스트 차트 두 개를 나란히 다른 워크시트에 새로운 워크시트를 만들고 나란히 배치를 했습니다. 한 번에 보이도록. 자 이제 우리가 부산남부점과 서울중앙점의 매출 비중이 도대체 어떻게 되는가 라고 하는 것은 여러 데이터들 숫자와 문자의 나열만을 가지고 파악하는 것은 굉장히 어렵습니다. 그런데 이렇게 차트로 그림으로 표현을 하면 한눈에 좀 볼 수가 있게 되죠. 부산남부점은 컴퓨터 및 주변기기가 차지하는 매출의 비중이 굉장히 크다. 50%가 훌쩍 넘죠. 서울중앙점에서도 컴퓨터 및 주변기기가 차지하는 비중이 꽤 높긴 합니다. 50%에 가깝긴 합니다. 하지만 전체 비중으로 놓고 볼 때 컴퓨터 및 주변기기의 비중 이것이 좀 차이가 있구나 라고 하는 게 좀 보이긴 합니다. 의료관리기 같은 경우는 좀 비슷하다 라고 판단이 되시죠. 서울중앙점의 경우나 부산남부점이 큰 차이는 없는 것 같습니다. 공기청정기도 비슷한 정도의 비중을 차지하고 있는 것 같고요. 약간의 차이가 있다면 우리가 지금 눈에 띄는 것이 소형 생활가전도 좀 비슷해 보이네요. 회색으로 표시되는 소형 생활가전, 소형 생활가전, 의료관리기, 공기청정기 세 가지 부문은 차지하는 비중이 좀 비슷하고 약간의 차이가 보여지는 부분이 있다라고 한다면 모바일 기기가 서울중앙점이 조금은 더 높은 걸로 보입니다. 하지만 뭐 이것도 큰 차이는 아닌 것 같네요. 모바일 기기가 차지하는 비중이 서울중앙점이 조금 더 많은 것 같긴 하지만 확연한 차이라고 보면 좀 어려운 것 같습니다. 눈에 띄는 차이라고 한다면 역시 주방가전 카테고리의 판매 비중에서 차이가 좀 나는 것 같습니다. 서울중앙점과 부산남부점은 같은 제품을 판매합니다. 하지만 부산남부점은 주방가전 비중이 낮고 대신 컴퓨터 및 주변기기의 비중이 높습니다. 서울중앙점은 비교적 주방가전 카테고리에 비중이 높고 컴퓨터 및 주변기기에 비중이 낮구나 라고 하는 것을 우리가 보고 알 수가 있습니다. 이것만 놓고 본다면 우리가 서울중앙점이 부산남부점을 좀 벤치마킹해서 컴퓨터 주변기기의 판매 비중을 조금 더 높이는 방식으로 갈 수 있겠구나. 어떤 제품을 팔 것인가 라고 하는 포트폴리오를 재편할 수 있겠구나 라고 하는 생각을 충분히 할 수가 있습니다. 이렇게 데이터가 가진 어떠한 특징 이것은 시각적으로 보여주는 차트라고 하는 것은 단순히 선버스트 차트만 있지는 않습니다. 다양한 차트를 통해서 우리가 이런 것들을 다 비교해 볼 수 있는데요. 비슷한 방식으로 사용되는 것이 대표적으로 트리맵이라던가 지금 보시는 것처럼 각각의 이러한 제품 분류들이 어느 정도 비중을 차지하고 있는가 라는 것을 보여주는 트리맵이라던가 뭐 이런 어떤 100% 기준 누적 세로 막대형 차트를 사용할 수도 있습니다. 예를 들어 우리가 방금 선버스트 차트로 보았던 제품의 분류별로 조금 더 상위의 분류인 제품의 분류별로 보면 왼쪽은 부산이고 오른쪽이 서울중앙점입니다. 이것을 수치적으로 보면 컴퓨터 및 주변기기가 차지하는 비중이 부산에서는 55.41% 서울중앙점은 48.48%로 좀 차이가 있다 라고 하는 것을 볼 수가 있죠. 다른 것들에서는 크게 확연한 차이가 보이지 않지만 지금 보시다시피 주방가전 같은 경우는 부산은 4.51% 서울중앙점은 10.44%로 이 둘 사이가 사실상 거의 교환되고 있는 것과 비슷하다. 나머지들이 차지하는 비중들은 좀 비슷비슷하죠. 그래서 부산남부점의 컴퓨터 및 주변기기가 차지하는 비중을 서울중앙점은 주방가전으로 그 몫을 채우고 있다고 봐도 될 것입니다. 이렇게 어떤 데이터가 가지고 있는 패턴을 눈으로 좀 쉽게 보기 위해서 우리가 다양한 차트 종류를 사용하는데요. 우리가 데이터를 분석하다 보면 주로 값으로 요약하는 피벗 테이블이라던가 다양한 엑셀 함수의 활용 같은 것들을 주로 하게 됩니다. 또 데이터 분석 도구를 이용해서 p-value라던가 뭐 이런 다양한 어떤 숫자로 되어 있는 값으로 요약된 것을 토대로 데이터를 이해하게 되는데요. 이러한 부분에서 우리가 다시 한번 시각화의 중요성을 깨우치기 위해서 사용되는 대표적인 그림이 하나 있습니다. 데이터 사우루스 더전 이라고 하는 굉장히 유명한 그림인데요 이 그림들은 동일한 개수의 X와 Y축으로 이루어진 X와 Y X와 Y로 이루어진 이러한 데이터들의 세트 동일한 개수의 데이터 세트를 가지고 다양하게 분산형 차트로 요약을 해 둔 것입니다 위쪽에 보이는 것이 각각의 데이터 세트들을 그림으로 요약한 것이죠. 그림으로 요약한 차트 특히 분산형 차트 분산형 차트로 요약한 그림으로 요약한 차트들입니다. 우리 눈에는 다양한 애들이 보이죠 흩어져 있는 것도 보이고 마치 방금 본 썬버스트처럼 두 개 이중에 도넛도 보이고 커다란 동그라미 하나 공룡도 있고 별도 있고 엑스자도 있고 등등등 굉장히 다양한 모습이 나타납니다 그런데 이런 데이터셋을 그림으로 보면 공룡도 있고 별도 있고 원이 하나인 경우도 있고 두 개인 경우도 있고 굉장히 달라 보이지만 이것을 값으로 요약하면 지금 보시는 바와 같이 우리가 데이터를 요약하기 위해서 가장 대표적으로 사용하는 값 즉 우리가 늘상 통상적으로 얘기하는 기준이 되는 평균 그리고 표준편차 라고 하는 값이 가장 대표적으로 사용이 되죠 또 x와 y, x가 증가함에 따라서 y는 증가하는가 뭐 이런 어떤 관련성을 보여주는 상관계수라고 하는 값 같은 것들을 주로 사용을 합니다 이 그림으로 보면 천차만별의 어떠한 패턴, 공룡이라고 하는 패턴, 별이라고 하는 패턴, X라고 하는 패턴들을 숨기고 있는 이 데이터들이 값으로 요약하면 지금 아래쪽에 보시는 것과 같이 사실상 차이를 느끼기가 굉장히 어렵습니다. 예를 들어 이 각각의 데이터 세트들의 y에 대해서 평균을 내보면 약 47.83 또는 84 정도로 거의 비슷합니다. 마찬가지로 x는 54.27 이 y의 표준편차는 26.94 x의 표준편차는 16.77 심지어 x와 y의 관계를 나타내는 상관계수마저도 마이너스 0.064 정도를 왔다갔다 이러한 굉장히 유사한 값을 가지고 있는 거죠 우리가 데이터셋에 대해서 성격을 파악하기 위해서 사용하는 굉장히 중요한 통계량인 평균과 표준편차 그리고 상관계수라고 하는 이런 일련의 값들이 굉장히 비슷하게 나타나는 걸 볼 수가 있습니다 여기 어디에도 공룡이라는 말이 없고 별이 나타나지 않고 X로 나타나지도 않는 거죠 그래서 우리가 데이터셋을 반드시 요약하는 탐색적 데이터 분석의 과정에서는 데이터를 값으로도 요약하지만 그림으로 요약하는 것도 굉장히 중요하다는 말씀을 드리고 싶습니다. 그렇다면 우리가 데이터를 그림으로 적절히 요약하려면 데이터를 요약하는 다양한 그림의 종류, 즉 차트의 종류를 선택하는 게 되게 중요해질 텐데요. 물론 어떤 차트 종류를 선택하고 색상을 뭘로 하고 이것을 어떻게 표현하는가 라고 하는 것은 이 데이터의 어떤 결과를 공유함에 있어서 이 시각화된 데이터 차트를 통해서 우리가 무엇을 전달하고자 하는가 라고 하는 데이터 스토리텔링이 무엇인가 이것에 따라서 차트의 색상이라던가 여러가지 요소들, 차트 자체의 크기라던가 모양이나 차트의 종류 같은 것들 또 X축의 범위, Y축의 범위 같은 것들이 많이 달라질 수 있습니다. 그럼에도 불구하고 기본적으로 데이터를 시각화하는 데는 차트의 종류를 선택하는 기본적인 원칙은 존재하고 있는데요 우리가 많이 사용하는 이런 차트들이 예를 들어 우리가 다루고자 하는 데이터가 변량이 하나인가 또는 두 개인가에 따라서 기본적으로 한번 나뉩니다 또 데이터의 종류가 범주형 데이터, 다시 말해 문자인가 또 숫자, 연속형 데이터인가에 따라서 다시 한번 종류가 나뉘게 되죠 예를 들어 문자형 데이터를 다룬다 라고 하면 막대그래프를 사용하게 되고 연속형 변수를 다룬다 라고 하면 히스토그램을 사용하게 됩니다 막대 그래프와 히스토그램이 굉장히 비슷하기 때문에 차이가 안 보이시는 분들이 가끔 있을 수 있는데요 막대 그래프라고 하는 막대 차트라고 하는 것은 개별적인 하나하나의 항목이 지금 보시는 것처럼 경기도 서울특별시 라고 하는 것처럼 문자 데이터의 형태를 띄고 있습니다 한마디로 하나의 막대가 하나의 범주를 나타내는 것이죠 그런데 데이터가 그렇지 않고 숫자, 연속형 변수다 라고 한다면 이런 막대 하나가 나타내는 것은 하나의 항목이 아니라 하나의 계급 구간을 나타내게 됩니다. 이 계급 구간은 다시 우리가 어떻게 설정하냐에 따라서 굉장히 가변적으로 변화할 수 있는 것이죠. 데이터의 일변량 데이터인데 해당하는 데이터가 범주형 변수다, 빈도를 표현해 준다 라고 할 때는 파이차트라고 하는 것도 많이 사용이 됩니다 또 반대로 연속형 변수의 일변량 데이터다 라고 하면 지금 보시는 것처럼 상자수염 그림이라고 하는 것 우리가 여기서 박스 플롯이라고도 많이 표현합니다 박스 플롯이라고 하는 이런 차트도 일반적으로 사용하는 방법입니다 다변량 데이터의 경우에는 다변량 데이터도 다시 문자 데이터인가 숫자 데이터인가에 따라서는 나뉘게 될 텐데요. 다변량의 문자 데이터다 라고 하면 그것은 다시 빈도 정보를 갖게 되는 모자이크 플롯, 트리 맵이라던가 이런 것들을 주로 사용하게 되죠. 또 다변량인데 이 두 개의 데이터가 모두 다 연속형 변수다 라고 하면 우리가 흔히 보게 되는 분산형 차트, 즉 산점도를 주로 사용하게 됩니다. 지금 보고 계시는 분류는 통상적으로 우리가 가장 많이 비즈니스 애널리틱스에서 가장 많이 흔히 사용하는 차트의 종류를 정리해 둔 것이고요. 당연히 이것보다 훨씬 더 많은 다양한 종류의 각각의 상황에 적합한 다양한 차트들이 존재하고 있습니다. 데이터를 시각화하는 것은 타인과 데이터 분석의 결과를 공유하고 더 나은 의사결정을 하기 위해서 상황을 이해시키고 그들을 설득하고자 하는 이런 목적도 동시에 갖게 되거든요 그래서 우리가 스토리텔링 하고자 하는 이 내용의 적절한 차트를 선택해 주는 것이 굉장히 중요하고 이것을 위해서 전문적인 데이터 시각화 도구들도 많이 있다 라는 말씀을 드립니다 우리가 통상적으로 많이 보게 되는 태블로라던가 파워 BI라던가 구글 데이터 스튜디오 같은 이런 다양한 도구들이 데이터 시각화를 위한 도구다 라고 말씀드릴 수 있습니다 우리는 이번 영상에서 서울 중앙점과 부산 남부점에서 주로 판매하는 제품군이 무엇인가라고 하는 것을 살펴봤습니다 전체적으로 부산남부점은 컴퓨터 및 주변기기를 많이 더 판매하고 있고 서울중앙점은 컴퓨터 및 주변기기에 대한 비중을 주방가전에 조금 더 쏟고 있다 아무래도 서울중앙점은 주방가전에 판매 비중이 높다 라고 하는 것을 확인했습니다 만년 2등인 서울중앙점은 부산남부점을 벤치마킹해서 비슷한 모습으로 지금 보시는 것 같이 각각의 제품군들에 대해서 판매 비중을 비슷한 형태로 유지함으로써 이익률을 높이고 싶습니다 형태만 비슷하게 유지한다면 이제 매출만 조금 높이면 이익은 따라서 늘어나게 되는게 명약관화 하니까요 그러면 구체적으로 서울중앙점은 각각의 제품군에서 각각 얼만큼씩 팔아야 하는가 라고 하는 조금 더 구체적인 목표 설정에 대해서 다음 영상에서 계속 이어서 다뤄보도록 하겠습니다
