Orange를 활용한 코딩 없는 AI 데이터 분석 – Lv.7 시계열 분석과 연관 규칙 강좌의 맛보기 강의입니다.
이번 영상에서는 우리가 시계열 데이터 분석을 통해서 풀고자 하는 가장 대표적인 어떤 전형적인 주제인 내년에 그래서 도대체 몇 개나 팔릴까 라고 하는 것을 CAGR을 중심으로 한번 살펴보도록 하겠습니다 우리가 이 문제를 살펴보기 위해서 아주 간단한 문제를 볼게요. 퀴즈가 있습니다. 어떤 마트가 있어요. A라고 하는 마트가 있는데 이 마트에 어떤 제품을 팝니다. 이 제품은 우리가 편의상 B 제품이라고 할게요. 이 B 제품이 지금까지 매년 몇 개나 팔렸는가 라고 하는 연간 판매량 정보를 우리가 가지고 있습니다. 지금 보시는 것처럼 2010년도에는 524개가 팔렸고요. 2011년도에는 493개가 팔렸습니다. 이런 식으로 쭉 판매량을 측정해서 가장 마지막에 2024년도 편의상 올해 이렇게 표현하도록 할게요. 2024년도에는 최종적으로 413개가 팔렸다. 이런 어떤 데이터가 있습니다. 이러한 판매량의 추이를 시각적으로 알아보기 위해서 꺾음선 차트를 그릴 수 있는데요. 오른쪽에 있는 게 바로 그 꺾음선 차트를 쭉 그린 거죠. 지금까지 매년 약 15년 동안 B 제품이 이렇게 쭉 팔려왔다. 시계열 데이터 분석에 관심을 가지시는 것이 바로 이러한 형태의 문제를 풀고 싶기 때문일 것이다. 이 문제를 푸는 여러 가지 방법 중에서 우리는 대체적으로 굉장히 많은 기업에서 일반적으로 사용하게 되는 흔한 방법 중의 하나인 CAGR이라고 하는 방법론을 먼저 사용해 보도록 하겠습니다. CAGR이라고 하는 것은 우리말로 하면 연평균 성장률이라고 하는 거예요. 매년 평균적으로 이만큼 성장했다. 매년 평균적으로 몇 퍼센트 성장했다라고 하는 뜻인 거고요. 이걸 영어로 하면 Compound Annual Growth Rate이기 때문에 각각의 머리 글자만 이렇게 따서 다른 말로 우리가 CAGR이라고 표현을 하기도 합니다. 의미는 명쾌합니다. 이것의 의미는 연평균 성장률은 주어진 기간 동안 성장하는데 매년 동일한 비율, X%만큼 성장한다 가정할 때 그 X%가 도대체 얼마냐? 이 X%를 바로 CAGR이라고 합니다. 아래쪽에 그림 한번 보시면 예를 들어 데이터가 있습니다 2021년도에는 이것도 그냥 판매량이라고 할게요 2021년도엔 64개가 팔렸어요 그리고 2029년도에는 7,168개가 팔렸습니다 대략 9년 동안 이렇게 팔렸는데 매년 이 판매량이라고 하는 것은 사실 똑같지는 않았어요 예를 들어서 2021년도에는 64개가 팔렸고 2022년도에는 184개가 팔렸습니다 그러면 64개에다가 곱하기 1 플러스 엑스 퍼센트 만큼 1 플러스 엑스라고 하면 헷갈리실 수 있으니까 예를 들어서 네모만큼 네모%만큼 이렇게 된 값이 184인 거죠. 우리가 이 네모를 뭐라고 부르냐면 연간성장률이라고 부릅니다. 원래 64였는데 다음에 184개가 됐어. 그러면 이것은 연간성장률 얼마를 이렇게 곱하기 1 플러스 연간성장률 한 값이라고 계산이 되는 거죠. 이걸 계산해 보면 188%예요. 그러니까 64에서 184가 된 건 대략적으로 한 2배 정도, 188% 성장했다고 볼 수 있습니다. 같은 방식으로 매년 계산해 보면 예를 들어서 184개에서 386개가 됐네요. 대충 2배 된 거잖아요. 그러니까 성장률만 따지면 110%만큼 성장을 한 거죠. 2배가 됐으니까 거기서 1 빼게 되면 110%라고 합니다. 이런 식으로 매년 계산할 수 있어요. 어떠세요? 다 다르죠. 값이 달라요. 물론 뭐 우연히 같은 경우도 있고요. 하지만 어쨌든 이러한 성장률이라고 하는 것은 같을 수도 있고 다를 수도 있고 매번 값이 막 다릅니다. 우리가 이 데이터를 한 30년 동안 모았다고 하면 연간 성장률이라고 하는 것은 매년 다른 거죠. 그런데 29개의 이런 연간 성장률을 쭉 얘기하고 너무 번거롭잖아요. 그래서 우리가 이런 것들의 어떤 특징을 한 개의 값으로 딱 압축적으로 이야기를 하게 됩니다. 그게 뭐냐? CAGR인 거죠. 물론 하나하나 따지면 다 달라. 하지만 평균내면 이만큼이야 라고 하는 거죠. 학생들 한 반에 30명의 학생이 있는데 그 학생들의 키가 개개인을 다 재보면 똑같진 않지만 평균적으로 150cm입니다 라고 하면 우리가 그 평균의 의미를 알 수 있는 것처럼 지금 보시는 것처럼 연간 성장률은 매번 다르지만 이것은 평균을 내면 이만큼이다 라고 하는 것이 바로 CAGR인 거죠. 하지만 이것은 얘네들의 산술적인 평균은 아니죠. 다 더한 다음에 그거 몇 개 있으니까 N으로 나눠 이런 구조는 아니에요. 얘네는 왜냐면 성장률은%이기 때문에 여기서 이만큼 성장한 것이 다음 연도에 복리적으로 계속 반영돼서 이렇게 나가게 되는 거죠. 이때의 평균은 복리적인 평균, CAGR은 복리적 평균이라고 말할 수 있습니다. 즉, 이러한 평균적인 성장률은 매년 80.36%만큼, 한 단위 넘어갈 때 80.36%만큼 또 80.36%만큼 또 80.36%만큼 이렇게 반복적으로 복리적으로 곱해서 온 것과 같다 라고 하는 것이 바로 CAGR입니다. CAGR의 개념은 그냥 복리적이다, 복리야 라고만 딱 생각하시면 여러분 쉽게 이해하실 수 있을 것 같고요 실제로 이 CAGR이라고 하는 것도 어떤 복리적인 이자율, 복리 이자율이라고 하는 재무회계 파트에서 온 개념이에요 그래서 같이 매칭해서 이해하셔도 아무런 문제가 없겠습니다 이 CAGR은 수식에 의해서 계산이 되고요. 지금 왼쪽에 보시는 것처럼 Xn, 마지막 해의 값 Xn이라고 하는 것을 첫 번째 해의 값으로 나눈 다음에 이것을 다시 경과했던 횟수분의 1 제곱만큼 하고 빼기 1 하면 CAGR이 계산된다 라는 겁니다. 이건 이 개념을 토대로 그냥 이런 복잡한 수식을 여러분이 직접 다뤄내지 않으셔도 괜찮은 게 예를 들어서 엑셀을 사용한다라고 하면 rate라고 하는 함수를 이용하면서 rate가 CAGR의 계산식으로 동작을 하게 되고 이걸 이용해서 여러분 쉽게 계산을 해내실 수가 있습니다 CAGR을 계산하는 게 왜 의미가 있는가 라고 하면 우리가 알고자 하는 주제는 그래서 내년도 이게 아직 모르겠는 이거 2025년도에 도대체 얼마나 팔릴 건데 라고 하는 우리 알고 싶은 거잖아요 그렇다면 지금까지 매년 x% 만큼 매번 요렇게 반복적으로 곱해져 온 것과 같다면 그러면 가장 마지막에 있는 값인 2024년도의 값에다가 곱하기 1 더하기 CAGR 왜냐하면 매년 곱해오는 거니까요. 그만큼이 증가되는 거니까 원래 2024년도에 값이 있었는데 더하기 CAGR만큼 곱한 거 그거를 딱 더해준다 라고 하는 방식으로 2025년도의 어떤 판매량을 예측할 수 있기 때문에 우리가 요 값을 계산을 합니다. 그러면 보시다시피 rate 함수도 굉장히 간단하니까 아주 간단하게 지금 우리가 이 퀴즈로 풀고 있는 이 데이터를 가지고 2025년도에 도대체 몇 개 팔릴까 한번 계산해 보도록 하겠습니다 여러분께서 가지고 계시는 실습자료에서 01번 제품B의 연간 판매량이라고 하는 이 엑셀 파일을 열어 보겠습니다 파일을 열어 보시면 이 파일에는 워크시트가 두 개 있거든요. 01413 이라고 하는 워크시트가 있구요. 그리고 02615 라고 하는 워크시트가 있습니다. 지금 제가 하고 있는 또 여러분께서 보셔야 되는 건 첫 번째 워크시트 01413 이라고 하는 워크시트를 보도록 하실게요. 그럼 이 워크시트에서 한번 실제로 계산을 해보겠습니다. 먼저 CAGR을 구하고 그 CAGR을 이용해서 2025년에 몇 개 팔릴까 라고 하는 걸 한번 실제 예측을 해보자 라고 하는 거죠. 그럼 CAGR을 먼저 계산해볼까요? CAGR은 rate 함수를 이용해서 되게 쉽게 구하실 수 있습니다. rate까지만 쓰셔도 보이고요. 대출 또는 투자의 기간별 이자율을 구한다. 이렇게 보실 거예요. 재무회계 쪽에서 왔다 라고 생각하시면 되겠습니다. 보면 NPER 이라고 하는 값을 먼저 입력하게 되어 있는데요. NPER 이라는 건 되게 쉽게 생각하시면 지금 데이터들이 있잖아요. 그러면 이 데이터들 사이에서의 경과된 횟수거든요. 경과됐다 라고 하는 건 한마디로 구간이 몇 개나 있느냐 라고 보시면 되겠어요. 그러니까 여기서 여기 넘어갈 때 구간이 1개 있고 이렇게 될 때 1개 있고 이런 방식인 거죠. 총 15개의 데이터가 있죠. 데이터가 총 15개 있습니다. 그렇다면 구간은 빼기 1 해서 14개의 구간이 있다고 보시면 되겠어요. 14개 보시면 NPER은 경과한 횟수가 14가 되는 거고요. 그리고 PMT는 0 입력하시면 되겠습니다. 현재의 값 PV는 –x1입니다. 첫 번째 데이터 값인 거죠. X1. 첫 번째 X. 그래서 B2번 셀에 있는 2016년도의 524. 이것을 앞에 반드시 마이너스 붙이셔서 이렇게 마이너스 B2 선택하시고요. 쉼표. 그리고 XN 마지막 X값이거든요. 그러니까 2024년도의 마지막 판매값이라고 하는 것을 이렇게 선택하시고 괄호 닫고 엔터 치시면 지금 보시는 것처럼 마이너스 2% 라고 하는 값을 얻을 수 있습니다. 소수점 아래 몇 자리까지 표현하느냐라고 하는 건 여러분하고 저하고 표기가 좀 다를 수가 있잖아요. 혼란스러우실 수도 있으니까 제가 이것을 소수점 아래 4자리까지 보여주는 걸로 할게요. 100분율로 표시하는 게 좀 더 덜 헷갈리겠네요. 100분율로 표시하고 소수점 아래로 한 두 자리 정도까지 이렇게 가볼까요? 이 정도. 이러면 조금 더 알아보기 쉽겠어요. 셀 서식에서 백분율 소수점 아래 두 자리 하시면 이 CAGR은 마이너스 1.69%다 라고 하는 거죠. 처음에 2010년도에 524개를 팔았고 2024년도에 413개가 되었는데 이것은 매년 마이너스 1.69%만큼 곱해진 그러한 변화와 똑같다 라고 하는 것이 CAGR입니다. 이걸 토대로 2025년도 판매량을 예측해 볼까요? 제일 마지막 판매량인 2024년도에 413개 곱하기 괄호 열고 1 플러스 CAGR 이라고 우리가 계산할 수 있습니다. 406개다 라고 계산이 되죠. 이것은 매년 X%, 마이너스 1.69%만큼 복리적으로 감소해 온 것과 똑같고요. 그것을 토대로 할 때 내년도도 2024년부터 약간 줄어들 것 같은데 얼마큼 줄어들어요? 마이너스 1.69%만큼 줄어들 거라는 거죠. 그럼 그 결과는 얼마다? 406이다 라고 하는 것을 계산할 수가 있습니다. 이게 우리가 통상적으로 회사 같은 데서 보통 내년도 사업 계획이라던가 어떤 신규 브랜드를 론칭한다거나 어떤 판매량을 예측한다거나 뭐 매번 여러분이 주간 보고하시고 일일 보고하실 때 대략 이 정도 될 것 같습니다 라는 보고를 할 때 지금까지 판매 추이를 보면 이렇게 될 것 같습니다 뭐 이런 어떤 보고를 할 때 가장 많이 사용하는 방법이 CAGR입니다. 지금까지 이랬고 그래서 다음에는 이렇게 될 것 같다. 라고 하는 방식이죠. 이게 굉장히 대중적으로 많이 쓰이는 방법이기는 한데 이 CAGR이라고 하는 것은 치명적인 약점을 하나 가지고 있습니다. 그 약점이 무엇이냐 라고 하는 것을 02번 워크시트로 볼게요. 02번 650이라고 하는 걸 보겠습니다. 이 워크시트를 열어보시면 어떠세요? 얼핏 보기에 뭔가 비슷한 듯 다른 듯 약간 달라지는 부분 느껴지실까요? 이렇게 시트 왔다 갔다 해보시면 2024년도의 판매량 개수가 다르구나 라고 하는 게 보이실 거예요. 다른 부분은 다 똑같죠. 2010부터 2023년도까지는 똑같은데 2024년도의 판매량이 첫 번째 워크시트에선 413개였고 두 번째 워크시트에는 650개로 이렇게 설정이 되어 있습니다. 일단 데이터의 차이 한번 눈으로 보셨고 이걸 토대로 CAGR 계산하는 거, 판매량 예측하는 거 한번 보셨으니까 그거 그대로 두 번째 워크시트에서 계산 한번 해볼게요. 계산해보면 CAGR 계산해보시면 이것은 RATE 함수를 사용하는 거죠. RATE 함수 사용하는 거고요. 구간은 데이터 똑같으니까요. 14개였고, 0이라고 입력하면 되는 거였고, "-B1", 524개다 라고 하는 것까지 똑같습니다. 앞에 워크시트랑 똑같죠. 그리고 수식으로만 따지면 수식 자체는 똑같습니다. 똑같이 그냥 B16이라고 해요. 근데 우리는 이제 알고 있죠. 저 B16번 칸에 있는 저 값이 앞에 시트에선 413이었고 지금은 650이다 라고 하는 차이를 알고 있습니다. 괄호를 닫고 엔터를 치시고 보면 이 CAGR 값이 2% 라고 나오고요. 이것도 똑같이 차이를 좀 보시도록 셀 서식에서 백분율의 소수점 둘째 자리까지 해 보시면 1.55%다 라고 하는 것을 계산할 수 있습니다. 이걸 토대로 2025년도에 몇 개냐 판매량 계산해보시면, 2024년도에 650개였는데 라고 하는 게 다시 사용되네요. 아 여기서 또 B16번 셀이 또 쓰이는구나 라고 하는 거 한번 보시고요. 곱하기 1 더하기 CAGR만큼 1.55%만큼 될 것이다 라고 우리가 계산해낼 수가 있습니다. 그 결과는 660개인 거죠. 결과를 놓고 보시면 지금은 660개입니다. 앞에 워크시트에서 얼마였죠? 앞에 워크시트를 보시면 406개였죠. 대략적으로 데이터를 보면 한 500개 정도 파는데 분명히 아주 간단한 수식 같은데 이 수식에 의해서 그래서 내년에 몇 개 팔리는가 라고 하는 답을 할 때 보면 어떤 경우에는 406개가 되고 다른 경우에는 660개가 된다라는 거죠. 500개 정도 팔리는데 406에서 660은 너무 오차가 큰 거죠. 그러면 어떻게 된 걸까? 왜 이런 차이가 벌어질까? 이런 어떤 불안정성? 이런 부분이 이제 CAGR의 약점이다 라고 하는 거 여러분 충분히 감지를 하셨을 것 같은데 이런 일이 왜 벌어질까? 이거 우리가 어떻게 이해해야 될까? 라고 하는 것을 조금 정리를 해보도록 하겠습니다. 방금 우리가 엑셀에서 계산하고 온 바로 그것을 이 슬라이드에 딱 정리해놨습니다. 지금 보시면 왼쪽에 있는 케이스가 2024년도에 대략 400개 조금 넘게, 413이었나요? 예상 판매량은 대략 406개가 된다고 하는 상황을 보여주는 거고요 오른쪽에 있는 케이스는 2024년도에 데이터가 바뀌었고 그래서 CAGR은 1.55가 되었고 이걸 계산하면 마찬가지로 2025년도에는 대략 660개가 된다라고 하는 것을 보여주는 거죠. 격차가 굉장히 크죠. 지금 보시면 격차가 꽤 커요. 이 CAGR을 보시면 왜 이렇게 격차가 이렇고 저렇고 할까라고 하면 결국 뭐 때문이에요? 바로 앞에 있는 2024년도의 데이터를 따라가는 거죠. 예를 따라가는 겁니다. 그래서 얘가 처음에 비해서 굉장히 많이 떨어졌다 라고 하면 CAGR은 마이너스가 되고 그러면서 다음에도 계속 떨어지는 걸로 예측이 되는 거고 처음에 비해서 플러스면 요걸 가지고 다음번에 플러스고 요 정도가 될 거야 라고 하는 거죠. CAGR은 첫 번째 점과 마지막 점이라고 하는 두 점의 데이터를 가지고 나머지를 예측하는 겁니다. 그러니까 사실 우리는 중간 단계에서 그거 말고 2011년부터 2023년도에는 어떻게 됐는지 내용을 분명히 가지고 있어요. 그 내용이 분명히 있고 똑같아요. 그런데 얘네들은 전혀 신경 쓰지 않고 그냥 처음과 마지막만을 가지고 계산하는 게 바로 CAGR인 거죠. 그러다 보니까 아주 우연히 우리가 어떤 거든 하다 보면 우연히 조금 스파이크가 튀는 애들이 있잖아요. 그래서 원래 괜찮았는데 하필이면 올해는 갑자기 코로나가 터졌어. 그래서 우리가 매출이 팍 떨어졌어. 그럼 그것이 어떤 일반적인 어떤 것을 예측하는 데 있어서 물론 그 사건은 큰 사건이지만 코로나라고 하니까 좀 큰 사건이지만 그것 때문에 그러니까 내년도에 이렇게 될 거야라고 예측하는데 좀 애매하죠. 코로나가 좀 너무 보편적인 예라면 이런 경우가 있어요. 원래 괜찮았는데 올해 우리가 알바생을 한 명 들였는데 그 알바생이 하필이면 조금 문제가 있어갖고 그래서 실수로 가게에 뭐를 잘못해갖고 사고가 있어갖고 딴 땐 안 그랬는데 올해만 잘못됐어. 이런 경우도 있을 수 있잖아요. 그래서 우리가 굉장히 특별한 전년도를 가지고 있는 경우에 CAGR이라고 하는 이러한 어떤 사고 방식은 그 특별한 것을 중간에도 다 그랬겠지라고 그냥 다 가정해버리는 방식인 거죠. 그러니까 얘가 일반적이면 사실 상관이 없어요. 원래 그 정도 우리가 평균적으로 이렇게 움직였어 라고 하는 걸 보여주는 대표성이 충분히 있다면 이 방법도 의미가 있으나 그렇지 않고 바로 앞에 있는 이 시점의 특이성이 너무 강하다 라고 하면 그걸 가지고 그런 굉장히 특별한 걸 가지고 다음 시점을 예측하는 것은 조금 문제가 있다 라고 판단을 한다 라고 하는 겁니다. 그러면 이제 우리가 원하는 게 생기는 거죠. 특이할 수도 있고 일반적일 수도 있는 거잖아요. 그러면 하나한테만 의존하지 않고 지금까지 있었던 이 기간의 모든 데이터들을 종합적으로 판단해서 2025년도를 판단하게 된다면 이 데이터를 다 모아서 판단을 한다면 그러면 비록 어쩌다 보니 한두 개가 조금 이상한 상황이 있더라도 아, 얘는 이상한 애야, 이상한 실적이야 라고 적당히 무시하고 제외하면서 이 데이터들이 매 시점에 보여준 일반적인 패턴들을 토대로 다음 해에 나타날 수 있는 일반적인 예상치를 추정할 수가 있게 될 겁니다. 그래서 우리가 이번 강좌에서 다루려고 하는 시계열 분석이라고 하는 것 시계열 분석이라는 주제를 다룸에 있어서 시계열 분석의 포인트는 단순히 다음 시점을 예측한다고 하는 것이 아니고요. 물론 그것은 시계열 분석의 목표입니다. 목표이긴 한데 그 목표만을 얘기하는 게 아니라 이것을 예측함에 있어서 지금까지 있었던 모든 기간, 우리가 다루고자 하는, 분석하고자 하는 그 기간의 데이터들을 종합적으로 반영하여 값을 예측한다. 시계열 데이터 분석, 다음 시점을 예측할 때 처음과 마지막, CAGR처럼 특수할 수 있는 일부의 데이터만 가지고 쓰는 것이 아니라 전체 기간의 데이터를 종합적으로, 이 기간 동안의 일반적 패턴을 이용해서 예상하는 것이 바로 시계열 데이터 분석이라고 정리할 수 있겠습니다.
