빅데이터분석기사 필기: 3과목 빅데이터 모델링 강좌의 맛보기 강의입니다.
이번에는 분석 모형 선정에 대해서 살펴보도록 하겠습니다. 이번 시간부터는 3과목 빅데이터 모델링으로 들어가게 되는데요. 통계에 대한 그런 학습들을 마치고 직접적으로 모형을 만드는 빅데이터 모델링의 과정이 되겠습니다. 다른 과목에 비해서 굉장히 분량이 많은 편이고요 그리고 굉장히 다양한 기법들이 나오기 때문에 공부하실 양이 좀 많을 것 같습니다 지금부터 하나씩 한번 학습을 해보도록 하겠습니다 빅데이터 모델링이라는 것은 간단하게 얘기하면 모델 즉 모형을 만든다 라고 할 수가 있는데요 우선 분석 모형이라는 것은 무엇인지 한번 정리해 보도록 하겠습니다 분석 모형 또는 우리가 모델이라는 말을 많이 사용하게 되는데요 이것은 복잡한 현실세계의 데이터를 이해하고 예측하며 결정을 내리기 위해서 사용되는 수학적이고 통계적인 모델이다 라고 되어 있습니다 아래쪽에 그림을 보시면 이제 앞쪽의 과정들을 우리가 학습을 했던 것인데요 우선 데이터베이스 안에 굉장히 많은 데이터들이 저장되어 있는데요 그것으로부터 분석을 할 데이터셋을 수집하게 됩니다. 그 다음 데이터를 학습시켜서 모델을 만들게 되는데요. 이 모델을 만드는 과정이 여기에 보시면 Supervised Learning 뒤에 이제 설명을 드리겠지만 지도학습이라고 얘기를 하고요. 비지도학습 강화학습 모델을 만들기 위해 다른 데이터셋을 테스팅해서 모델을 평가하고 좋은 모델이라면 그것을 통해서 Prediction 분석모형은 데이터로부터 얻은 인사이트를 통해 구체적이고 측정 가능한 인사이트와 밸류 창출하고 그것을 이용해서 또 효율적인 의사결정을 내릴 수 있다라는 그런 의미가 되겠습니다 그런데 이 모델은 뒤에 이제 여러가지 분석 기법들을 학습하시겠지만 이 모델이라는 것을 너무 어렵고 거창하게 생각하실 필요는 없을 것 같구요 어떤 식이 만들어진다 그런데 그 식에 우리가 데이터들을 대입했을 때 그것을 통해서 분류나 또는 예측 같은 것을 할 수 있다 라고 생각을 해주시면 되겠습니다 다음은 우리가 조금 애매하게 생각이 되어지는 범위들이 되겠는데요 통계라는 것과 또는 데이터마이닝이라는 용어도 많이 사용하고요 머신러닝, 딥러닝, 인공지능 이런 용어들을 혼용해서 사용하고 있기 때문에 우선 용어에 대해서 좀 정리를 해 볼 필요가 있지 않나 라는 생각이 듭니다 그런데 이 부분들을 용어를 좀 혼동해서 쓰는 이유는 이것들이 굉장히 밀접한 연관을 갖고 있기 때문입니다. 그래서 여기에 보시면 통계분석과 데이터마이닝, 머신러닝 이 세 분야는 굉장히 밀접하게 연관되어 있고 데이터 기반의 의사결정에 있어서 중요한 역할을 한다 라고 되어 있는데요 지금 아래쪽에 그림을 보시면 어 우선 요 부분이 통계가 되겠구요 통계와 그 다음 데이터 마이닝 머신러닝 이런 분야들이 모두 어 좀 그 공통점이 많다 좀 겹쳐지는 부분이 많다 라고 볼 수가 있습니다 그래서 이런 데이터 마이닝 이라든지 머신러닝 이라는 학문 아래는 통계가 베이스가 된다는 것은 다 아실 것 같구요 사실 이 데이터 마이닝 이라는 용어는 굉장히 오래전부터 사용이 되어 왔습니다 통계학자들이나 또는 데이터베이스 학자들이 아주 많이 사용을 했던 용어들이 되겠는데요. 제가 보기엔 머신러닝이라는 용어는 컴퓨터 학자들이 좀 만들어 낸 용어들인 것 같습니다. 그런데 이 데이터마이닝과 머신러닝의 대부분의 내용들이 겹쳐지기 때문에 굳이 이 분야를 우리가 어 억지로 분류를 할 필요는 없지 않나 라는 생각이 듭니다. 그리고 딥러닝이라는 것은 머신러닝의 한가지 종류라고 생각을 하시면 되겠습니다. 머신러닝의 다양한 기법들이 있는데요. 딥러닝의 경우에는 인공신경망이라는 것을 사용하는 그런 기법이라고 볼 수가 있습니다. 그래서 이런 분야들을 통틀어서 우리는 인공지능이라고 얘기를 하는데요. 인공지능을 좀 광의의, 넓은 의미의 인공지능이라고 얘기를 하고 어떤 경우에는 인공신경망 즉 딥러닝 부분을 인공지능이다 라고 협의로 얘기하는 경우들이 있습니다 어쨌든 이런 분야들은 굉장히 겹쳐지는 부분도 많고 아주 밀접하게 연관이 되어 있다 2과목 통계분석 기반 해석해서 데이터에서 정보를 추출하고 불확실성을 줄이며 의사결정을 역시 지원하는 과정이라고 볼 수 있습니다. 앞서 통계학이라는 것은 기술통계학, 즉 descriptive statistics와 추론통계, inference라고 얘기하죠. 기술통계 분야와 추론통계 분야가 있습니다. 기술통계라는 것은 주로 데이터를 요약하고 설명하는 방법에 중점을 두는 것인데요. 여러가지 요약통계값, 평균, 중앙값, 표준편차, 분산 이런거 다 공부를 했고요. 다양한 요약통계값과 또 여기에 시각화까지 사용을 해서 데이터를 주로 정리, 요약하고 설명하는 데 중점을 두게 됩니다. 그런데 추론통계라는 것은 표본의 통계량들을 이용해서 모집단에 대해서 추론을 하는 과정이고요. 이 안에 추정과 가설 검정이 포함이 됩니다. 저는 이 추론통계부터 이미 인공지능의 내용이 시작이 된다고 생각을 하는데요. 어쨌든 통계학은 이렇게 기술통계와 추론통계로 나누어진다는 것을 우리는 학습한 바가 있습니다 그 다음에 데이터 마이닝이라는 용어를 다시 정리를 해 봤는데요 데이터 마이닝에서 마이닝이라는 것은 광산에서 광물을 캐는 것을 채굴하는 것을 마이닝이라고 얘기를 합니다 즉 데이터로 이루어진 광산에서 채굴을 해서 뭔가 인사이트를 발견해 낸다 라고 생각하시면 되겠구요 대규모의 데이터에서 유용한 인사이트를 발견하고 이것을 분석해서 가치를 창출한다. 계속 인사이트와 가치라는 말이 나오게 되고요. 그 결과를 의사결정에 반영하는 과정이 되겠습니다. 데이터마이닝에서는 보통 기법들을 이렇게 분류를 하는데요. 여기에 보시면 분류와 예측 또는 회귀라고 되어 있는데요. 사실 이 부분이 뒤에서 설명하는 머신러닝에서 설명하는 지도학습의 분야가 되겠습니다. 지도학습이고 아래쪽에 나와 있는 것들은 비지도에 포함된다고 볼 수 있는데요. 우선 지도학습에서 분류라는 말을 사용하게 됩니다. 클래시피케이션이라는 말을 사용하고요. 또 예측 또는 회귀라는 말을 많이 사용하는데요. 이 두 가지의 큰 차이점을 반드시 알고 계셔야 되는데요. 분류라는 것은 주로 범주형에 사용하는 용어가 되겠습니다. 그래서 여기에 보시면 데이터를 미리 정의된 여러 그룹이나 클래스로 할당하는 것인데요. 예를 들면 개와 고양이를 분류하는 것이죠. 그런데 이 전에 중요한 것은 지도학습이기 때문에 개와 고양이 사진에 레이블, 즉 정답이 모두 붙어 있고요. 그것을 학습한 것을 토대로 해서 새로운 개와 고양이의 사진이 들어왔을 때 이것을 분류하게 해준다는 것입니다. 그런데 우리가 보통 예측 또는 회귀라는 말을 사용하게 되면 결과가 주로 연속형으로 나오게 되는데요. 즉 숫자 값으로 나온다고 생각하시면 되고, 미래의 양상을 예측하거나 미래의 값을 추정하는데요. 주식 가격이 어떻게 될지 예측합니다. 주식 가격이라는 것은 연속형이 되겠죠. 그 다음에 비지도학습으로는 연관분석과 군집분석이 있는데요. 연관분석은 어떤 물건을 판매할 때 많이 사용을 하는데요. 어떤 물건들이 좀 상호 관련성이 있는지를 알아봐서 이것의 연관성을 파악하는 분야가 연관분석이 되겠습니다. 군집분석의 군집이라는 것을 분류와 잘 구분을 하셔야 되는데요. 분류라는 말을 쓰면 이것은 지도학습에 해당이 되고요. 군집이라는 말을 사용하게 되면 비지도학습입니다. 미리 답을 주지 않은 것이죠. 어떤 집단을 넣었을 때 컴퓨터가 스스로 어떤 동질성을 가진 것들을 구분하게 되는 것입니다. 그래서 동질성을 지닌 그룹별로 세분화하는 것을 군집분석이다 라고 얘기를 합니다. 그리고 기술통계 분야들도 데이터 마이닝에서 중요한 역할을 한다고 볼 수가 있습니다. 다음은 머신러닝의 부분이 되겠는데요. 머신러닝, 인공지능의 한 분야다. 컴퓨터가 데이터를 통해서 학습하고 예측하는 능력을 개발한다. 머신러닝에서는 학습이라는 것을 굉장히 중요하게 생각을 합니다. 컴퓨터가 스스로 학습한다고 볼 수 있고요. 데이터를 기반으로 패턴을 학습하고 예측을 수행하는 알고리즘과 기술의 집합. 딥러닝은 머신러닝의 한 분야인데요. 다층적인 인공신경망을 활용해서 복잡한 문제를 해결할 수 있도록 하는 방식이 되겠습니다. 딥러닝은 머신러닝의 한 분야라는 거 기억하시고요. 머신러닝에서는 지도학습, 비지도학습, 강화학습이라는 얘기를 사용하는데요. 지도학습이라는 것은 계속 강조해 드린 것처럼 레이블 또는 정답이 주어진 데이터를 이용해서 모델을 학습하는 방법이 되겠습니다. 그래서 레이블 또는 정답이라는 말을 사용하게 되고요. 주어진 입력 데이터에 대한 적절한 출력 데이터를 찾는 모델을 만드는 것이 목표다. 예를 들면 이렇게 Y는 베타0 플러스 베타1x, 선형회귀분석에서 만들어지는 모델의 식이 되겠는데요. 그럼 이런 식을 완성을 해 준다는 거죠. 즉, 베타0와 베타1을 만들어 주게 되면 우리는 x 값을 입력하게 되면 y 값을 알 수가 있는 것입니다. 이것을 통해서 예측을 할 수가 있다는 것이죠. 지도학습에는 앞서 설명드린 것처럼 분류의 문제가 있고요. 클래시피케이션, 요거는 주로 Y값, 결과가 범주형으로 나온다 라고 설명을 드렸고요. 그 다음에 회귀, regression의 경우에는 결과가 연속형으로 나온다 라고 설명을 드렸습니다. 비지도학습은 레이블이나 정답이 주어지지 않은 상태에서 컴퓨터가 학습을 해서 비슷한 것을 나눠주는 것이 비지도학습이 되겠습니다. 그래서 데이터의 구조나 패턴을 찾아주기도 하는데요. 연관분석, 군집분석. 강화학습, 강화학습은 여러분들 알파고 때 많이 들어보셨을 것 같습니다. 알파고가 강화학습의 방식으로 학습을 했다고 하는데요. 알파고가 바둑을 둘 때 처음에는 인간 전문가의 게임 기록을 학습을 했는데요. 그 뒤에는 지식을 습득 3과목 빅데이터 모델링 미래의 자율주행차라든지 로봇이라든지 이런 것들의 움직임을 제어할 때 강화학습을 활용합니다. 그런데 우리 시험에서 나오는 것은 강화학습은 정의 정도는 나올 수가 있는데요. 상세한 기법들은 주로 지도학습과 비지도학습에 포함이 된다고 볼 수가 있습니다. 그럼 다음 페이지에는 제가 지도학습과 비지도학습 그리고 여기에 나오는 그 기법들을 한번 분류를 해 놨습니다. 그래서 요거를 좀 미리 기억을 하신다면 쉽게 학습을 하실 수가 있을 것 같은데요. 우선 지도학습은 분류를 할 수 있는 기법, 회귀를 하는 기법 그리고 두 가지를 모두 다 할 수 있는 기법 이렇게 나누어 봤는데요. 로지스틱회귀분석, 나이브베이즈 분류. 선형회귀분석, 릿지회귀분석, 라쏘회귀분석, 엘라스틱넷. 분류와 회귀를 모두 다 할 수 있는 기법으로는 의사결정나무, 서포트벡터머신, K-최근접이웃 그리고 앙상블기법에 배깅, 부스팅, 랜덤포레스트가 있고 인공신경망이 있습니다. 다음은 비지도학습인데요. 크게 군집과 연관 분석으로 나누었는데 군집분석의 종류가 정말 많습니다. 계층적 군집분석 그리고 k-평균 군집분석, k-메도이드 군집분석, 혼합분포 군집분석, DBSCAN, 자기조직화지도. 연관분석 기법에는 Apriori나 FP-Growth가 대표적인 방법이 되겠습니다. 이 내용들이 다 거의 한 번씩은 뒤에서 다뤄지게 된다고 생각하시면 되고요. 사실은 이것보다 굉장히 더 많은 기법들이 있기 때문에 언제든지 새로운 내용들이 추가가 될 수 있을 것 같습니다. 그럼 여기까지 분석 모형 선정에 대한 학습을 마치도록 하겠습니다.
