1강. 빅데이터 분석의 종류와 이해

강의 대본

안녕하십니까? TEXTOM 함께하는 빅데이터 아카데미의 강의를 맡은 김용희라고 합니다. 이번 시간은 TEXTOM이라고 하는 비전 빅데이터 분석 도구를 통해서 여러분이 빅데이터에 대한 소양을 기르고 어떤 분석을 통해서 어떠한 결과들을 도출할 수 있는지를 설명해 드리도록 하겠습니다. 총 9개의 강의를 통해서 TEXTOM에 대한 각 기능들을 익히고 실습에 필요한 도구들의 사용 방법을 설명해 드리도록 하겠습니다. 이번 시간에는 빅데이터 분석의 종류와 이해를 통해서 과연 TEXTOM이라고 하는 분석 도구가 빅데이터 분석에 어떠한 영향을 미치고 있고 활용할 수 있는지 그리고 그것을 통해서 어떠한 결과물들을 얻고 또 해석할 수 있는지를 설명해 드리도록 하겠습니다. 목차는 크게 세 가지로 구성되어 있습니다. 첫 번째로 빅데이터 개념 및 사례. 여기서는 빅데이터 정의와 개념 그리고 종류, 활용 분야에 대해서 설명해 드리도록 하겠습니다. 두 번째로는 빅데이터 분석방법론에 대해서 설명해 드리도록 하겠습니다. 텍스트 마이닝, 네트워크 이론 그리고 담론분석이라고도 하는 군집분석 가설검증, 토픽모델링, 감성분석의 순으로 빅데이터 분석방법론을 설명해 드리고 세 번째로는 분석 사례 이런 방법론이나 개념들을 가지고 어떻게 연구를 했고 결과물을 도출했는지 사례들을 살펴보도록 하겠습니다. 첫 번째로 빅데이터의 개념 및 사례를 설명해 드리도록 하겠습니다. 잘 알고 계시겠지만 빅데이터라고 하는 것은 데이터 자체뿐만이 아니라 데이터에 대한 가치 그리고 분석이 포함될 때 실현된다고 보고 있습니다. 데이터의 양의 문제도 있지만 정형과 비정형 데이터의 집합 그리고 이들 데이터로부터의 어떤 가치를 도출하고 추출할 수 있는 것들 그리고 결과를 분석하는 기술을 빅데이터라고 합니다. 큰 규모를 활용해서 그동안 불가능했던 새로운 통찰이나 형태, 가치를 추출하게 되는 것을 의미하고 있고요. 그리고 흔히 규모, 다양성, 속도, 복잡성이라고 하는 빅데이터 요소들을 가지고 있습니다. 빅데이터에 다섯 가지 요소를 말씀해 드렸는데 구체적으로 살펴보면 규모가 있습니다. 과거에는 정보라고 하는 것이 설문조사나 기존에 축적되어 있는 데이터들조차 규모가 많지 않았고 통계분석에 활용되는 분석들을 보면 샘플 데이터를 가지고 분석을 많이 하게 됩니다. 하지만 빅데이터는 그런 규모를 훨씬 뛰어넘어서 기하급수적으로 급증하고 있는 디지털의 정보량이라고 하는 거대한 규모의 데이터들을 의미하기도 합니다. 그리고 다양성이라고 하는 것이 있는데 다양성은 로그기록, 소셜 정보, 위치, 소비 다양한 정형과 비정형 텍스트와 멀티미디어 영상, 음성 이런 데이터들을 말하고요. 과거에는 숫자로 된 데이터들만이 데이터로 인정받는 시대가 있었는데 지금은 그런 것은 포함해서 다양한 형태의 자료나 정보들을 데이터로 확인할 수가 있는 것입니다. 그리고 또 하나 빅데이터 요소 중의 하나는 속도입니다. 모바일 디바이스나 인터넷망을 통해서 다양한 정보들을 유통시키고 또 가공하고 활용을 하는데 최근에는 사물인터넷이라고 하는 센서 데이터가 있죠. 센터 데이터를 통해서 실시간의 스트리밍 정보들을 송출하고 받을 수 있는 정보들이 있고 이러한 데이터들은 단순히 축적되고 생성되는 것뿐만이 아니라 이동속도 측면에서 굉장히 빨라야 됩니다. 그래서 실시간성을 반영을 하려면 대규모의 데이터를 빠른 속도로 전송하는 것이 관건인데 빅데이터는 그런 것까지 수행을 해야 빅데이터라고 하는 개념에서 속도라고 하는 속성이 들어가 있습니다. 그리고 또 하나는 대규모 데이터를 처리하고 활용하고 분석하는 속도의 측면입니다. 아까 말씀해 드렸던 것은 데이터가 유통하고 이동하고 하는 것의 속도였다면 실제로 분석하는 속도 역시 중요하다고 볼 수 있습니다. 그다음으로 정확성입니다. 분석의 정확도 향상을 위해서 데이터의 품질이 무엇보다 중요한데 과거의 숫자로 된 데이터들은 데이터를 가공하고 정리하고 규격에 맞게 맞추는 일들은 보다 수월했다고 할 수 있습니다. 왜냐하면 숫자로 된 데이터가 표준화하기가 쉽고 정형화하기가 쉽기 때문입니다. 그러나 빅데이터라고 하는 것은 아까 말씀해 드렸던 것처럼 데이터의 종류가 굉장히 다양하고 숫자뿐만이 아니라 영상과 음성, 텍스트 등의 비정형 데이터를 포함하고 있는데 이런 데이터들의 속성값이라고 하는 것은 숫자의 속성과는 매우 확연히 차이가 있습니다. 그렇기 때문에 데이터의 품질을 고려하는 것이 향후 데이터를 이동시키고 또 데이터를 분석하는 데 무엇보다 중요하다고 할 수 있겠습니다. 마지막으로는 데이터의 가치입니다. 빅데이터가 단순히 앞에서 말씀드렸던 규모, 다양성, 속도, 정확성 측면에서만 고려된다고 하면 빅데이터라고 할 수 없습니다. 왜냐하면 빅데이터는 그 빅데이터를 활용해서 유무형의 가치를 창출하는 것까지를 포함하는 것이 빅데이터의 정의이기 때문입니다. 그렇지 않고서는 단순히 규모가 많다, 다양하다, 속도가 빠르다 이 러한 측면에 있어서는 데이터 자체가 규모가 있고 다양하고 빠른 속도라고 표현할 수 있지 그것이 빅데이터라고 하는 새로운 가치를 창출하는 것에 부합하지 않는다고 할 수 있겠습니다. 그래서 최근에는 빅데이터라고 하는 것이 단순히 데이터를 축적하고 쌓아놓는 것뿐만 아니라 이것을 활용해서 어떠한 새로운 가치를 창출하고 문제를 해결하기 위한 정보를 제공해 주는 플랫폼화까지 굉장히 영향을 미치고 있다고 말씀해 드릴 수 있겠습니다. 빅데이터의 특징들입니다. 그림을 보시면 셀 단위의 그림들이 있고 잘 모아진 형태로 표현되어 있는데 사실 데이터의 원천, 형태, 취합, 분석방법, 분석환경은 기존의 데이터의 방법과는 크게 다르지 않습니다. 다만 차이가 있다고 하면 데이터가 우리가 알고 있는 협소한 범위에서의 관리되고 있는 데이터인지 아니면 확장성이 고려된 외부에서 많이 획득할 수 있는 데이터인지가 고려되어야 하고 형태 또한 아까 말씀해 드렸던 것처럼 정형화되어 있는 데이터뿐만 아니라 구조화되어 있지 않은 비정형의 데이터들도 빅데이터로 활용할 수 있다는 점. 그리고 데이터를 취합하는 데 있어서 표준화를 아까 말씀해 드렸는데 표준화가 되어 있지 않기 때문에 이것을 취합하는 데 구조적인 문제들이 있습니다. 이런 것들을 해결해 나가면서 데이터를 축적해야 하는 것이 최근에 이슈가 되고 있다고 말씀해 드릴 수 있고 분석방법론 같은 경우는 과거의 전통적인 라지데이터의 영역에서는 탐색적 분석보다 모델링을 하고 표본을 추출해서 최적화된 분석을 하는 것이 목적이었다고 하면 최근에 빅데이터라고 하는 것은 직관적인 시각화가 동반되어야 하고 데이터의 인과관계보다는 데이터 간의 상호 연계성과 상관성을 통해서 탐색적으로 의미를 갖는지 살펴보는 것이 매우 중요하다고 할 수 있겠습니다. 인프라적인 측면에서 분석환경은 과거에 규모가 있는 데이터라고 하면 단순히 데이터를 많이 쌓아놓는 것, 적재해 놓는 것에 의미가 있었다고 하면 빅데이터는 다양한 속성, 다양한 규모의 데이터를 어떻게 효율적으로 분산 처리해서 저장할 수 있는지 왜냐하면 양이 너무 많고 양이라고 하는 것이 속성이나 표본들이 다 다르기 때문에 표준화하기 어렵다는 측면에서 저장하는 데 그런 이슈들이 있습니다. 최근에 클라우드 기반의 저장에 대한 이슈들도 있고요. 그래서 빅데이터는 아까 말씀해 드렸던 것처럼 개념적으로는 규모나 다양성, 속도, 정확성 이런 것들이 있었고 데이터의 속성이나 기술적으로는 데이터의 원천과 형태 그리고 취합, 분석방법과 분석환경에 따라 빅데이터의 개념과 정의가 구분될 수 있다고 이야기할 수 있습니다. 그러면 빅데이터는 어떻게 출현했는가 살펴보면 과거에는 빅데이터라고 하는 것들은 과거에도 있었죠. 우리가 늘 접하는 신문 그리고 책 이런 것들도 어떻게 보면 다 데이터들입니다. 그리고 일, 업무상에서 생성되는 행정 문서들 아니면 계산된 자료들 이런 것들도 다 데이터인 거죠. 수만 가지의 형태 그리고 엄청나게 많은 용량들을 가지고 있었는데 최근에 빅데이터라고 하는 개념이 이슈가 됐던 이유는 뭐냐 하면 바로 이런 이유들, 이런 배경들에 있습니다. 과거에는 데이터 자료가 있다고 하더라고 이것이 취합되기 어려웠고 이것이 데이터라고 하는 데에 사람들이 별로 인식을 하지 않았어요. 단순히 자료일 뿐이고 정보일 뿐이지 이것이 데이터로써의 가치가 있는지 사람들이 확인할 수도 없었고 그리고 확인하려고 하지 않았습니다. 그런데 최근에는 모바일 디바이스가 굉장히 많아졌죠. 핸드폰뿐만이 아니라 태블릿 PC도 있고 노트북도 있고 다양한 형태의 개인화된 모바일 장치가 확산이 되기 때문에 그 모바일 장치는 뭐가 가능하냐 하면 사진도 찍고 카카오톡, 메신저라든지 문서 작업, 음성 통화 내역 삼성페이 같은 카드 사용 내역 같은 것들이 있죠. 모바일 장치라고 하는 것의 확산이 데이터들을 모으기 쉽게 만드는 역할을 합니다. 두 번째는 소셜 미디어의 성장이에요. 과거에는 내가 아는 이야기, 내가 흥미로운 이야기들을 공유할 때는 주변 친구들, 주변 가족들이나 지인들에게만 이야기할 수 있는 한계가 있었다면 소셜미디어는 공간과 시간에 구애받지 않고 전 세계 어느 누구나 내가 좋아하는 이야기, 내가 알고 싶은 이야기나 알고 있는 정보를 공유하는 것이 굉장히 편해졌습니다. 나 하나뿐만이 아니라 여러 사람들이 공유, 정보 이동 이런 것들이 소셜미디어를 통해서 이루어지기 때문에 역시 데이터가 굉장히 많이 축적되고 있다는 것이고요. 그다음 센서 장비 이용의 확대입니다. IoT 센서 같은 것들은 생활을 편리하게 하기 위해서 정보기관의 기계를 작동시키기 위한 센서이지만 어떻게 보면 데이터 형태로 이동이 되는 거죠. IoT 센서를 통해서 명령을 전달하거나 명령을 전달하는 것은 단순히 하나의 목적을 가지고 있지만 통신을 통해서 이동하는 정보라고 하는 것은 영역을 전달하는 시간 그리고 조건들, 어디서 어디로 다양한 정보들을 포함하고 있기 때문에 그것도 빅데이터가 출연하게 된 배경이라고 할 수 있고 또 한 가지는 GPS 장치 보급 확산입니다. 이것은 모바일 장치 확산과 유사한데 내비게이션, 모바일에는 당연히 GPS 장치가 들어 있고 그런 것뿐만 아니라 IoT 센서에도 GPS 장치가 달려 있기도 하고요. GPS 장치라고 하는 것은 실시간성이 가능해지기 때문에 단순히 한 달 단위로 수집하거나 1년 단위로 수집하거나 이런 데이터보다는 데이터양이 훨씬 많아진 것입니다. 그리고 사용하는 사람들도 많고 데이터가 들어오는 실시간성이라고 하는 것들도 많기 때문에 빅데이터 출현배경 중의 하나다. 그리고 마지막으로는 인터넷의 이용 증가. 이것은 앞에서 말씀해 드렸던 것과 더불어서 사용자들이 인터넷에 흔적들을 많이 남기는 것입니다. 내가 쇼핑하거나 웹툰을 보거나 영상을 구독하거나 블로그에 글을 남긴다는 하는 행위들, 이런 행위들이 다 흔적을 남기기 때문에 빅데이터로써의 가치가 있다고 이야기할 수 있겠습니다. 그럼 이런 빅데이터들은 어떻게 활용을 하는 것인가. 공공부문과 민간부문으로 나눠서 살펴보면 공공부문에서는 활용영역에 있어서 이상감지 대응이나 미래예측, 상황대응이나 신규정책 개발 또는 시민맞춤형 정책 등에 활용할 수가 있습니다. 그래서 분야별로는 이상감지 대응 같은 경우는 시설물의 불법 개조가 언제 일어나고 누가 어떻게 이런 시도들을 하는지 이상 감지를 하는 거고 공공시설에 고장이 발생하는 것을 미연에 방지하기 위해서 이 기계가 혹은 시설이 서비스가 이상하다, 고장이 예측된다고 하는 감지를 시켜주는 거고 시설뿐만 아니라 다양하게 세금, 정책을 집행하게 되면 예산 등을 집행하게 되고 보조금이나 지원금 같은 것들을 전달하게 되는데 중복 수급의 문제가 생길 수도 있고 부당하게 지원금들을 수령하는 일들이 있을 수 있죠. 그런 것을 방지하기 위해서 위험을 예측하고 감지하는 세금 같은 경우도 체납 같은 것들을 감지를 통해서 회수할 수 있는 이런 부분들에서 활용할 수 있습니다. 이것과 관련해서 데이터 또한 물론 공공데이터를 활용하고 관련 법이나 제도 등을 통해서 규칙 기반의 모델들을 만들어내는 것입니다. 이런 경우에는 이상하다, 우리가 제도는 이렇게 만들어놓았는데 이 제도 밖에서 무엇인가 이루어지고 있다. 이런 것들을 탐지하기 위해서 제도데이터가 들어가고요. 시민 피드백데이터나 제안, 민원 데이터들인 거죠. 민원데이터를 통해서 어느 지역의 민원이 급상승하고 있고 어떤 분야에 사람들이 요구가 있다 이런 것들을 판단할 수 있겠습니다. 미래예측 대응 같은 경우는 범죄예방, 사고예방, 교통체증예방과 시민 불만 사전 대응 같은 분야에 활용될 수 있고 이상감지 대응과 일맥상통하는 부분이 없지 않아 있습니다. 어느 지역의 강력 범죄 혹은 경범죄의 발생이 일어나고 있는데 강력 범죄가 이때쯤 발생하겠다, 지금 이 상황이나 이 조건에서는 일어날 수 있겠구나라고 하는 정보들을 받아서 예방 활동을 하게 되는 거죠. 순찰도 많이 돌고 특정 지역에는 가로등 설치를 더 많이 한다든지 CCTV 설치를 많이 한다든지 이런 행동, 행위들을 하게 됩니다. 교통체증예방 같은 경우도 일정한 시간에 예를 들면 출퇴근 시간에 당연히 교통체증이 일어날 수 있는데 그런 시간대를 예측한다든지 아니면 이곳은 원래 막히는 구간이 아닌데 갑자기 체증이 발생한다 그럴 수 있는 것들을 예측하는 거죠. 여기에 허용된 데이터들은 범죄기록, 범죄지도, 뉴스나 웹 콘텐츠, 교통정보 센서 데이터, CCTV 같은 것도 되겠고 여기도 마찬가지로 민원데이터들이 들어가게 됩니다. 그리고 상황대응 및 신규정책 개발 같은 경우 다양한 분야에서 쓰이게 되는데 대기오염, 수질오염, 위험시설, 불법주차, 신규행정 이런 곳에 사용을 하게 됩니다. 여기에 들어가는 데이터들도 센서데이터, 행정조사, 시민피드백 데이터가 활용되고요. 시민 맞춤형 데이터들도 이제 대부분 민원이나 시민제보 데이터를 통해서 어떤 지역의 연령대별, 세대별 맞춤형 서비스가 필요하다. 복지 서비스가 필요하든 아니면 소상공인에 대한 서비스가 필요하든 이런 것들을 사전에 파악하고 선제적으로 대응하기 위해서 이러한 데이터들을 활용해서 맞춤형으로 빅데이터를 활용하는 사레들이 있습니다. 보시면 아시겠지만 데이터들이 굉장히 다양해요. 법과 제도 같은 경우는 데이터라고 하기 의아할 정도로 책자 형태, 텍스트 형태의 데이터고 범죄기록 같은 경우에는 일부는 숫자로 된 발생률이라든지 인구 몇 명당 범죄 발생률 이런 것 같은 정량적인 것입니다. 범죄기록 중에 프로파일링 같은 것들은 정량적인 것이 아니잖아요. 그런 것들은 비정량 데이터들입니다. 굉장히 다양한 형태의 데이터들을 공공부문에서 활용할 수 있다고 말씀드릴 수 있겠습니다. 부처별로는 공공유형으로는 다양하게 보건복지, 관광, 군사, 해양 수산 이런 쪽에서에서 활용할 수 있고 다양하게 데이터들을 이용해서 활용할 수 있습니다. 분석기술 같은 경우에는 상관분석, 머신러닝, 텍스트마이닝, 군집분석 이렇게 들어가는데 빅데이터라고 해서 꼭 머신러닝이나 AI를 적용해야 된다 이런 것은 아닙니다. 데이터는 데이터일 뿐이고 분석 기술은 그 데이터에 맞는 방법론을 사용하면 되는 거거든요. 그렇기 때문에 분석 기술이 데이터가 많다고 해서 머신러닝을 써야 해. 데이터가 이것밖에 없는데 그러면 통계로 해야 하나. 이렇게 생각하실 수 있는데 그것은 분석을 하시면서 그 데이터 특성과 목적에 맞게 사용을 하시면 될 것 같습니다. 그래서 공공부문에서 대표적인 빅데이터 분석 활용 사례는 서울시에서 하고 있는 심야 버스 노선과 같은 것들이 있겠죠. 신용카드 결제 내역, 휴대 전화 통화 이력 그리고 택시결제 데이터 등을 활용해서 심야시간대에 버스 노선을 확정해서 서비스를 하는 공공부문 활용사례가 될 수 있겠습니다. 민간부문에서는 활용 범위가 더 다양하죠. 왜냐하면 공공부문에서는 얼마 전에도 데이터 3법이나 데이터 관련 법안들이 통과가 되는데 민간에서는 개인정보라든지 이런 것들이 공공에 비해서는 조금 민감한 사항들이 아닌가. 왜냐하면 민간에서는 멤버십을 가지고 개인정보를 수집을 해도 상업적 활용을 많이 할 수 있기 때문에 그런 측면에서는 민간에서의 빅데이터 활용은 굉장히 다양하고 공공부문보다 더 많은 것들을 할 수 있다고 말씀드릴 수 있습니다. 분석기술이나 데이터들은 공공부문과 별반 다르지 않아요. 그런데 공공부문 같은 경우에는 국방데이터나 경찰데이터, 보건복지데이터 이런 것들은 행정기관이 유니크하게 쌓아놓고 있는 데이터들이기 때문에 그런 부분들도 있지만 민간에서는 오픈돼 있는 데이터를 많이 활용하겠죠. SNS 데이터 그리고 일반적인 통계 데이터, 거래 정보 데이터, 로그 데이터, 트렌드 데이터 이런 것들을 사용을 하게 되는 것입니다. 그래서 더 재밌게 알고 계시는 사례가 아마존과 넷플릭스 그리고 대형 유통사들이 빅데이터 활용하는 사례들이 재미있게 나타나죠. 아마존 같은 경우는 상품 추천 같은 것에 많이 활용을 하고 있고 넷플릭스도 마찬가지로 영화데이터, 고객데이터를 가지고 추천을 해 주는. 최근에 보니까 넷플릭스의 포스터까지 사용자의 취향이나 유형에 따라서 포스터를 보여주는 것이 달라지게 알고리즘이 짜여져 있다는 것을 봤고. 그리고 아마존 같은 경우는 사전 배송이 유명하잖아요. 미국이라는 지역이 땅도 넓고 하기 때문에 배송하는 데 시간이 우리나라보다 훨씬 많이 걸리는데 이것을 예측을 통해서 사전에 이제 그 지역의 상품을 미리 갖다 놓는 거죠. 그러면 주문자가 주문함과 동시에 배송되는 시스템을 만들어 놓고 있습니다. 여기까지 살펴본 것은 빅데이터 개념과 정의를 말씀을 드렸고 그리고 민간과 공공부문에서는 빅데이터를 어떻게 활용하고 있는지 살펴봤고요. 구체적으로 빅데이터 분석방법론에 대해서 살펴보겠습니다. 앞에서 다양한 기업이나 공공기관들이 빅데이터를 활용한다고 하는데 실제로 어떻게 활용하는 건지 궁금하실 수 있기 때문에 설명해 드리는데요. TEXTOM이라고 하는 분석 도구에 기반한 빅데이터 분석을 말씀해 드려야 하기 때문에 텍스트 기반의 분석방법론 위주로 설명을 드리도록 하겠습니다. 아까 말씀드렸던 것처럼 빅데이터는 다양한 영역이나 다양한 종류에서 분석이 되지만 그중에서 텍스트 데이터를 분석하는 것이 영상과 음성을 분석하는 것만큼 굉장히 중요하고 AI 분석을 할 때 음성이나 영상 데이터들을 분석할 때는 영상이나 음성 자체를 분석하는 경우도 있지만 음성이나 영상이 포함되어 있는 텍스트들을 따로 추출해서 분석하기도 하거든요. 그렇기 때문에 텍스트 분석을 하는 활용도나 이런 것들이 높을 수 있기 때문에 그것을 위주로 설명해 드리도록 하겠습니다. 빅데이터의 여러 가지 분석방법론 중에 머신러닝도 있고 AI 분석방법론도 있고 통계분석도 있고 하지만 그중에서 텍스트 마이닝이라고 하는 것이 있습니다 . 텍스트 마이닝은 말대로 텍스트 분석을 하기 위해서 만들어 놓은 기술입니다. 그래서 언어를 구사하는 데 언어를 표현하고 의사를 소통하고 의사를 전달하는 방법을 텍스트로 하게 되는데 텍스트는 자연어로 구성이 되어 있죠. 자연어처리 기술에 기반한 대규모의 텍스트 데이터를 분석하는 목적으로 개발되었습니다. 대용량의 데이터, 숫자 데이터보다 텍스트 테이터가 더 용량도 많고 왜냐하면 텍스트 데이터는 단순히 문자로 구성이 되어 있고 단락으로 구성이 되어 있는데 뒤에 말씀해 드리겠지만 텍스트 데이터를 분석하려면 숫자는 숫자 나름대로 의미가 있고 시계열이라고 하는 추세도 있고 하지만 텍스트 데이터는 그 의미가 태생적으로 맥락과 의미를 파악하는 데 초점이 맞춰져 있습니다. 그렇기 때문에 굉장히 많은 텍스트 데이터를 사람이 일일이 눈으로 보면서 분석을 하는 것은 실질적으로 불가능하기 때문에 그런 것들을 유용하게 하고 신속하게 하기 위해서 텍스트 마이닝 중에서도 여러 가지 분석 기법들이 또 있어요. 빈도분석, 의미망분석, 담론분석 이런 것들이 있는데 그런 것들을 수행하게 되는 것을 통칭해서 텍스트 마이닝이라고 이야기합니다. 그래서 텍스트 마이닝 활용도 자료를 보면 실생활에서 만들어지는 대부분의 자료가 그래요. 업무하다 보면 업무를 숫자로 하시는 분들도 있고 글을 쓰시는 분들도 있고 기획서를 만드실 때는 텍스트로 하죠. 그리고 민원 처리 같은 것도 다 텍스트를 하는 분들도 계시고 온라인에 글 올리는 것, 웹과 SNS의 블로그 글 이런 것들 다 텍스트로 이루어져 있고 여러 분야에서 활용되고 있는 논문이나 기사들 이런 것들도 빅데이터로 활용할 수 있습니다. 그리고 여론조사 콜센터의 전화보고서 같은 것들이 있는데 여론조사 하면 얼마 전에 보궐 선거도 끝났고 설문조사나 여론조사는 척도나 아니면 만족도나 선택하게 되어 있죠. 그래서 조작적으로 정의된 것을 척도로 만들어서 정략적인 데이터화하는 것에 초점이 맞춰져 있다면 여론조사 내부에서도 주관식 문항들이 있어요. 사람이 실제로 표기하기가 어려운 부분들은 주관식 문항인데 그런 것들을 콜센터의 전화보고서 같은 것들, 아까 말씀해 드렸던 음성을 텍스트로 변환해 주는 그런 것들인데 민원 데이터들도 전화로 음성이 녹음돼 있는 경우는 그 음성을 텍스트로 변환해서 분석할 수 있습니다. 마지막으로 E-mail 데이터 같은 것들이 있죠. 그래서 텍스트 마이닝은 정보검색과 기계학습, 통계학, 자연어 처리, 데이터 마이닝 등 여러 학문 분야의 연구 성과들에 기반을 둔 응용분야라고 설명해 드릴 수 있겠습니다. 텍스트 마이닝의 영역과 분석입니다. 텍스트 마이닝의 영역은 사람들의 의해서 작성되고 생성된 텍스트와 비텍스트적인 콘텍스트를 기반으로 언어, 내용, 작성자의 의도 이런 것들을 추론하는 영역인 거죠. 그래서 실존하는 세상의 현상을 바라보는 데 텍스트 데이터를 활용하는 것이 마이닝의 영역이고요. 그것들을 분석하는 방법들은 분류분석이 있어요. 분류분석 안에 군집화라는 것도 있고. 왜냐하면 텍스트는 의미와 의도와 이런 것에 따라서 단어들을 분류하고 재조합하는 과정들이 필요하거든요. 그렇기 때문에 분류, 군집화 이런 것들이 필요하고 거기서 정확하진 않지만 어떤 데이터의 의도나 의미들을 판단하기 위한 정보를 어떻게 추출할 것인지의 문제 그리고 의미의 맥락은 어떠한지 보기 위한 네트워크 분석 그리고 그런 단어들 혹은 문장들이 긍정적인 거냐, 부정적인 거냐. 한국말은 잔뜩 좋은 말을 했다가 뒤에 가서 나쁜 말을 하는 경우도 있고 그 반대의 경우도 있는데 그런 분석들을 시도하는 감성분석의 개념이 있고 텍스트가 엄청 많은데 무엇을 이야기하고 있는지 논점과 주제가 무엇인지 이런 것들을 판단할 때 사용하는 토픽분석, 개념분석 등이 있습니다. 텍스트 분석의 또 한 가지 장점 중의 하나는 설문조사나 여론조사 같은 경우에는 피조사자의 의도가 상황이나 조건에 따라서 변화할 수 있다는 것이 있어요. 그래서 같은 질문이라고 할지라도 그 사람의 오늘 기분에 따라서 특정 문항의 응답이 달라질 수 있는, 객관적인 측면이 조금 떨어지는 부분이 있는데 텍스트 데이터는 일단 한 번 써 놓으면 수정하기가 굉장히 어렵고 그리고 의도가 충분히 전달하게 만들어지는 특히 논문이나 아니면 형식에 맞는 게시글이나 신문 기사 같은 경우들은 그런 측면들이 있기 때문에 이런 것들은 객관성을 담보할 수 있는 것입니다, 여론조사의 그런 것들보다. 숫자로 돼 있지 않기 때문에 조금 객관성이 떨어지지 않느냐고 생각하시는 분들이 많은데 데이터의 수집이나 축적이나 획득 과정에서 살펴보면 텍스트 데이터가 오히려 더 객관적일 수 있는 상황들이 있습니다. 그렇기 때문에 빅데이터를 분석하는 데 텍스트 데이터를 활용하는 여러 가지 장점 중의 하나라고 할 수 있겠습니다. 그러면 텍스트 마이닝은 어떤 과정을 통해서 결과를 도출하는지 살펴보도록 하겠습니다. 데이터의 수집, 전처리, 단어추출, 정보분석이 있습니다. 크게 네 가지 단계로 이루어지는데 보통 중간중간에 세부적인 과정들이 더 있어요. 그런데 크게 네 가지의 과정을 통해 이루어지고. 첫 번째, 데이터 수집을 보면 관련된 주요 데이터를 수집하게 되어 있습니다. 여기도 굉장히 중요한 부분인데 데이터 설문조사 할 때 표본이 어디서 추출했냐에 따라서 결과가 달라지듯이 텍스트 마이닝도 어디서 수집을 했는지에 따라서 결과가 달라질 수 있어요. 신문 기사를 수집한다고 했을 때 보수 진영의 기사, 진보 진영의 기사가 신문사마다 다른데 나는 보수 진영에서만 획득을 했다. 그럼 결과가 역시 또 그렇게 될 수밖에 없는 거죠. 그렇기 때문에 데이터의 수집도 설계 당시에 굉장히 중요하게 고려되어야 할 부분이고 그다음에 전처리가 있습니다. 통계데이터나 전형적인 데이터도 전처리 부분이 있는데 텍스트 데이터는 전처리나 후처리 과정에서 굉장히 치밀한 설계가 필요하고 진행이 되어야 합니다. 단어들을 추출할 수 있는 데이터 소스를 가공하는 단계라고 설명할 수 있습니다. 그리고 단어를 추출하는 부분이 있습니다. 여기서는 실제로 수학적인 모델이나 알고리즘을 활용해서 필요한 단어들을 추출하는 것입니다. 무작정 단어들을 형태소 분석을 통해서 떨어뜨려 놓는 것이 아니라 예를 들면 문서 내에서 출현하는 빈도를 고려한다거나 고려해서 이 단어가 어떤 위상을 가지고 있구나를 값을 매기는 거죠. 그렇게 추출하는 방법들이 있습니다. 그러고 나서 최종적으로 그런 단어들, 문장들이 어떠한 의미 맥락을 가지고 있고 또 어떠한 담론도 있고 다른 의미들과 어떤 관계를 맺고 있느냐 이런 것들을 분석하는 단계가 정보 분석 단계입니다. 시각화도 하고 군집화도 하는 단계들이 있는 것입니다. 크게 네 가지 단계로 이루어지고 있다는 것을 알아두시면 되고 이후에 소개해 드릴 TEXTOM도 이렇게 네 가지의 텍스트 마이닝 과정대로 메뉴들이 구성되어 있습니다. 잘 보시면 그렇습니다. 실제로 분석된 결과들인데요. 텍스트 마이닝의 결과들, 통계분석의 결과들은 크게 빈도 분석, 설문조사에서 정리해서 결과를 낸다고 하면 남자 비율 몇 명, 응답자 비율 몇 명 이런 것들이 나오잖아요. 만족도가 5점 척도 중에 몇 점 이렇게 해서 기술 통계들이 나오고 텍스트 마이닝도 비슷한 절차들이 있어요. 그래서 이것은 모니터링 서비스라고 하는 플랫폼에 들어가 있는 텍스트 마이닝 결과들인데 보면 통계자료랑 같이 시계열 데이터들도 볼 수 있습니다. 이것이 뭐냐 하면 특정한 키워드로 검색된 문서량, 언급량들이 시간 변화에 따라서 어떻게 변화하고 있구나, 볼륨이 어떻게 변화하고 있구나를 보는 거고 특정 단어가 기타 다른 단어와 어떻게 연결되고 있는지 댓글 수는 얼마나 되는지 이런 일부 통계적인 데이터들과 비정형적인 데이터의 시각화를 동시에 보여 줄 수 있습니다. 그래서 데이터의 현황을 파악하는 데 주요하게 볼 수 있는 텍스트 마이닝의 결과라고 할 수 있고. 이것은 담론 분석이라고 할 수 있겠습니다. 담론 분석은 앞에서 설명해 드렸던 단순히 단어가 몇 개가 있고 문서가 옛날과 지금은 언급량이 얼마나 변했는지를 보여 주는 것에 넘어서 실제로 텍스트 이면에 숨겨진 담론과 의미와 맥락을 파악할 수 있게 도와주는 분석도 제공하게 됩니다. 이것은 청와대 국민청원 내부에 있는 텍스트 데이터를 가지고 분석한 것이고 담론 분석을 한 결과 이것이 일종의 군집분석이라고 할 수 있는데 여기서 청와대 국민청원에서는 적폐, 처벌, 교육, 안전, 인권, 평등, 형평성 이런 문제들에 대한 논의가 이루어지고 있다고 설명할 수 있는 자료입니다. 아까 앞에서 설명해 드렸던 것은 구체적인 텍스트 데이터 이면에 어떠한 의미들이 숨겨져 있고 내포되어 있는지를 알 수가 없는데 텍스트들을 다시 한번 가공을 해서 면밀히 살펴보면 이런 분석들도 가능하고 수많은 데이터와 텍스트 중에 핵심이 무엇인지, 무엇을 이야기하고자 하는 건지 어떤 텍스트 데이터인지를 가늠할 수 있게 해 주는 방법 이론이 담론 분석입니다. 더 나아가서 시맨틱 네트워크 분석입니다. 앞에 담론 분석 같은 경우는 군집화를 통해서 크게 어떠한 주제들로 논의가 되고 있는지 설명해 줬다면 시맨틱 네트워크는 어떤 특정한 이슈나 주제어 이런 것들이 어떤 의미와 맥락을 가지고 논의되고 있는지 살펴볼 수 있는 거예요. 그래서 SNS, 소셜미디어, 신문기사, 사설, 연설문, 개인 행위와 행동정보, 속성정보들을 다양하게 활용해서 어떠한 사람, 기관, 단체들이 될 수도 있고 그런 행위자들이 어떠한 맥락을 가지고 이야기를 하고 있고 담론을 하고 있고 이런 것들을 면밀하게 더 치밀하게 살펴볼 수 있는 것이 시맨틱 네트워크 분석 방법입니다. 여기서는 통계 분석도 활용할 수 있지만 특히 네트워크 분석에 특화돼서 활용할 수가 있고 특히 비정형 데이터를 통해서 지수화, 수치화 이런 것들도 가능합니다. 그것을 통해서 정량적인 분석도 가능한 분석 방법이 시맨틱 네트워크 분석입니다. 시맨틱 네트워크 분석은 네트워크 분석의 한 분야이기 때문에 각각의 노드와 엣지로 구성이 되어 있습니다. 노드는 단어, 단어, 단어가 될 수 있고 여기서는 행위자, 행위자, 행위자가 될 수도 있는데 개별적인 일종의 점이라고 생각하시면 되고 엣지는 그 점을 연결하는 선이라고 생각하시면 됩니다. 만약에 사람이라고 하면 나와 누군가의 관계를 선으로 표현한 거고 텍스트 데이터라고 하면 어떤 특정한 단어와 단어를 연결하는 의미와 의미를 연결하는, 맥락과 맥락을 연결시킬 수 있는 데이터 분석을 시맨틱 네트워크 분석이라고 이야기할 수 있겠습니다. 그래서 네트워크 분석은 기본적으로 매트릭스가 노데이터로 존재가 되어야 돼요. 보시는 바와 같이 0과1 혹은 이 안에 빈도수가 될 수도 있고 거리의 숫자가 될 수 있고 한데 기본적으로는 연결이 돼 있으면 1, 연결이 없으면 0이 되는 거죠. 1은 연결선이 있는 거고 0은 공백이 되는 거겠죠. 그래서 이러한 네트워크 분석이 가능하면 무엇을 도출할 수 있냐 하면 영향력이나 중심성으로 도출할 수가 있어요. 왜냐하면 나와 누군가의 사이 그리고 어떤 단어와 어떤 단어 사이를 연결하는데 그 연결 관계나 빈도와 단계에 따라서 이 단어, 이 사람은 되게 인기가 있구나 아니면 영향력이 있구나 중요한 단어다, 중요한 사람이구나를 판단할 수가 있는 겁니다. 그래서 중심성 분석이라고 하는 것들이 있는데 중심성 지표는 크게 연결정도 중심성, 근접 중심성, 매개 중심성으로 구분할 수 있습니다. 연결정도 중심성은 직접 연결되는 이웃 노드가 많을수록 연결 중심성이 높아지는 것이고 그것을 영향력으로 측정할 수가 있는 것을 연결정도 중심성이라고 할 수 있습니다 . 네트워크의 노드들이 얼마나 많은 연결을 가지고 있는지를 측정할 수 있게 됩니다. 그래서 연결정도 중심성이 직접적인 연결고리를 가진 국지적 범위에 한정되어 있는 연결정도가 측정되기 때문에 그런 중심성을 로컬중심성 의미가 강하다고 표현을 하게 됩니다. 근접 중심성은 큰 노드가 얼마나 네트워크 중앙에 위치하고 있는지 측정을 하는 거고 평균적으로 다른 노드들과의 거리가 짧은 노드의 중심성이 높고 근접 중심성이 높은 노드가 확률적으로 가장 빨리 다른 노드에 영향을 주거나 받을 수가 있습니다. 근접 중심성 네트워크 전역에서 가장 일반적인 영향력을 가지는 노드로 글로벌중심이 된다고 표현하기도 하고 네트워크에서 가장 중심이 되는 노드는 자기 자신이 가진 자원을 가장 빠르게 전체로 확장시킬 수 있는 확산의 역할도 가능하게 되는 겁니다. 여기서 주의해야 할 것은 매개 중심성이나 허브와는 조금 다른 개념이라고 생각하시면 돼요. 매개 중심성입니다. 매개 중심성은 다른 노드 간의 최단 경로로 경로를 많이 포함하고 있는 노드가 매개 중심성이 될 수 있고 그룹과 그룹 사이를 연결하는 데 중요한 역할을 하는 노드라고 볼 수 있습니다. 그래서 중재역할도 하고 의사소통을 제어할 수도 있고요. 그리고 한 노드가 네트워크 내의 다른 노드들 사이에 위치하는 정도를 측정하는 데 활용을 할 수가 있습니다. 지금 일부만 설명을 해 드렸는데 네트워크 지표들은 거시와 미시 지표로 나눌 수 있고 다양한 지표들이 보여질 수 있어요. 아까 말씀드렸던 통계에서는 빈도나 비율을 설명할 수 있었다면 여기서는 마찬가지로 노드의 개수는 몇 개냐, 연결선의 개수는 몇 개이고 그 연결선과 연결선이 끊어지지 않는 구성요소들은 몇 개인지 이런 것들도 판단하실 수 있습니다. 미시 네트워크 지표는 실제로 연결과 연결 관계의 단계 안에 들어가서 영향력이 어떠냐, 개별 노드들의 영향력이 어떤지를 살펴보는 여기서는 아까 설명해 드렸던 매개 중심성, 근접 중심성, 연결 중심성 등이 미시 네트워크 지표에 속한다고 할 수 있겠습니다. 구조적 공백을 아실 필요가 있어서 구조적 공백이라고 하는 것은 여기 그림에서 보시는 바와 같이 A라고 하는 행위자가 매개 중심성이 굉장히 높은 행위자가 되고 각각의 그룹과 군집들을 연결하는 중요한 역할인 것이죠. 그런데 보시면 그룹과 그룹 사이를 A가 연결하지만 그룹과 그룹이 직접적으로 연결되어 있지 못해요. 그래서 어떤 문제가 생기냐 하면 오른쪽에 보시면 구조적 공백이 없는 네트워크와 구조적 공백이 존재하는 네트워크로 구분이 되는데 구조적 공백이 없는 네트워크는 모든 사람이 다 알아요. 정보도 알고 그 사람의 성향이나 누군지 다 압니다. 그렇기 때문에 비밀을 감출 수가 없어요. 최근에 블록체인이 이러한 형태입니다. 비밀이 없이 모두가 공유되는 형태. 하지만 사회나 세상은 오른쪽에 보시는 구조적 공백이 존재하는 네트워크 형태로 존재하게 됩니다. 그래서 특정한 행위자가 각기 다른 영역에 있는 행위자 혹은 그룹을 통제를 하게 되는 거예요. 그래서 론이라고 하는 행위자가 헤르미온느라고 하는 행위자의 의견, 의중, 의미를 잘 모를 수 있고 해리는 대신에 그 둘을 다 알죠. 그렇기 때문에 론과 헤르미온느의 정보를 중간에서 가로챌 수도 있고 잘 전달할 수 있는 그런 형태가 네트워크에서는 발생할 수 있다는 것입니다. 이런 것도 설명해 드리는 이유는 담론분석이나 시맨틱 네트워크를 해석할 때 필요하기 때문에 그렇습니다. 담론분석 같은 경우는 언어 및 해석학적으로 담론을 분석을 해야 할 경우에 키워드를 군집화해서 단어들이 어떤 주제를 갖는지를 도출하는 방법 그리고 핵심이라고 할 수 있는 것은 관련성이 높은 단어들이 연관된 속성을 찾는 것이고 맥락적으로 고려할 수 있다는 점이 장점이라고 할 수 있겠습니다. 아까 사례에서 보여드렸던 CONCOR 분석이 사실은 담론분석이 되는 거예요. 공출현 단어 간의 구조적 등위성 아까 제가 말씀해 드린 네트워크 분석처럼 구조적 등위성이라고 하는 것은 위계 형태로 갖는 네트워크를 말합니다. 위에 크게 영향을 받는 다음 행위자가 있고 그 밑으로 각각 개별적으로 연결되어 있는 작은 컴포넌트 단위의 네트워크들이 있는 거예요. 그것을 구조적인 등위성이라고 하는데 연결 관계, 연결 형태, 연결선 이런 것들이 동일하거나 유사한 경우로 묶어 놓은 것이 바로 CONCOR다. CONCOR 분석을 하게 되면 연결 관계가 비슷하기 때문에 무엇을 추론할 수 있냐면 단어와 단어 간의 의미, 해석이 유사할 수 있다고 판단하는 겁니다. 그러면 같은 주제, 같은 단어들끼리 같은 영역에서 묶인 단어들은 이런 이야기를 하고 있다고 추론해서 설명을 하는 것이 CONCOR 분석을 담론으로 포장하는 방법이라고 할 수 있고 유사하게는 Clustering 분석이 있습니다. Clustering 분석도 CONCOR 분석과 마찬가지로 담론을 해석할 수 있지만 여기서 중요한 것은 방법이 네트워크의 단위 위계를 갖는 네트워크의 선에, 아까 구조적 공백을 말씀드렸던 것처럼 그런 것을 확인을 할 수가 있기 때문에 맥락을 해석할 수가 있어요. 구조적 등위성은 단순히 연결선의 형태만 가지고 판단하지만 Clustering은 연결선이 갖는 위상과 위치를 가지고 볼 수 있기 때문에 이 단어가, 이 행위자가 어떤 맥락과 의미에서 특정 단어와 특정 키워드와 연결되어 있구나를 보고 판단할 수가 있습니다. 그래서 담론 분석은 주제를 보는 데 용이하다면 Clustering은 텍스트의 의미를 부여하거나 해석하는 데 더 용이하다고 할 수 있겠습니다. 구조적 등위성은 아까 말씀해 드렸던 것처럼 계층을 갖는 네트워크라고 할 수 있고요. 그리고 가설검증이라는 것이 있어요. 이것은 제가 강의하는 것이 초급 단계의 텍스트 마이닝이기 때문에 QAP는 잠깐 소개만 하겠습니다. QAP 검증이 뭐냐 하면 텍스트 데이터는 통계 데이터처럼 상관 분석이나 인과 관계를 알기가 힘들어요. 그래서 단어들의 조합이나 연결선의 구조를 시뮬레이션해서 통계화시킨 다음에 그것을 가지고 상관성이나 인과 관계를 도출할 때 쓰는 분석 방법이라고 할 수 있겠습니다. 이렇게만 보시면 될 것 같고. 결과들은 이렇게 나타나게 되고요. 감성분석은 두 가지의 감성분석이 있어요. 하나는 단어에서 감성을 찾는 것이 있고 다른 하나는 문장에서 감성을 찾는 방법이 있습니다. 수십만 건의 댓글, 기사 이런 것들이 긍정인지 부정인지 일일이 확인하면서 우리가 볼 수 없기 때문에 머신러닝 기법을 통해서 학습 셋을 만들어요. 일종의 학습 셋을 만들어서 긍정과 부정을 나누고 학습 셋을 통해서 실제 테스트를 해 보는 거죠. 방대한 양의 데이터들 중에 긍정과 부정의 얼마만큼 분류되는지를 보는 분석 방법이 있고 다른 하나는 담론이나 Clustering 분석을 할 때 단어, 단어, 단어마다 감정을 내포하고 있는 단어를 태깅을 하면서 맥락을 해석하는 방법이 있습니다. 이렇게 두 가지 방법으로 나눌 수 있다는 것을 말씀해 드릴 수 있겠습니다. 이렇게 감성분석의 결과들이 나오는 거고요. 토픽 모델링은 말 그대로 주제를 분류할 때 사용합니다. 텍스트 자료의 의미 있는 단어를 확률적인 방법으로 주제별로 그룹화시키는 방법이고 기본적으로는 문서 내에 출현하는 단어들이 다른 문서 내에 출현하고 있는 단어들과 공통으로 출현했을 경우에는 출현할 빈도가 확률적으로 높다고 판단해서 주제를 정해주는 것은 아니고 상위에 노출되게 만들어 놓고 노출된 단어들의 우선순위를 매긴 다음 우선순위를 그룹화시키면 각각의 주제들이나 맥락을 파악할 수 있는 토픽을 형성하는 방법입니다. 토픽 모델링의 시각화 결과들이죠. 이것은 나중에 실습을 하실 때 자세하게 설명해 드리도록 하겠습니다. 분석 사례는 자료를 보시면 될 것 같고 이렇게 실제로 논문이나 보고서 형태에서 아까 말씀해 드렸던 CONCOR나 감성분석이나 시맨틱 네트워크 분석 방법들이 다양하게 사용하고 있습니다. 여기까지 빅데이터 분석의 종류와 이해를 들으셨고 TEXTOM이라고 하는 분석 도구, 분석 툴 그리고 TEXTOM이 지원해 주는 텍스트 마이닝이라고 하는 분석 방법이 빅데이터와 어떻게 연결되어 있고 연결되어 있는 텍스트 마이닝 분석방법론이 어떻게 활용하고 결과를 이끌어 내는지를 간단하게 소개해 드렸습니다. 다음 시간에는 실제로 TEXTOM이라는 분석 툴을 소개를 하고 그리고 아까 4단계의 절차를 말씀해 드렸는데 TEXTOM이 그 절차에 따라서 어떻게 움직이고 어떻게 사용하는지를 조금 더 구체적으로 설명해 드리도록 하겠습니다. 그러면 1강 마치도록 하겠습니다. 수고하셨습니다.

이 강좌의 강의

1강. 빅데이터 분석의 종류와 이해재생 중
2강. 텍스톰 소개&데이터 수집과 전처리
3강. 텍스트마이닝과 시각화
4강. 매트릭스와 시각화
5강. 감성분석과 시각화
6강. 토픽분석과 시각화
7강. 시계열분석과 시각화
8강. 담론분석과 시각화(1)
9강. 담론분석과 시각화(2)

쉽고 빠른 빅데이터 분석, 텍스톰강좌 자세히 보기