Gephi를 활용한 데이터 시각화
이 강의를 듣고 나면
- 데이터셋을 네트워크 그래프로 빠르게 시각화할 수 있고, 기본적인 그래프 이론을 통해 간단히 분석할 수 있습니다.
- 네트워크 모델을 통해 의사결정에 필요한 인사이트를 얻을 수 있습니다. 예를 들면 콘텐츠 사이의 관계를 파악해서 효과적인 묶음 상품을 기획하거나, 중요도가 높은 커뮤니티를 판별하여 타겟 마케팅을 진행할 수 있습니다.
수강대상
- 네트워크 데이터 분석을 빠르게 시작하고자 하는 분
- 그래프 이론을 눈으로 보면서 입문하고자 하는 분
- 애널리틱스 데이터를 통해 인사이트를 얻고자 하는 분
- 행동 관계 데이터를 분석하여 의사결정에 도움을 받고자 하시는 분
스토리
데이터의 시대입니다. 빅데이터라는 말이 생길 정도로 데이터는 어느 곳에나 있습니다. 그 많은 데이터는 어디에서 생길까요? 바로 "관계"에서 생성됩니다. SNS에서의 팔로우, 인터넷을 통한 사이트 접속, 재화의 거래, 메신저를 통한 의사소통, 협업을 통한 참여 등등, 소스는 아주 많죠.
우리는 관계에서 데이터를 얻습니다.
그리고 역으로, 그 데이터에서 실제 관계를 유추할 수도 있습니다.
세상이 복잡해지면서 그 관계들은 모두 통신망, 신경망, 사회관계망, 전력망, 거래망 등등 네트워크가 되어 얽히고 섥히게 되었습니다. 데이터 분석은 이런 복잡한 세상에서 미래를 예측하고 전략을 짜기 위해 등장했죠. 네트워크 분석은 그런 데이터 분석의 여러 분야 중 독특하고 매력적인 한 분야입니다. 어떤 Stuff와 Stuff의 관계에 대해서 뜯어보고 싶으시다면 네트워크 분석에 꽤 매력을 느끼실 겁니다.
곧 다가올 100년은 복잡성의 시대가 될 거라고 생각합니다.
- 스티븐 호킹, 2000년 1월.
우리는 이 강좌에서 Gephi라는 강력한 시각화 툴을 사용합니다. 이 툴은 데이터셋만 있으면 아무것도 모른 채로 바로 그럴듯한 결과물을 만들어낼 수 있을 정도로 강력합니다. 하지만 기능을 풍부하게 사용하고 결과의 맥락을 이해하려면 이론적인 바탕에 대한 기본적인 지식이 필요합니다.
데이터 분석은 이론적으로 깊이 들어가면 선형대수와 확률/통계가 뛰어노는 필드입니다. 하지만 이 강좌에서는 시각화와 분석에 초점을 맞출 것이고, 이론적인 부분은 직관적으로 이해할 수 있도록 수식을 최소화하면서 설명하겠습니다.
참고로 이 강좌에서는 데이터셋을 어떻게 마련하는지는 다루지 않습니다. 실습에 필요한 데이터셋은 강좌에서 제공해드립니다. 실제 본인의 데이터를 사용하고 싶으시다면 크롤링을 통해 얻으시거나 애널리틱스 툴에서 가져와야 합니다.
미리 준비할 것
- PC 또는 Mac 또는 Linux가 설치된 PC가 필요합니다.
- Gephi라는 무료 소프트웨어를 사용합니다. 0.9.2버전이고, 설치 방법은 강의에서 알려드립니다.
- 컴퓨터 사양이 지나치게 떨어질 경우 연산 속도가 다소 느릴 수 있습니다. 강의를 듣는 데에는 크게 지장이 없을 겁니다.
- 배경지식으로는 지수, 로그, 정규분포가 뭔지 들어보신 적이 있으면 됩니다.