ADsP 2주 합격 올인원 패스 : 2주 안에 데이터 분석 자격증 마스터하기 강좌의 맛보기 강의입니다.
빅데이터의 아주 중요한 기술들을 좀 살펴보도록 하겠습니다 첫 번째가 데이터 웨어하우스고요 두 번째 볼 수 있는 게 저희가 데이터 레이크라는 거예요 데이터 웨어하우스와 데이터 레이크의 차이는 반드시 좀 알고 계셔야 되는 부분이 있고요 데이터 마이닝 이란 얘기도 굉장히 많이 들으셨죠 비슷비슷한 용어이긴 하지만 굉장히 다른 의미로 좀 쓰고 있기 때문에 시험에도 중요하고 또 실제적으로도 저희가 좀 다르게 구분해서 좀 써야 되는 용어들이구요 좀 빅데이터 기술로 저희가 쓸 수 있는 것들이자 요새 많이 나오는 분산 기술인 하둡 얘기 많이 나오죠 그 다음에 아파치 스파크 그 다음에 스마트 팩토리 그리고 아마존 이렇게 좀 필요한 내용들을 정리를 좀 해보도록 하겠습니다 첫 번째로 데이터 웨어하우스에 대한 빅데이터 기술에 대해서 한번 알아보도록 하겠습니다. 데이터 웨어하우스는 데이터베이스보다 훨씬 더 큰 개념이에요. 그래서 기업에서 저희들이 모든 필요한 데이터 데이터베이스뿐만 아니라 기본적으로 데이터 트랜잭션 시스템이랄지 아니면 하둡에서 갖고 오는 모든 데이터, 분산 처리 시스템에서 들고 오는 모든 데이터를 다 축적해 놓은, 회사, 기업에서 필요한 모든 데이터가 축적된 곳이라고 생각하시면 좋을 것 같습니다. 사용자의 어떤 의사결정을 도움을 주기 위해서 기관 전체 시스템의 데이터베이스가 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스 형태이고요. 데이터 웨어하우스를 통해서 보다 이런 정보에 입각해서 의사결정을 내릴 수 있도록 해주는 그런 기능을 갖고 있는 거고요. 또한 이 데이터는 어떤 데이터를 포함하는 거냐면 트랜잭션 관련된 시스템의 데이터, 관계형 데이터베이스, 저희가 말하는 RDB 릴레이셔널 데이터베이스뿐만 아니라 기타 소스로부터 정기적으로 데이터가 크롤링해오거나 이런 데이터도 있을 수 있거든요. 그런 데이터도 포함하고요. 비즈니스 애널리스트나 데이터 엔지니어 또는 데이터 사이언티스트 및 기타 의사결정 권한을 갖고 있는 사람, 의사결정권을 갖고 있는 사람들이 다양한 도구를 통해서 데이터 웨어하우스에 접근할 수 있도록 해줘야 되는 거거든요 그래서 우리 기업이 갖고 있는 모든 데이터를 통틀어서 그냥 데이터 웨어하우스에 다 저장해서 저희가 갖고 있다 그걸 통해서 의사결정을 하게 된다 여러 사람들이라고 생각하시면 좋을 것 같습니다 데이터베이스를 포괄한 굉장히 큰 범위의 기관에서 사용하는 또 내부적으로 저장되어 있는 형태가 바로 데이터 웨어하우스다 데이터 웨어하우스는 4가지 특성을 가지고 있습니다. 주제지향성 통합성 시계열성 비휘발성 주제지향성은 데이터를 주제별로 구성하는 것입니다. 최종사용자와 전산의 약한 분석자라도 이해하기 쉬운 형태로 되어 있어야만 합니다. 주제에 따라서 구성을 다시 한다는 얘기죠 두 번째는 통합성인데 데이터가 데이터 웨어하우스에 들어갈 때 일괄적인 형태로 변환돼서 들어가야 된다는 얘기죠 통합돼서 예를 들면 데이터의 이름이랄지 아니면 변수의 측정 방법이랄지 일관된 코드와 구조로 바뀌어서 통합되어 있어야 되는 게 데이터 웨어하우스가 갖춰야 되는 특성 두 번째고요 세 번째는 시계열성인데요 데이터 웨어하우스의 데이터는 일정 기간 동안만 정확성을 가지고 있다 라고 보시면 되겠습니다 그래서 이런 특성을 들어 저희가 시계열성을 지녀야 된다 라고 보고 있고요 그 다음에 네 번째는 비휘발성인데 일단 데이터 웨어하우스에 데이터가 적재가 되고 저장이 되면 일괄 처리 작업을 위해서 갱신하는 거 외에는 인서트나 딜리트 변경 작업은 되지 않고요 단순히 사용자에 있어서 검색 작업만 가능할 수 있도록 해주는 거죠 그래야 이제 데이터가 영원히 저장이 되는 거니까요. 이런 성질을 저희가 비휘발성이라고 부릅니다. 데이터 웨어하우스의 네 가지 특성은 주제지향성, 통합성, 시계열성, 비휘발성이죠. 네 가지가 있습니다. 자 그러면 데이터 웨어하우스가 어떻게 구성되어 있는지 한번 살펴보도록 할게요 데이터 웨어하우스는 기본적으로 아주 커다란 저장소죠 커다란 저장소고 모든 데이터가 기업에 필요한 모든 데이터가 담겨져 있는 곳이다 라고 생각하시면 좋겠고 기업에서 쓸 수 있는 모든 데이터는 어쨌든 데이터 웨어하우스에 다 담겨 있어야 돼요 그래서 이 데이터 웨어하우스는 여기 있는 데이터 웨어하우스를 구축하는 게 저희의 궁극적인 목적인 거고요 그렇다면 이걸 구성할 때 데이터 자체가 기업 내부의 데이터도 있고 외부의 데이터도 있죠. 다 데이터라는 게 내부에만 있을 수는 없으니까요. 필요한 데이터가 지금 빅데이터 같은 경우에는 내부 데이터도 중요하지만 외부의 데이터도 크롤링해서 오는 방법도 여러 가지 방법이 있고 또 오픈 API를 통해서 가져온 방법도 있고요. 다양한 방법으로 내부 말고는 외부 또는 외부 데이터를 다 취해와야 되기 때문에 그리고 모든 데이터를 저희가 모아서 분석을 해야 되지 않겠습니까 그래서 기업 내부의 데이터는 기본적으로 저희가 데이터 모델을 통해서 기본적으로 ERD 형태로 저희가 이미 모델로 구축된 형태가 되게 많죠 이렇게 해서 데이터베이스화 된 게 많고요 기업 내부 데이터는 가져오는 건 비교적 어렵지 않습니다 기업 외부 데이터 같은 경우에는 저희가 일단 익스트랙트 해야 돼요 다시 말하면 제가 갖고 있는 데이터가 아니니까 외부에서 갖고 와야 되는 데이터 또는 내부도 마찬가지지만 기본적으로 익스트랙트 한다는 것은 밖에서 가져오는 게 훨씬 많고요 데이터를 추출하고 추출한다면 어떻게 해야 될까요 우리 데이터 웨어하우스에 저장하려면 일정한 형태로 변경해야 되는 거죠 필요한 모두 다 크롤링해서 데이터를 가져왔지만 전체 데이터가 다 저장될 이유는 없잖아요 필요한 데이터가 또 데이터가 선별되고 또 필요한 데이터가 또 정제가 되기도 하고 이래야 되는 거니까 정제하고 가공을 거치는 거죠 그리고 나서 저장을 데이터베이스에 적재를 해야 되는 그런 과정이기 때문에 크게 내부 데이터와 외부 데이터를 가져올 때 여러 가지 방법이 있지만 기본적인 방법은 ETL이라는 방법을 써요 ETL은 Extract 추출하고 변경시키고 그 다음에 적재하고 이런 과정을 거치고 있는 게 ETL이라고 보시면 좋을 것 같고요 ODS라는 방법이 있어요 ODS 여기 두 번째 있죠 데이터를 가져오는 방법이죠 데이터를 저희들이 추출해 오는 방법도 있지만 ODS라 그래서 기본적으로 DBMS로 이미 구축된 데이터베이스로 구축된 것들이 많아요 거기서도 데이터를 통합적으로 SQL이나 이런 언어를 통해서 통합적으로 관리하고 또 추출해 와야 되겠죠 그래서 이런 데이터들이 다 모인 곳 추출해서 모이고 데이터베이스 기본적으로 있던 걸 가지고 모아 놓은 아주 커다란 저장소가 자, 저장소가 바로 데이터 웨어하우스가 되는 거죠. 그러면 이렇게 저장된 데이터 웨어하우스가 구축이 됐어요. 그럼 어떻게 할까요? 이걸 이제 활용하는 여러 가지 방법이 있어야 되겠죠. 구축을 하는 이유는 활용하기 위해서니까요. 그래서 활용이 크게 4가지 방법으로 이루어진다 라고 보시면 좋을 것 같습니다. 이렇게 내 외부 데이터를 가져와서 구축된 데이터 웨어하우스를 사용하는 방법은 4가지 방법으로 크게 구성할 수가 있을 거예요. 활용하는 방법은 첫 번째 가장 전통적인 방식 OLAP가 있구요 OLAP는 사용자가 온라인으로 직접 붙어서 데이터를 가져와서 본인이 원하는 데이터를 확인한 후에 활용할 수 있는 그런 솔루션을 OLAP라고 얘기를 하구요 두 번째 방법은 이렇게 굉장히 많은 데이터가 모여졌기 때문에 데이터 마이닝이라는 기법을 쓸 수가 있죠 데이터 마이닝이라는 것은 마이닝은 추출하다 이런 뜻인데 대용량의 데이터 이렇게 쌓여져 있는 데이터로부터 인사이트를 도출하는 방법론을 데이터 마이닝이라고 그러죠 그리고 세 번째가 이제 다양한 분석 도구를 이용해서 데이터 마이닝을 활용해서 데이터 웨어하우스에 적재되어 있는 데이터를 분석할 수 있는 분석도구를 활용해서 저희가 데이터 분석을 진행할 수 있을 거고요. 또는 기존의 경영 기반의 솔루션들이 있어요. 이런 데이터를 통해서 KMS나 DSS나 ERP 같은 경영 의사 결정을 지원하기 위한 다양한 솔루션이 활용될 수가 있겠죠. 그래서 일단 데이터 웨어하우스는 뭘 해야 되냐 내부든 외부든 데이터를 추출해서 가져와야 되는 거기 때문에 ETL이라는 방법과 ODS라는 방법으로 데이터 추출해서 저희가 적재를 해 놓으면 데이터 웨어하우스가 생성이 되는 거고 이렇게 생성된 데이터 웨어하우스를 가지고 4가지 방법으로 다양하게 저희가 활용해서 쓸 수 있다 라고 보시면 될 것 같습니다 빅데이터 기술 용어에서 알아야 되는 게 데이터 웨어하우스라는 아주 커다란 저장소가 있었죠. 모든 데이터를 내 외부 데이터를 다 모아다가 기업에서 쓸 수 있게 저장된 형태가 바로 데이터 웨어하우스라고 본다면 거기에 반해서 데이터 레이크라는 개념도 굉장히 요새 많이 쓰고 있습니다. 데이터 호수, 데이터 댐 이런 얘기 되게 많이 들으셨죠. 그걸 데이터 레이크라고 볼 수 있는데요. 데이터 레이크는 아까 데이터 웨어하우스하고 굉장히 좀 다른 게 있어요. 뭐가 크게 다르냐면 데이터 웨어하우스는 저희가 밖에서 데이터를 익스트랙트 추출하고 그런 다음에 트랜스폼을 했죠 트랜스폼을 했다는 얘기는 뭐냐면 저희 입맛에 맞게 가공 처리를 해버린 거예요 그거를 저희가 적재했죠 로드하고 저장해서 사용하는 건데 그렇게 되면 빅데이터 분석 관점에서 그렇게 가공 처리된 데이터를 가져다가 하시면 별로 좋은 인사이트를 찾을 수 없는 경우가 굉장히 많습니다 그래서 데이터 분석을 하려면 원본의 데이터 전혀 가공처리가 되지 않은 날것의 데이터가 필요해요. RAW, 로우 데이터가 필요하죠. 그런 로우 데이터를 모아놓은 곳이 바로 데이터 레이크라고 보시면 돼요. 그래서 현재 정의된 목적이, 아까는 정의된 목적이 있었어요. 회사, 기업의 입맛에 맞게 다 가공처리가 된 것들이 데이터 웨어하우스라면 데이터 레이크는 전혀 그렇지 않고요. 그냥 단순히 데이터들이 발생되면 데이터를 그냥 모아놓은 곳이에요. 그러니까 순수하게 원본 그대로죠. 가공처리가 전혀 되지 않아서 오히려 데이터 분석할 때는 굉장히 좋은 데이터로 급부상하고 있는 게 바로 데이터 레이크라는 개념이죠. 현재 정의된 목적이 없는 비정형 원시 데이터를 저장하고요. 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 레포지토리 용어를 가지고 있습니다. 데이터 레이크는 그러니까 당연히 가공 처리하면 불필요한 거 버리고 이럴 텐데 원본 그대로 저장하기 때문에 굉장히 많은 저장소 양이 필요하겠죠 그래서 대부분 저장소는 스키마가 없는 큰 규모의 구조를 지향하기 때문에 일반적으로 하둡이나 HDFS 같은 에코 시스템을 이용하는 것들을 지향하고 있는 거죠 그래서 데이터 레이크는 아주 커다란 저장소가 필요하다 원시 데이터 가공 처리하지 않은 데이터를 데이터 레이크로 하고 데이터 레이크가 오히려 데이터 분석 측면에서는 아까 말했던 데이터 웨어하우스보다는 좀 더 좋은 인사이트를 제공해 줄 수가 있는 거다 라고 생각하시면 좋을 것 같습니다 세 번째로 보는 용어는 데이터 마이닝인데요. 데이터 마이닝은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적인 규칙이나 어떤 특정한 패턴을 찾아내는 그런 인사이트를 찾아내는 과정들을 바로 데이터 마이닝이라고 말하고요. 데이터 마이닝은 굉장히 다양한 분야에서 오랫동안 써왔던 그런 기법입니다. 그래서 탐색적 자료 분석이나 가설 검정, 시계열 분석 또는 요즘 뜨는 신경망들 이런 데서도 많이 활용되고 있는 거라고 생각하시면 좋겠고요. 대규모의 저장소에서 우리가 원하는 데이터 안에서 특정한 패턴을 찾는 그런 방법들을 데이터 마이닝이라고 보시면 되겠습니다. 다음으로 살펴볼 것은 빅데이터 기술인데요. 하둡과, 아파치 스파크, 스마트 팩토리, 아마존 이렇게 4가지만 한번 설명해 보도록 하겠습니다. 첫 번째 하둡 얘기를 좀 해보면 하둡은 분산 처리 시스템으로 가장 유명한 기술인 거죠 하둡은 대규모의 분산 병렬 처리 시스템의 업계 표준으로 불리고 있어요 그게 바로 MapReduce라는 시스템하고요 분산 파일 시스템 두 가지로 구성되어 있고요 MapReduce는 말 그대로 분산 처리하기 위해서 필요한 게 Map하고 Reduce 두 가지로 구성되어 있는 기능이거든요 그래서 Map하고 Reduce를 통해서 분산 처리를 하게 되고 거기에 해당되는 다양한 파일들이 필요할 때에는 분산 파일 시스템인 HDFS로 구성되어 있어요. 분산 파일 시스템 같은 경우에는 수천 대의 장비의 대용량의 파일을 저장할 수 있는 기능을 파일 저장 기능으로 쓰고 있는 거고요. Map하고 Reduce 두 가지가 붙은 기능이죠. MapReduce 기능은 이렇게 저장되어 있는 분산 파일 시스템에 저장되어 있는 대용량의 데이터를 대상으로 해서 SQL을 이용해서 사용자가 질의를 실시간으로 할 수 있게, 실시간이 굉장히 중요한 거죠. 실시를 하고 처리할 수 있는 기술을 보완하고 있는 게 MapReduce인데 이런 하둡이 구성되어 있는 여러 가지 기능 중에 쓰다 보니까 좀 부족한 기능이 있어요. 그런 기능을 보완하기 위해서 하둡의 에코 시스템이 등장해서 좀 더 완벽해지는 기술로 가고 있다고 보시면 좋을 것 같습니다. 그래서 우리가 분산 병렬 처리의 업계 표준의 시스템이 바로 하둡이기 때문에 빅데이터 기술에서는 빼놓지 않고 나오는 용어 같습니다. 중앙 처리 시스템을 쓸 때 굉장히 큰 하드웨어 장치 또는 고성능의 하드웨어 장치나 아주 커다란 저장소가 있으면 좋겠지만 비용도 워낙 많이 들고요 그래서 비용을 좀 저렴하게 해서 데이터 분석을 할 수 없을까 또는 여러 가지 처리를 좀 할 수 없을까 라는 그런 아이디어에서 이제 출발한 게 하둡인 거죠 그래서 말 그대로 시스템이 컴퓨터가 1000대 컴퓨터 PC 있죠 PC가 수천 대 모여서 만약에 그게 구성되어진다면 마치 커다란 중앙 처리 시스템, 다시 말하면 커다랗게 저희가 돈을 많이 들인 CPU나 메모리를 갖고 있는 서버급에 해당되는 컴퓨터를 보완할 수 있다는 아주 큰 장점을 가지고 된 거죠. 그래서 하둡 시스템이 지금의 사실은 빅데이터 기술이 성장하도록 굉장히 큰 영향력을 미친 그런 기술이라고 보시면 좋을 것 같습니다. 두 번째로 보는 빅데이터 기술은 아파치 스파크인데요. 이거는 다른 시스템과 다르게 그냥 실시간 분산형이 되는 것 특히 실시간이 가능하다는 게 굉장히 큰 메리트인 거죠 그래서 실시간으로 분산형 컴퓨터 플랫폼으로 쓸 수가 있는 거고요 다양한 언어 스칼라로 원래 작성되어 있었지만 요즘은 자바나 파이썬, R을 통해서 지원하고 있는 게 아파치 스파크고요 인메모리 방식으로 처리했기 때문에 하둡에서 처리 속도가 굉장히 크게 빠르고 빨라졌다는 것이 굉장히 큰 장점 중에 하나입니다 3. 스마트 팩토리 공장 내 설비나 기계에서 사물인터넷이 설치돼서 공정 시스템이 실시간으로 수집되고 데이터에 기반한 의사결정을 함으로 인해서 생산성을 극대화할 수 있는 기술들 바로 스마트 팩토리라고 볼 수가 있겠습니다 또 마지막 기술에 보시면 아마존이라는 클라우드 업체가 있죠 클라우드 서비스를 최초로 실현한 곳이기 때문에 시험 문제도 자주 나오고 또 언급이 되는 것 같아서 아마존에 관해서도 아마존은 최초로 클라우드 서비스를 실현한 회사입니다. 서비스 이름이기도 합니다. 아마존도 기억해 놓으시면 좋을 것 같습니다.
