01 데이터와 정보, 02 데이터베이스 정의와 특징

데이터분석준전문가(ADsP)자격 취득 과정(2023) 강좌의 맛보기 강의입니다.

강의 대본

ADSP 본강의 진행을 하도록 하겠습니다. 즉 1과목 데이터 이해 파트라 할 수가 있고 1장이 데이터의 이해입니다. 크게 3개의 소제목으로 구성이 되어 있다 할 수가 있겠습니다. 데이터와 정보, 데이터베이스의 정의와 특징, 데이터베이스의 활용이라 할 수가 있겠습니다. 기본 카테고리는 데이터를 바탕으로 해서 거기서 분기가 되는데요. 여러 개념들이 우리 시험에서는 주기적 패턴이라는 말을 제가 자주 쓰게 됩니다. 우리 시험은 그동안 30회가 넘도록 실행이 되었고 그동안에 쌓여진 기출문제만 하더라도 거의 1,500문제에 달한다 할 수가 있겠습니다. 이와 같은 데이터 기반을 통해서 우리 시험 문제 꼭 반드시 등장하게 되는 핵심 키워드 출제 포인트가 등장한다 할 수 있다는 점 강조해서 말씀을 드리고 따라서 우리가 ADSP를 준비함에 있어서 가장 기반이 되는 것, 근간이 되는 것은 무엇이냐면 그동안에 반복적으로 출제됐던 키워드를 중심으로 해서 기본 골격을 만들고 거기서 약간 그보단 의미가 떨어지고 출제 빈도는 약하지만 그와 같은 가지를 만들어서 여러분이 학습하는 데 있어서 시험 학습을 다 종료하고 난 다음에 시험에 임하실 때는 내가 합격할 가능성이 높다라고 스스로 느끼게끔 해주는 강의라 할 수가 있겠습니다. 데이터와 정보, 첫 번째 학습 목표라 할 수가 있겠습니다. 데이터의 이해를 바탕으로 데이터와 정보의 관계를 알아보는 거라 할 수가 있겠습니다. 데이터와 정보는 다른 의미죠. 그러면 데이터로부터 어떤 용어들이 파생되어 있는지 확인하는 시간이라 할 수가 있겠습니다. 우리 학습 포인트, 굉장히 중요한 부분이라 할 수가 있는데요. 저는 학습을 할 때 이거는 굳이 ADSP뿐만 아닙니다. 빅데이터 분석 기사도 마찬가지고 ADP도 마찬가지예요. 각 목차별로 중요 키워드를 정리하는 거 상당히 중요한 학습 방법이라고 할 수가 있겠습니다. 학습 포인트는 무엇이 있느냐? 데이터의 정의가 중요하고 두 번째는 이 데이터 정의로부터 나오게 된 개념이 정량적 데이터와 정성적 데이터로 다시 개념이 구분이 됩니다. 또한 어떻게 지식이 만들어지는지, 즉 데이터를 이용해서 어떻게 지식이 만들어지는지와 관련된 개념, 암묵지와 형식지가 등장하게 되고요. 맨 마지막에는 우리 DIKW 계층적 피라미드 구조를 통해서 과연 데이터와 정보, 지식과 지혜 어떻게 구분하는지가 우리 시험문제 출제 포인트라고 할 수가 있겠습니다. 첫 번째는 데이터의 정의입니다. 데이터의 정의는 두 개의 특징으로 구분한다 할 수가 있겠습니다. 여기서 말하는 데이터는 개별 데이터입니다. 개별 데이터는 말 그대로 객관적 사실이라고 할 수가 있고 이 특징을 우리는 존재론적 특징이라 할 수가 있겠습니다. 두 가지, 두 번째 특징이 있는데요. 이런 데이터들이 쌓여서 모이게 되면 서로 비교하게 되고 그럼으로 인해서 어떤 결론에 도달하게 되는데요. 즉 추론과 예측, 전망, 추정을 하게 되는 특징, 당위적 특징이라 할 수가 있겠습니다. 그럼 여러분 어떻게 정리합니까? 데이터라는 것은 존재론적 특징이 있고 당위적 특징이 있다. 존재론적 특징이라는 것은 말 그대로 개별 데이터의 객관적 사실을 의미한데 이것은 중요하지 않은 객관적 사실입니다. 데이터는 서로 비교할 때 의미가 있는 것이지 예를 들자면 개별 데이터 한 개밖에 없는데 그걸 평균을 구해서 뭘 할 거며 또는 표준편차를 구해서 무엇을 할 건가요? 즉 여러 데이터가 쌓여 있을 때 서로 상호 비교할 때 데이터는 가치가 있다는 것 핵심 키워드라고 할 수가 있겠습니다. 자, 두 번째 당위적 특징이라는 건 뭘까요? 이런 데이터들이 모여 있음으로 인해서 어떤 결론을 우리는 예측할 수가 있습니다. 이것이 우리는 당위적 특징이라고 할 수가 있겠죠. 자, 이와 관련된 출제 포인트, 퀴즈라는 것은 그동안에 출제됐던 기출문제 유형이라 할 수가 있겠습니다. 한번 확인해 보도록 할게요. 1번, 다음은 데이터 정의에 관한 설명이다. 가장 부적절한 것은 물어봤습니다. 1번, 객관적 사실입니다. 객관적 사실이라는 것은 여기서 개별 데이터를 의미한다 할 수가 있겠습니다. 두 번째는 이와 같은 데이터는 추론과 추정의 근거를 이루는 사실이다. 바로 당위적 특징을 의미한다 할 수가 있겠죠. 세 번째는 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실이다. 중요한 객관적 사실이다. 제가 좀 전에 말씀드렸듯이 첫 번째 존재론적 특징에서 개별 데이터, 그 하나로는 아무런 의미가 없는 객관적 사실이라 할 수가 있겠습니다. 따라서 정답은 3번이라 할 수가 있고요. 4번, 데이터는 단순한 객체로서의 가치와 다른 객체와의 상황 속에서 가치를 갖는다 할 수가 있겠습니다. 즉, 데이터가 쌓여 있을 때 데이터를 상호 비교함으로 통해서 그 데이터가 갖고 있는 의미를 우리는 파악할 수 있는 것이 바로 데이터라 할 수가 있겠습니다. 따라서 정답은 3번이라 할 수가 있고 물론 정답을 확인하는 것도 중요하지만 우리 ADSP 시험의 출제 유형, 경향을 파악하는 것이 더 중요하다 할 수가 있겠습니다. 두 번째는 데이터 유형이라 할 수가 있겠습니다. 데이터는 객관적 사실로서 정량적 데이터와 정성적 데이터로 구분한다 할 수가 있겠습니다. 정성적 데이터는 언어와 문자 등을 이용해서 우린 수치화할 수 없는 것, 어떤 만족도, 선호도 의미하는 것 다 정성적 데이터라 할 수가 있겠습니다. 하지만 정량적 데이터라는 것은 수치와 도형, 기호를 이용하되 수치화할 수 있는 것은 다 모두다 정량적 데이터라고 할 수가 있겠죠. 여러분 간단하게 생각을 해서 여러분 설문조사를 하게 되는데 만약에 서술형으로 대답을 하게 되면 당연히 정성적 데이터라고 할 수가 있고 어떤 설문조사를 하되 수치화할 수 있는 코딩을 할 수 있는 것들은 다 모두 다 정량적 데이터로 구분하시면 된다 할 수가 있겠습니다. 우리 시험은 1년에 4번 정도 시행되는 데이터 검정 시험이라 할 수가 있고 이와 같은 정성적, 정량적 데이터를 구분하는 거 1년에 한 번 정도 출제 빈도를 갖고 있는 개념이라 할 수가 있겠습니다. 이렇게 정량적이라는 것은 자료를 수치화한 것이고 정성적이라는 것은 자료의 성질, 특징을 자세히 풀어 쓰는 방식이라 할 수 있고 숫자나 금액으로 환산할 수 없는 거 바로 정성적 데이터라 할 수가 있겠습니다. 우리 퀴즈 문제 확인해 보도록 할게요. 지역별 온도, 풍속, 강우량과 같이 수치로 명확하게 표현되는 이것은 데이터의 양이 크게 증가하더라도 이를 관리하는 시스템의 저장, 검색, 분석하여 활용하기가 매우 용이하다고 할 수가 있는데요. 예를 들자면 우리 정량적 데이터라는 건 수치화할 수가 있고 따라서 분석하기 용이하고 관리하기 편하다는 데이터의 형태라 할 수가 있겠습니다. 하지만 정성적 데이터는 뭘까요? 말 그대로 여기서 소셜미디어 많이 하시잖아요. 그 데이터 긁어 모아서 특정 저장소에 저장하게 되는데 아무래도 비용도 많이 들고 분석하기가 어렵습니다. 이와 같은 정량적과 정성적 데이터의 특징 구분하는 거 다시 한번 강조해서 말씀을 드리도록 하겠습니다. 해당되는 보기의 설명은 정량적 데이터라 할 수가 있고 이와 같은 형태가 바로 ADsP의 단답형 형태라 할 수가 있겠습니다. 거듭 강조해서 말씀드리지만 우리 시험에서 단답형이라는 것은 서술 형태가 아니에요. 간단한 기본 용어에 대한 정의의 답을 하는 문제라는 거 다시 한번 강조해서 말씀을 드리고 우리 첫 번째 강의 진행하고 있잖아요. 이 강의 때 여러분이 유념하셔야 될 것은 어떤 개념을 통해서 어떤 형태의 문제가 만들어지는구나. 또한 객관형과 단답형이 어떤 형태이구나라고 확인하는 것, 우리 첫 번째 강의의 목적이라 할 수가 있겠습니다. 두 번째, 우리 해당되는 데이터를 통해서 지식이 만들어지게 되는데 그때 필요한 개념이 바로 암묵지와 형식지라 할 수가 있겠습니다. 암묵지라는 건 뭘까요? 학습과 체험을 통해서 개인에게 습득되는 것, 체화되는 거라 할 수가 있고 여러분이 직관적으로 이미지 이해하려면 여러분 노하우란 단어 아시죠? 그 키워드가 바로 암묵지라 할 수가 있겠습니다. 반면에 형식지라는 건 뭘까요? 암묵지가 문서나 매뉴얼처럼 어떤 특정 저장 매체에 기록되는 순간 모두 다 형식지라 할 수가 있겠습니다. 이와 같은 암묵지와 형식지의 상호작용을 통해서 우리는 지식이 만들어진다 할 수가 있겠는데요. 암묵지와 형식지를 좀 디테일하게 개념을 분할하게 되면 네 가지 개념으로 분할할 수가 있겠습니다. 그걸 우리는 공통화, 표출화, 연결화, 내면화라고 할 수가 있겠습니다. 공통화라는 것은 굉장히 어렵게 쓰여 있는데요. 암묵지, 지식, 노하우를 다른 사람에게 알려주는 것, 공통화라고 하게 되고 표출화라는 것은 암묵지 지식 노하우를 책·교본 형식으로 전환하는 것 의미하고 우리 연결화라는 것은 책·교본에 자신이 알고 있는 새로운 지식을 추가하는 것, 내면화라는 것은 이와 같은 형식을 통해서 새로운 암묵지를 습득하는 거라고 나와 있습니다. 하지만 우리 간단하게 요약해 드리도록 할게요. 제가 메인 셰프고 옆에 보조 셰프가 있습니다. 나는 김치를 담그는 방법을 가르쳐 드리려고 해요. 누구한테? 보조 셰프에게요. 그러면 제가 얘기를 하겠죠. 김치를 담그는데 간장은 얼마만큼, 설탕은 얼마만큼, 소금은 얼마만큼 해야지만 맛있는 김치가 만들어질 거야 라고 보조 셰프에게 얘기해 주는 순간 이걸 공통화라고 하게 됩니다. 그럼 보조 셰프는 그걸 받고 메모지에 기록을 하겠죠. 그 순간 우리는 그것을 표출화라고 하게 되고 그 메모지를 갖고 와서 나만의 요리책 레시피를 만들 거야 라고 책을 내는 순간 그걸 우리는 연결화라고 하게 되고 서점에서 그 낸 출판물을 보고 나만의 노하우를 개발하는 순간 우리는 그걸 내면화라고 하게 됩니다. 물론 이 개념도 중요하고요. 여러분은 꼭 기억하실 것은 무엇이냐? 어느 단계에서 암묵지와 형식지가 전환되는 구간이 어떻게 바뀌는지 알고 있는 것도 출제 포인트라 할 수가 있겠습니다. 해당되는 암묵지와 형식지 또는 암묵지와 형식지의 상호작용 우리 시험 문제에서는 1년에 4번 시험이 시행된다고 했고 4번 중에 한 번 정도 출제 빈도를 갖고 있는 문항이라 할 수가 있겠습니다. 퀴즈 확인해 보도록 할게요. 다음 중 암묵지가 아닌 것은 물어봤습니다. 1번, 김장 김치 담그는 노하우. 노하우잖아요. 두 번째는 암묵지는 개인에게 체화되어 있기 때문에 공유하기가 어렵죠. 아무래도 형식으로 기록 저장 매체에 기록되어 있으면 공유하기 편하잖아요. 세 번째, 현장 작업과 같은 경험을 통해 획득할 수 있는 지식이다. 맞는 얘기고요. 네 번째, 회계 재무 관련 대차대조표에 요구되는 지식의 매뉴얼 등이 암묵지다. 매뉴얼은 암묵지가 아니라 형식지라 할 수가 있겠습니다. 이와 같은 유형의 문제 대표적인 우리 출제 유형이라는 거 강조해서 말씀을 드리도록 합니다. 네 번째는 데이터와 정보의 관계예요. 데이터와 정보는 서로 다른 의미고 다른 정의라 할 수가 있겠습니다. 우리는 뭘 보고 확인할 수가 있나요? 이와 같은 DIKW 계층적 피라미드 구조를 통해서 그 개념을 구분한다 할 수가 있겠습니다. 첫 번째 D의 약자는 데이터의 약자입니다. I의 약자는 information, 정보의 약자라 할 수가 있고 K는 knowledge, 지식의 약자고 W는 wisdom, 지혜의 약자라 할 수가 있겠습니다. 이와 같은 계층적 개념을 갖고 있다. 그러면 구체적으로 어떤 내용들이 데이터고 정보고 지식인지 지혜인지 구분하는 정의의 문제가 우리 시험 문제 당연히 출제 포인트라 할 수가 있겠습니다. 데이터라는 건 뭐예요? 객관적 사실로서의 데이터예요. 말 그대로 가공하기 전에 순수한 데이터라 할 수가 있겠죠. 여러분, 얘도 기억을 하셔야 합니다. A마트는 100원이고 B마트는 200원의 연필을 판매한다. 말 그대로 객관적 사실로서의 데이터라 할 수가 있겠습니다. 하지만 정보는 뭔가요? 이와 같은 데이터를 통해서 서로 비교하는 거예요. 그래서 패턴을 인식하고 의미를 부여하는 겁니다. 그래서 A마트의 연필 가격이 더 싸다. 이렇게 의미를 부여하는 것, 바로 정보라고 할 수가 있습니다. 우리 시험에서는 단답형 답안을 작성할 때 한 가지 유의사항이 하나 있습니다. 물론 나는 영어에 자신이 있어. information이 정답인데 나는 영어로 다 쓸 거야 라고 해도 상관이 없지만 저는 가급적이면 한글로 답안을 작성하실 걸 권해드린다 할 수가 있겠습니다. 그 이유는 뭘까요? 인포메이션, 물론 여러분이 다 답안을 깨끗하게 작성할 수 있지만 스펠링이 한 개라도 틀리면 오답 처리가 된다. 따라서 정보라고 답안을 제출하시는 것이 훨씬 부담감이 덜하다고 말씀드릴 수 있겠습니다. 세 번째는 지식이에요. 이와 같은 정보를 바탕으로 해서 어떤 예측된 결과물을 만드는 것 키워드는 예측된 결과물이에요. 결국 상대적으로 저렴한 A마트에서 연필을 사야겠다는 예측된 결과물이 만들어지게 되죠. 결론적으로 맨 마지막에 지혜가 만들어지게 되는데요. 이와 같은 데이터와 정보와 지식을 바탕으로 해서 A마트의 다른 상품들도 B마트보다 쌀 것이라고 우리는 판단한다 할 수가 있겠죠. 따라서 DIKW의 D와 I, K와 W의 의미를 파악하는 것이 중요하다 할 수가 있고 그 중에서 information에 관련된 출제 빈도가 상당히 높았다 할 수가 있겠습니다. 우리 퀴즈 문제 확인해 보도록 할게요. 데이터의 가공 및 처리와 데이터 간 연관관계 속에서 의미가 도출된 것을 무엇이라고 하는가? 이와 같은 DIKW 피라미드에서 우리는 해당되는 건 정보에 관련된 내용이라 할 수가 있겠습니다. 우리 해당되는 추가 문제라 할 수가 있고 이 파트부터는 여러분 분권된 제2권에 해당되는 문항이라 할 수가 있겠습니다. 우리 앞에서 강의보다는 좀 더 심층된 강의를 할 수가 있고 여러분이 기출문제, 즉 출제 유형을 파악하는 것이 상당히 중요하기 때문에 우리 두 번째 권에 있는, 분권된 권에 있는 내용들 다시 한번 리마인드, 확인하는 시간을 갖도록 하겠습니다. 1번 DIKW는 피라미드 계층적 구성 요소 속에서 역할을 수행하며 인간이 사회활동을 추구하는 가치 창출을 위한 일련의 프로세스를 말한다 할 수가 있겠습니다. 여기서 DIKW가 의미하는 것, 해당되지 않는 것 고르는 문제라고 할 수가 있고 이런 문제가 나오면 난이도는 하라고 할 수가 있겠죠. 여기 아이디어가 있었나요? 아이디어는 없었습니다. 뭐가 빠졌나요? 지식이 빠져있겠네요. 두 번째, 다음 데이터의 유형은 정성적 데이터와 정량적 데이터로 분류가 된다 할 수가 있겠습니다. 아래 보기에서 성격이 다른 것은 아까 수치화할 수 있는 거 다 정량적 데이터, 수치화할 수 없는 거 다 정성적 데이터라고 말씀드렸습니다. 풍향, 습도, 강수량 모두 다 수치화시킬 수 있는 반면에 기상특보 같은 경우 수치화시킬 수 없고 서술 형태로 우리는 만들어낼 수밖에 없는 형태로 할 수가 있겠습니다. 따라서 해당되는 문항 정답은 각각 우리 1번에 4번과 2번에 3번으로 표시할 수가 있습니다. 그 아래 보시면 해당되는 두 번째 분권의 어느 파트에서 발췌된 문제까지 표시되어 있다 할 수가 있겠습니다. 여러분 나중에 반복적 학습을 할 때 활용하시면 된다 할 수가 있겠습니다. 세 번째입니다. DIKW 피라미드 계층 구조에서 지식에 해당되는 것을 물어봤습니다. 지식이라는 것은 예측된 결과물이라고 했고 따라서 1번은 우리 해당되는 데이터에 관련된 부분, 2번은 정보에 관련된 부분, 3번은 지식에 관련된 용어, 4번은 우리 지혜와 관련된 거라고 할 수가 있겠습니다. 이와 같은 유형 문제 여러분 파악하는 거 상당히 중요하다는 점 거듭 강조해서 말씀을 드리도록 합니다. 4번인데요. 4번은 다음 보기는 암묵지와 형식지의 상호작용에 관련된 문항이라 할 수가 있겠습니다. 알맞게 연결된 것은 물어보는 문제 출제 유형이라 할 수가 있겠습니다. 1단계는 암묵적 지식 노하우를 다른 사람에게 알려주는 것 우리는 공통화라고 하게 되고 두 번째 암묵적 지식 노하우를 책이나 교본 등 형식으로 만드는 것을 우리는 표출화라고 하죠. 세 번째 우리 책이나 우리 교본에 자신이 알고 있는 새로운 지식을 추가하는 것 연결화 만들어진 책이나 교본을 보고 다른 직원들이 암묵적 지식을 습득하는 것을 우리는 내면화라고 한다 할 수가 있겠습니다. 따라서 정답은 1번이라 할 수가 있고 이와 같은 유형의 문제, 여러분 굉장히 중요하다 할 수가 있겠습니다. 오늘 했던 내용들 한번 정리해 보도록 하겠습니다. 첫 번째, 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실이라고 할 수가 있겠죠. 두 번째, 데이터의 가공, 처리, 서로 비교를 할 때 우리는 그것을 정보라 한다 할 수가 있겠습니다. 세 번째, 지식을 통해서 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화한다 할 수가 있겠습니다. 맨 마지막에 이와 같은 DIKW 데이터와 정보와 지식을 통해서 마지막 지혜에 우리는 설명할 수 있는 것이 오늘 우리 데이터의 이해 파트 1차시 강의라 할 수가 있겠습니다. 다시 한 번 강조해 드리지만 우리 시험은 1년에 4번 정도 시행이 되고요. 여러분 시험장에 가시면 여러 가지 예상치 못한 현상들을 발견하게 됩니다. 그만큼 불안하죠. 하지만 우리는 미리 예견하고 들어가는 것이 중요하다 할 수가 있겠습니다. 이건 학습 방법에 관련된 부분이라 할 수가 있겠는데요. 일단 목차 중심으로 해서 정리를 하고 출제 포인트, 학습 포인트를 연계해서 학습하는 게 굉장히 중요하다 할 수가 있겠습니다. 제가 주기적 출제 포인트를 자꾸만 말씀드리는 건 뭐냐면 우리 시험은 30회가 넘게 실행된 데이터 검증 시험이라 할 수가 있고 한 번도 빠짐없이 출제되는 포인트가 바로 학습 포인트라 할 수가 있겠습니다. 따라서 이 부분 굉장히 중요하다 할 수가 있습니다. 우리는 이 부분을 학습함으로 인해서 실제 시험장에 가셔서 문제를 풀기보다는 내가 학습했던 내용들이 어떤 형태로 출제가 되는지 확인하는 거 바로 우리 시험의 성격이라는 거 다시 한번 강조해서 말씀을 드리도록 합니다. 우리 1장 데이터 2의 두 번째 데이터베이스의 정의와 특징이라 할 수가 있겠습니다. 이 소제목에서는 반드시 우리 시험 문제에 출제되는 포인트를 갖고 있다 할 수가 있겠습니다. 데이터베이스, 데이터웨어하우스, 데이터마트라는 중요한 출제 포인트가 갖고 있다는 거 다시 한 번 강조해서 말씀드립니다. 학습목표는 데이터베이스의 정의 및 특성을 알아본다 학습포인트든 출제포인트는 5개로 구분한다 데이터베이스의 정의가 무엇이냐 데이터베이스와 데이터베이스 관리 시스템의 차이를 구분하는 포인트라 할 수 있고 두 번째는 데이터베이스 관리 시스템의 특징이라 할 수 있겠습니다 우리는 DBMS의 세대별 변천사 또는 것들을 확인하게 될 거예요. 세 번째는 데이터베이스의 설계 절차라 할 수가 있겠습니다. 네 번째는 데이터웨어하우스와 데이터마트를 구분하는 문제, 다섯 번째는 데이터웨어하우스의 특징을 확인하는 것. 우리 시험 문제의 주력 출제 포인트다. 제가 말씀드렸던 것 중에서 반드시 한 문제는 출제되는 것, 성격을 갖고 있다는 것도 다시 한번 강조해서 말씀을 드리도록 합니다. 데이터베이스의 용어와 용어의 어원이에요. 물론 이 부분이 시험에 출제되는 건 아니고요. 1950년대에 보면 데이터베이스라는 어원은 결국에는 미국의 군사와 관련된 데이터를 다른 표현으로 하게 되는데 그게 바로 여기 나와 있는 데이터의 기지라는 뜻에서 어원을 찾아보게 됩니다. 하지만 이와 같은 현대적인 용어가 등장하게 된 것은 우리 1970, 80년대에 폭발적으로 반정형, 비정형 데이터 증가함으로 인해서 현대적인 용어로 등장한다 할 수가 있겠습니다. 따라서 데이터베이스 정의는 다음과 같은 정의를 갖고 있다 할 수가 있겠습니다. 결론적으로 데이터베이스라는 것은 체계적으로 정렬된 데이터의 집합이라고 할 수가 있고 이걸 약간 서술 형태로 풀어 쓰면 다음과 같다 할 수가 있겠습니다. 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해서 일정한 구조에 따라서 편성된 데이터의 집합을 우리는 데이터베이스라고 하게 되고 그러면 데이터베이스 관리 시스템은 무엇이냐? 이것을 관리하기 위한 소프트웨어를 우리는 데이터베이스 관리 시스템이라고 한다 할 수 있겠습니다. 따라서 여러분이 기억하셔야 될 것은 DB, 데이터베이스와 DBMS는 서로 다른 용어라는 거 여러분이 기억하셔야 첫 번째 포인트라 할 수가 있겠습니다. 세 번째는 데이터베이스의 특징이라고 할 수가 있고 아주 출제 빈도가 상당히 높다 할 수가 있겠습니다. 우리 시험 문제는 데이터베이스와 데이터 웨어하우스의 특징을 구분하는 문제가 굉장히 출제 빈도가 높다고 할 수가 있겠습니다. 데이터베이스 특징 네 가지로 요약해 볼 수 있다 할 수가 있겠습니다. 그 안에 들어가 있는 의미도 알고 있는 것 중요하다 할 수가 있겠어요. 첫 번째, 통합된 데이터입니다. 데이터베이스에 서로 중복이 없어야 된다는 의미라고 할 수 있겠습니다. 두 번째는 저장된 데이터입니다. 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장된다는 것을 의미한다고 할 수 있고 세 번째는 공용 데이터입니다. 여러 사용자가 다른 목적으로 공동으로 이용한다는 의미라고 할 수 있고 바로 네 번째 변화되는 데이터입니다. 항상 변화되는 데이터입니다. 여러분 현업에 있는 데스크, 창고에서 일하시는 분한테 데이터가 실시간으로 계속 넘어오게 되면 업데이트가 되고 계속 그 데이터가 바뀌죠. 이와 같이 변화되는 데이터, 바로 데이터베이스 특징이라고 할 수가 있고 이 중에서 네 번째 변화되는 데이터가 주력 출제 포인트라 할 수가 있습니다. 여러분 주의하실 것은 해당되는 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터 내용도 중요하지만 이 의미하는 바가 무엇인지 알고 있는 것 다시 한번 강조해서 말씀을 드리도록 합니다. 네 번째는 데이터베이스 특성입니다. 물론 우리 시험문제 출제빈도는 딱 한 번 출제가 됐고, 출제빈도가 상당히 낮지만 확인을 해보도록 하겠습니다. 데이터베이스 특성, 정보의 축적 및 전달 측면이라고 할 수가 있는데요. 여기 나와 있는 축적이라는 것은 검색 가능성과 관련된 키워드라 할 수가 있고, 전달 측면이라는 것은 원격 조작성과 관련된 용어라 할 수가 있겠습니다. 두 번째 정보이용 측면에서는 다양한 정보를 획득할 수 이용하는 측면, 정보관리 측면은 체계적으로 데이터를 관리하고 추가나 갱신이 용이하다는 측면, 네 번째는 정보기술의 발전 측면은 네트워크 발전과 관련된 키워드라 할 수가 있고 마지막에 경제산업적 측면이라는 것은 이와 같은 데이터베이스는 인프라적 성격이 강하다 할 수가 있고 이와 같은 걸 이용을 해서 결국에는 경제산업, 사회적으로 어떤 더 향상된 삶을 영위할 수 있다는 의미라 할 수 있겠습니다. 다섯 번째, 데이터베이스 관리 시스템의 등장 배경이라 할 수 있겠습니다. 제가 좀 전에 데이터베이스와 데이터베이스 관리 시스템은 서로 다른 용어라고 말씀드렸죠. 이와 같은 데이터베이스 관리 시스템이 왜 등장했는지 알고 있는 것이 중요하다 할 수 있겠습니다. 데이터베이스 관리 시스템 전에도 파일 시스템이 존재한다 할 수가 있겠습니다. 하지만 이 파일 시스템의 결정적인 결함 두 가지가 포인트라고 할 수가 있는데 바로 그것이 중복성과 종속성이라 할 수가 있겠습니다. 여러 부서에서 동일한 파일을 쓰게 되면 서로 중복될 수가 있겠죠. 우리는 중복성이라 하게 되고 데이터 구조를 바꾸게 되면 데이터 구조와 관련된 소프트웨어도 바꿔야 된다. 이것을 종속성이라고 할 수 있겠습니다. 두 가지 요건으로 인해서 데이터베이스 관리 시스템이 등장했다고 할 수 있겠죠. 이와 같은 데이터베이스 관리 시스템은 다음과 같은 변천사를 첫 번째 1세대는 Network DBMS, 계층 DBMS라고 할 수 있겠습니다. 하지만 이와 같은 DBMS는 그 데이터를 표현하는데 한계가 있다 할 수 있고 바로 우리에게 익숙해져 있는 관계형 DBMS, RDBMS라고 하게 되죠. 등장한다 할 수 있겠습니다. 정형화된 행과 열로 만들어진 스프레드시트라고 생각하시면 되겠죠. 여러분이 알고 있는 유명한 제품들이 존재한다 할 수가 있겠습니다. 바로 오라클이 바로 2세대의 RDBMS라고 할 수가 있겠죠. 하지만 1980년대 증가하게 된 반정형과 비정형 데이터, 이와 같은 다양한 데이터를 RDBMS로 처리하기에는 한계가 있게 되고 그때 등장한 3세대가 바로 객체지향 DBMS라고 할 수가 있겠습니다. 그러면 RDBMS와 객체지향 DBMS의 차이점이 무엇이냐 한다면 객체지향 DBMS, 즉 ODBMS는 다양한 사용자 타입의 데이터를 지원하게 되고 비정형 데이터의 타입을 지원한다 할 수가 있겠습니다. 그만큼 반정형, 비정형 데이터에 적합한 형태라 할 수가 있겠습니다. 이와 같은 데이터 DBMS가 등장하게 되고 맨 마지막에 NoSQL이 등장한다 할 수가 있겠습니다. NoSQL은 Not Only SQL의 약자라고 할 수 있고 대표적으로 하둡의 HDFS, 즉 하둡 분산 파일 시스템과 비교한다고 할 수 있겠습니다. 데이터의 특성에 따라서 원하고자 하는 DBMS를 선택하게 되는데요. HDFS는 디스크 기반으로 만들어져 있다 할 수 있겠습니다. 디스크 기반으로 만들어져 있다는 것은 데이터를 일정 시간 모아놨다가 처리를 해야 되는 실시간 처리에는 한계를 갖고 있다 할 수 있겠습니다. 하지만 NoSQL은 이보다 실시간 처리에 적합한 DBMS라고 할 수 있겠습니다. 우리 시험에서는 관계형 DBMS의 종류를 알고 있는 것이 중요하고요. 관계형 DBMS의 단점을 보완하기 위해서 만들어진 것이 ODBMS이고 여러분 NoSQL과 하둡의 HDFS의 차이점 정도의 포인트로 알고 있는 것이 중요한 포인트라 할 수 있겠습니다. 제가 서두에 처음 OT 시간에도 말씀드렸듯이 우리 과목은 다른 유사한 과목과 굉장히 연관성이 있다 할 수가 있고 공통 섹터가 많이 갖고 있는 시험이라 할 수가 있겠습니다. 어떻게 보면 이 과정은 여러분 정보처리 기사 또는 산업기사의 과정이라 할 수가 있고 물론 더 나아가서 해당되는 정규화 과정까지 설명을 하게 되면 우리 시험은 어느덧 정체성이 약간 흐트러진다 할 수가 있겠습니다. 따라서 해당되는 포인트만 확인을 해도 충분한 시험, 우리 시험이라 할 수가 있다는 점도 강조해서 말씀을 드리도록 합니다. 일곱 번째는 데이터베이스 설계 절차라 할 수가 있겠습니다. 한번 쉽게 예를 들어 설명드리도록 하겠습니다. 제가 어떤 시스템을 갖고 있는 사용자, 소유자라 할 수가 있겠습니다. 하지만 이 시스템을 변경시키고 싶어요. 그럴 경우 어떻게 해야 되나요? 시스템을 이런 형태로 변경하고 싶습니다. 데이터베이스 설계자한테 의뢰를 하겠죠. 나의 갖고 있는 사용자의 문제점 바로 첫 번째 요구조건 분석이라 할 수가 있겠습니다. 그럼 두 번째 데이터베이스 설계자가 오겠죠. 와서 어떤 형태로 설계를 하겠다고 그림으로 그립니다. 서로 이해할 수 있겠고요. 우리 그걸 이해할 모델이라고 여러분 생각하시면 되겠고 그걸 바로 개념적 설계라고 할 수가 있겠습니다. 세 번째는 논리적 설계입니다. 말 그대로 어떤 테이블을 만들지 논리적으로 만드는 것 네 번째는 물리적 설계 이와 같은 논리적 설계를 바탕으로 해서 실제 디스크에 매핑하는 것 바로 물리적 설계라 한다 할 수가 있겠습니다. 우리 시험문제에서는 해당되는 순서를 물어보는 문제 출제된 적이 있고 해당되는 내용을 물어보는 시험은 출제된 적이 없습니다. 그것이 바로 정보처리 기사의 형태의 문제라 할 수가 있겠습니다. 하지만 이런 영역 간에 데이터 검정시험 또는 이와 같은 IT 검정시험 간에 교집합이 만들어지는 순간 점점 문제가 확대된다는 것은 예상해 볼 수가 있다 할 수가 있겠습니다. 8. 데이터 웨어하우스 데이터 웨어하우스라는 것은 데이터베이스와 데이터 웨어하우스, 데이터마트의 차이점을 묻는 문제의 출제 포인트라고 말씀드린 바가 있습니다. 데이터베이스는 현업의 데이터베이스입니다. 계속 시시각각, 초단위로 데이터가 바뀌는 데이터라 할 수 있겠습니다. 하지만 이런 데이터 분석할 때 쓰이는 데 적합하지 않겠죠. 따라서 특정한 포맷 형태로 우리는 저장소가 필요하고 이 저장소를 우리는 DW, 데이터 웨어하우스라고 할 수가 있겠습니다. 물론 데이터 웨어하우스의 정의도 중요하고 데이터베이스와 DW, 데이터 웨어하우스의 특징을 구분하는 것도 상당히 중요하다 할 수가 있겠습니다. 이렇게 데이터 웨어하우스는 업무 트랜잭션을 처리하는 데이터베이스 시스템에서 사용자들이 필요로 하는 정보를 추출해서 가공된 데이터 형태라 할 수가 있겠습니다. 즉 누가 어떤 목적으로 기업 입장에서 어떻게 하면 주제별 형태로 저장하는 저장소라고 할 수가 있겠죠. 그렇게 함으로 인해서 데이터베이스와 특징과 다른 특징을 갖고 있다는 건 당연하다 할 수가 있겠습니다. 첫 번째, 데이터의 주제지향성입니다. 말 그대로 기업 입장에서 각 주제별로 데이터를 저장할 필요가 있겠죠. 어떤 고객 데이터 또는 회계 데이터 이렇게 용도별로 구분하게 되면 데이터 분석하기에 편리할 것은 당연한 것입니다. 두 번째는 데이터의 통합성, 표준화, 통합성 같은 키워드라 할 수 있겠습니다. 똑같은 형태의 표준화된 형태로 갖고 있어야 서로 비교하고 데이터 분석 용이하다 할 수 있겠습니다. 세 번째는 데이터 시계열성입니다. 데이터 시계열성이라는 것은 우리 앞에서 데이터베이스 특징 언급할 때 언체인이 데이터라고 말씀드렸죠. 언체인이 데이터 오답보기 형태로 등장합니다. 여기 나오는 시계열성이라는 것은 뭐냐면 시시각각 데이터를 반영한다는 거예요. 데이터 분석할 때 2022년도 1월부터 2022년 12월 31일간의 데이터 월별로 갖고 와봐. 그 데이터 다 보관되어 있으니까 이게 바로 데이터의 시계열성이라고 할 수가 있겠습니다. 네 번째는 데이터의 비휘발성이라고 해요. DW는 갱신 프로세스가 존재하지 않습니다. 말 그대로 데이터를 저장하고 액세스할 수 있는 기능만 갖고 있다 할 수가 있겠습니다. 즉, 읽기 전용의 데이터를 유지한다. 이렇게 표현을 하게 되는 것이죠. 이렇게 DW에 관련된 특징, 굉장히 중요하다는 거 다시 한번 강조해서 말씀을 드리도록 합니다. 우리 해당되는 퀴즈 또는 기출 유형 확인해 보도록 하겠습니다. 다음에 데이터베이스 설계 순서로 올바른 것은 형태, 우리 시험 대표적인 출제 유형이라고 할 수가 있겠습니다. 요구사항 분석하고 개념적 설계를 파악하고 논리적 설계와 물리적 설계로 이어지는 거 데이터베이스의 설계 순서라고 할 수가 있겠죠. 두 번째 우리 데이터베이스 시스템에서 의사결정에 필요한 데이터를 미리 추출하고 원하는 형태로 변환하고 통합하기 위한 읽기 전용의 데이터 저장소를 무엇이라고 하는가? 우리는 DW, 데이터 웨어하우스라고 할 수가 있겠습니다. 데이터웨어하우스의 고유 특성이 아닌 것은? 데이터웨어하우스는 기업 내의 의사결정 지원 애플리케이션을 위한 정보를 제공한 하나의 통합된 데이터 저장공간을 말한다. ETL은 하나의 도구라고 할 수 있고 데이터베이스에 있는 데이터를 ETL이라는 도구를 통해서 특정 DW 시스템에 적재하는 하나의 도구라고 생각하시면 되겠습니다. ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터 웨어하우스에 정보를 적재한다 할 수 있겠습니다. 세 번째, 데이터 웨어하우스에서 관리하는 데이터들은 시간적 흐름에 따라 변화하는 값을 유지한다 할 수가 있겠습니다. 데이터의 시계열성이라고 할 수가 있고 네 번째, 전사적 차원에서 접근하기보다는 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고 있다. 이것이 바로 데이터마트라고 할 수가 있겠습니다. 다시 한 번 강조드립니다. 우리 시험문제에서는 데이터 웨어하우스와 데이터마트 출제 빈도가 높아요. 그러면 차이점이 무엇인지 정의하도록 하겠습니다. 데이터웨어하우스의 부분집합이 데이터마트라고 할 수가 있고 두 번째, 데이터웨어하우스보다 최적화된 데이터 저장소가 바로 데이터마트라고 할 수가 있겠습니다. 또 하나, 데이터의 기능 또는 제공 범위에 따라서 데이터 웨어하우스와 데이터 마트를 구분한다 할 수가 있겠습니다. 훨씬 더 데이터 마트가 최적화된 저장소라 할 수가 있겠죠. 왜? 빨리빨리 분석을 해야 되고 결과를 만들어야 되니까 좀 더 최적화된 데이터 저장소가 필요할 겁니다. 우리 예를 들자면 DW, 데이터 웨어하우스에는 주제지향성에 따라서 각각 기능별로 데이터를 저장할 수가 있습니다. 그것보다 더 세밀하게, 더 부분적으로 특화되게 최적화된 데이터 저장소가 필요할 수도 있겠죠. 우리는 그걸 데이터마트라고 하고 데이터의 사용기능 범위 또는 제공범위 어떤 사람에게까지 제공할 것인지 어떤 분석팀, 조직에서만 제공할 건지에 따라서 DW와 데이터마트는 구분된다는 것도 강조해서 말씀을 드리도록 합니다. 3번입니다. 데이터베이스의 특징에 관한 설명 중 적절하지 않은 것을 물어봤습니다. 여러분 이거 우리 계속 퀴즈 문제 풀면서 여러분이 인식해야 될 부분은 이와 같은 출제 빈도가 계속 만들어지는구나 하고 인식하는 거 여러분이 알고 있는 거 상당히 중요하다 할 수가 있겠습니다. 데이터베이스는 통합된 데이터다. 이것은 데이터베이스에서 같은 내용의 데이터가 중복되어 있지 않다는 것을 의미한다 할 수가 있겠습니다. 두 번째, 데이터베이스는 저장된 데이터입니다. 특정 매체에 저장되는 것을 의미한다 할 수가 있고 세 번째, 데이터베이스는 공용 데이터입니다. 네 번째, 데이터베이스는 저장된 정적인 데이터 상태로 유지됨을 말한다. 우리 항상 변화되는 데이터를 의미한다고 말씀을 드렸죠. 그래서 정답이 4번이라 할 수가 있겠습니다. 자, 우리 오늘 했던 내용들 다시 한번 확인을 하도록 하겠습니다. 데이터베이스의 정의와 관련된 부분부터 큰 카테고리가 출발한다 할 수가 있고 그 부분부터 출발해서 데이터베이스 특성, 특징을 파악하게 되고 파생되어 있는 DW, 분기되어 있는 개념이란 DW 개념을 다시 한번 확인하고 거기서 얻어지는 특성도 파악하게 되고 또 다른 개념이라 할 수 있는 데이터마트에 관련된 부분 학습했다 할 수가 있겠습니다. 다시 한번 강조드릴게요. 데이터베이스, DW, 데이터마트 중에서 반드시 우리 시험문제 출제될 수밖에 없는 주기적 패턴을 갖고 있는 포인트라는 점 강조해서 말씀을 드리도록 합니다.

이 강좌의 강의

  • 01 데이터와 정보, 02 데이터베이스 정의와 특징재생 중
  • 03 데이터 베이스 활용
  • 01 빅데이터의 이해, 02 빅데이터의 가치와 영향
  • 03 비즈니스 모델, 04 위기요인과 통제방안, 05 미래의 빅데이터
  • 01 빅데이터 분석과 전략 인사이트, 02 필요 역량, 03 빅데이터의 미래
  • 01 분석 기획 방향성 도출
  • 02 분석 방법론
  • 03 분석 과제 발굴
  • 04 분석 프로젝트 관리 방안
  • 01 마스터 플랜 수립
  • 02 분석 거버넌스 체계 수립
  • 01 R 기초(1)
  • 01 R 기초(2)
  • 02 데이터 마트, 03 결측값과 이상치 검색
  • 01 통계학 개론(1)
  • 02 통계학 개론(2)
  • 02 기초 통계분석
  • 03 다변량 분석
  • 04 시계열 예측
  • 01 데이터 마이닝
  • 02 모형평가
  • 03 분류분석(로지스틱회귀모형, 인공신경망모형)
  • 03 분류분석(의사결정나무모형, 앙상블 모형, SVM, KNN)
  • 04 군집분석(계층적 군집, k-means)
  • 04 군집분석(혼합분포군집, SOM)
  • 05 연관분석
데이터분석준전문가(ADsP)자격 취득 과정(2023)
데이터분석준전문가(ADsP)자격 취득 과정(2023)강좌 자세히 보기