1과목 기출-A1

강의 대본

그러면 최신 기출 변형 문제 함께 풀어보도록 하겠습니다. 먼저 1과목의 첫 번째 파트 10문제 풀어보도록 하겠습니다. 첫 번째 문제는 다음 중 하둡 분산 파일 시스템 HDFS에 대한 설명으로 가장 적절한 것을 묻는 문제입니다. 앞서 우리는 하둡 분산 파일 시스템에 대해서 학습을 해보았는데요. 우선 보기 살펴보도록 하겠습니다. 여러 데이터를 한 곳에 저장할 수 있다고 했습니다. 하둡 분산 파일 시스템은 분산 저장 시스템이기 때문에 데이터를 한 곳에 저장하기보다는 여러 노드에 분산해서 저장하게 됩니다. 잘못된 내용이 되겠고요. 두 번째는 블록당 10MB 이하의 제한이 있다 라고 했는데요. 요것은 잘못되었습니다. 기본 블록 크기가 설정이 128MB, 64MB 이런 식으로 설정이 되어 있지만 구성을 통해서 변경할 수가 있고요. 블록당 10MB 이하라는 제한은 없습니다. 범용 하드웨어보다는 고성능 컴퓨터를 주로 사용한다고 했는데요. HDFS는 고성능 컴퓨터보다는 저가의 여러 컴퓨터들을 연결해서 활용하고 있는 특징이 있습니다. 잘못된 내용이 되겠고요. 네임노드에 오류가 발생하면 정상적인 작동을 못한다. 이게 옳은 내용이 되겠습니다. 네임노드라는 것은 HDFS의 마스터 노드가 되겠습니다. 파일 시스템의 메타데이터를 관리하는데요. 파일과 디렉토리의 정보, 각 블록의 위치 정보, 접근 권한, 수정 시간 이런 것들을 관리합니다. 그래서 HDFS의 핵심적인 노드라고 할 수 있기 때문에 이 네임노드의 오류가 발생하게 되면 전체 HDFS가 파일 위치 정보에 접근할 수가 없어서 작동이 어려워지게 됩니다. 그럼 설명으로 가장 적절한 것은 4번이 되겠습니다. 다음 문제입니다. 다음 중 비정형 데이터로 가장 적절하지 않은 것을 묻는 문제입니다. 이 데이터를 정형과 반정형, 비정형으로 구분하는 것이 굉장히 중요한데요. 다시 한번 정리해보도록 하겠습니다. 정형 데이터는 데이터의 형태가 있고 연산이 가능한 데이터입니다. 행과 열로 구분되는 대부분 관계형 데이터베이스에서 사용되는 형태인데요. 관계형 데이터베이스나 스프레드시트, CSV 같은 형태가 있습니다. 반정형 데이터는 정형과 비정형의 중간 형태가 되겠는데요. 즉, 형태는 있습니다. 스키마나 메타데이터의 형태가 있고, 연산은 불가능한 특징이 있습니다. 주로 파일로 저장되는데요. XML, HTML, JSON, 로그의 형태입니다. 반정형의 형태도 굉장히 중요하고요. 다음이 비정형 데이터인데 비정형은 형태도 없고 연산도 불가능하고요. 주로 NoSQL에 저장된다는 것이 중요하고요. 소셜 데이터, 영상, 이미지, 음성, 텍스트, 이메일 등이 있습니다. 그럼 비정형 데이터로 가장 적절하지 않은 것인데요. 비디오, 오디오, 텍스트는 모두 비정형 데이터인데 판매 가격 데이터는 정형 데이터죠. 그래서 4번이 적절하지 않은 보기가 되겠습니다. 다음 문제입니다. 다음 중 빅데이터 분석 기획 단계에서 하는 일로 가장 적절하지 않은 것을 묻고 있는데요. 빅데이터 분석 방법론의 단계는 반드시 기억하실 필요가 있습니다. 그래서 다음 페이지에 제가 정리를 다시 한번 해봤는데요. 빅데이터 분석 방법론의 첫 번째 단계는 분석 기획 단계입니다. 분석 기획 단계에서는 비즈니스 이해 및 프로젝트 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험 계획 수립, 특히 이 위험에 대한 대응 방안이 4가지, 회피, 전이, 완화, 수용이 있다는 거 기억하셔야 되겠고요. 두 번째는 데이터를 준비하는 단계입니다. 필요한 데이터를 정의하고 데이터 스토어를 설계하고 데이터를 수집하고 정합성을 점검합니다. 다음은 데이터 분석 단계인데요. 분석용 데이터를 준비하고 텍스트를 분석하고 탐색적 분석을 거쳐서 모델링하고 모델 평가와 검증, 모델 적용 및 운영 방안을 수립하는 단계입니다. 네 번째는 시스템 구현의 단계인데요. 프로젝트에 따라서 필요하지 않은 경우도 있을 수 있습니다. 설계 및 구현과 시스템 테스트 및 운영이 되겠고요. 마지막에 평가 및 전개 단계에서는 모델 발전 계획을 수립하고 프로젝트 평가 및 보고의 단계 이렇게 나누어지게 됩니다. 이 문제에서는 이 분석 기획 단계에 대해서 묻고 있는데요. 이 단계를 보고 문제를 풀어주시면 되겠습니다. 그러면 빅데이터 분석 기획 단계에서 하는 일로 적절하지 않은 것. 1번에 있는 데이터 준비는 단계가 따로 있었습니다. 위험계획 수립과 프로젝트 정의 및 계획 그리고 비즈니스 이해 이것까지가 모두 분석기획 단계에서 하는 일이 되겠습니다. 그럼 정답은 1번이 되겠습니다. 다음 문제입니다. 다음 중 CRISP-DM의 단계로 가장 적절한 것을 묻는 문제입니다. 역시 CRISP-DM 방법론에 대해서 묻는 문제인데요. CRISP-DM 분석 방법론은 계층적인 프로세스 모델입니다. 그래서 4레벨의 6단계 프로세스를 가지게 되고요. 특히 이 6단계를 좀 기억을 해 두실 필요가 있겠습니다. 6단계는 업무이해와 데이터이해, 데이터준비, 모델링, 평가, 전개단계 CRISP-DM의 특징은 단계간 피드백을 통해 단계별 완성도를 높인다는 것입니다. 특히 업무이해와 데이터이해, 그리고 데이터 준비와 모델링은 피드백이 가장 많은 단계가 되겠습니다. 그럼 CRISP-DM의 단계를 나열한 것은 2번이 되겠습니다. 다음 문제입니다. 다음 중 분석 마스터 플랜 과정에서 분석 과제의 우선순위 고려 요소로 가장 적절하지 않은 것을 묻는 문제인데요. 이 과정도 굉장히 문제로 많이 출제되는 부분입니다. 그래서 제가 다시 한번 정리를 해보도록 할 텐데요. 우선 분석 과제 우선순위의 고려 요소입니다. 분석 과제 우선순위의 고려 요소는 전체 3가지가 있는데요. 일반적인 IT 프로젝트에서 우선순위를 평가하는 기준은 전략적 중요도와 실행용이성이 되겠습니다. 여기에 분석과제 우선평가 기준이 한 가지 더 들어가는데요. 바로 비즈니스 성과와 ROI가 되겠습니다. 이 내용이 굉장히 중요하고요. 이렇게 해서 적용우선순위를 결정하게 되면 분석적용범위와 방식의 고려요소가 필요한데요. 여기에는 업무내재화적용수준과 분석데이터적용수준 그리고 기술적용수준이 포함됩니다. 문제에서는 우선순위에 대한 고려요소와 적용범위와 방식에 대한 고려요소 이것을 좀 섞어서 출제하는 경향들이 많습니다 자 그러면 여기에서 한번 살펴보겠습니다 분석 마스터 플랜 과정에서 분석과제 우선순위 고려요소로 가장 적절하지 않은 것은 3번이 되겠죠 분석 데이터 적용 수준은 포함되지 않습니다 다음 문제입니다. 다음 중 계량적 데이터에 해당하는 것으로 가장 적절하지 않은 것을 묻는 문제입니다. 이 계량적 데이터라는 말은 정량적인 데이터라는 말과 일치한다고 볼 수 있습니다. 데이터는 정량적인 데이터와 정성적인 데이터로 나눌 수가 있는데요. 정량적이라는 것은 양을 측정할 수 있다는 의미를 가지고 있죠. 형태는 수치, 도형, 기호 등이 있고요. 여기 예를 보시면 나이, 몸무게, 온도, 풍속 같은 것들이 있습니다. 정량적 데이터는 대부분 정형 데이터라는 것이고요 객관적인 내용을 갖고 있고 통계분석이 용이합니다 반면에 정성적인 데이터들은 대부분 언어나 문자의 형태로 되어 있는데요 SNS나 이메일, 기상 특보 등이 여기에 포함됩니다 특징은 정량적 데이터와는 반대의 특징을 가지는데요 대부분 비정형 데이터이고 저장, 검색, 분석에 많은 비용과 기술적 투자가 수반됩니다. 주관적인 내용을 갖고 있고 통계분석이 어려운 특징이 있습니다. 그럼 여기에서 계량적 데이터나 온도측정값 개인의 의견이나 견해는 대부분 언어로 구성이 되겠죠? 이것은 계량적 데이터로 볼 수가 없습니다. 정답은 4번입니다. 다음 문제입니다. 다음 중 데이터 3법으로 가장 적절하지 않은 것을 묻는 문제입니다. 우리 앞서 데이터 3법과 주요 내용들 살펴봤는데요. 개인정보보호법과 정보통신망 이용촉진 및 정보보호 등에 관한 법률 그리고 신용정보의 이용 및 보호에 관한 법률 이 세가지가 데이터 3법이 되겠구요 공공데이터 제공 및 이용활성화에 관한 법률은 데이터 3법에 포함되지 않습니다 정답은 3번이 되겠구요 이 데이터 3법은 줄여서 개인정보보호법, 정보통신망법, 신용정보법 이렇게 얘기하기도 하는데요. 각각의 법에 어떤 내용들이 포함되어 있는지 정리해 봤으니까 다시 한번 읽어 보시면 좋겠습니다. 다음 문제입니다. 다음 중 데이터 누락시 데이터 품질 중 어떤 성질을 만족시키지 못하는가 라는 내용입니다. 데이터 품질에 대한 여러가지 성질들이 있었는데요. 여기에서는 그 완전성을 설명하고 있는데요. 완전성이라는 것은 데이터가 필요한 정보를 모두 포함하고 있어야 된다는 원칙이 되겠고요 데이터가 누락이 되면 이 완전성을 저해하는 주요 요인이 된다고 볼 수가 있습니다 정답은 완전성이 되겠습니다 다음 문제입니다. 다음 중 데이터 사이언티스트의 소프트 스킬로 가장 적절한 것을 묻는 문제입니다. 데이터 사이언티스트의 요구 역량은 하드 스킬과 소프트 스킬로 나누어지죠. 주로 데이터 처리나 분석 기술과 관련된 하드 스킬이 있고요. 통찰력 있는 분석과 설득력 있는 전달, 협력 등의 소프트 스킬이 있습니다. 그럼 여기에서는 통찰력 있는 분석이 바로 소프트 스킬이 되겠고요. 빅데이터에 대한 전문지식, 통계기법, 머신러닝 알고리즘 등은 모두 하드 스킬로 볼 수가 있습니다. 그럼 가장 적절한 것은 1번이 되겠습니다. 다음 내용입니다. 다음 중 빅데이터의 특징 3가지로 가장 적절한 것, 3V에 관한 내용이 되겠는데요. 빅데이터의 3가지 특징은 양과 그 다음 다양성, Variety, 속도, Velocity 이렇게 3가지가 되겠습니다. 양은 데이터의 규모 측면을 의미하고요. 다양성은 데이터의 유형과 소스가 다양하다는 것입니다. 그리고 데이터 수집과 처리 측면에서 속도가 굉장히 빠르다고 볼 수가 있습니다. 속도가 매우 빠르다고 볼 수가 있습니다. 그럼 특징 3가지는 첫 번째가 되겠고요. 여기에 이제 한 가지를 덧붙여서 4V로 보통 밸류를 얘기하게 됩니다. 자 그럼 여기까지 1과목 기출문제 첫 번째 파트 마치도록 하겠습니다

이 강좌의 강의

1과목 기출-A1재생 중
1과목 기출-A2
2과목 기출-A1
2과목 기출-A2
3과목 기출-A1
3과목 기출-A2
4과목 기출-A1
4과목 기출-A2
1과목 기출-B1
1과목 기출-B2
2과목 기출-B1
2과목 기출-B2
3과목 기출-B1
3과목 기출-B2
4과목 기출-B1
4과목 기출-B2

빅데이터분석기사 필기: 최신기출변형강좌 자세히 보기