학습 내용 안내

Orange를 활용한 코딩 없는 AI 데이터 분석 - Lv.6 텍스트와 이미지 분석 강좌의 맛보기 강의입니다.

강의 대본

이 과정에서 여러분께서 학습하실 내용을 소개해드리도록 하겠습니다. 이 과정은 비정형 데이터 특정하게 정해져 있는 형식이 없는 비정형 데이터라는 게 어떤 것인지 라고 하는 것을 같이 살펴보고 비정형 데이터에서 가장 대표적이라고 할 수 있는 다양한 텍스트 데이터 그리고 이미지 데이터를 오렌지 도구를 이용해서 다루고 분석하는 방법을 함께 알아가는 과정이다 라고 말씀드릴 수 있겠습니다 특히 그중에서도 텍스트 데이터는 굉장히 많은 개념을 좀 필요로 하는데요 텍스트 데이터를 여러분께서 잘 다뤄내시기 위해서 필요한 몇 가지 필수적인 어떤 개념들, 코퍼스라든가 토큰, POS, 불용어 표제어 같은 여러 가지 내용들을 적절한 곳에서 설명드리면서 같이 좀 안내해 드리도록 하겠습니다. 그리고 결국 텍스트 데이터라고 하는 것은 복잡한 전처리를 통해 정형 데이터와 임베딩 벡터로 만들어야 다양한 분류, 클러스터링을 할 수 있습니다. 텍스트 데이터를 전처리하기 위한 여러 가지 기술들, 토크나이저라던가 N-그램이라던가 백오브워드라던가 TF-IDF 같은 이런 다양한 개념들을 어떻게 다루는 것인지 여러분께서 쉽게 보실 수 있도록 다양한 데이터를 가지고 설명드리도록 하겠습니다. 텍스트 데이터를 전처리를 하게 되면 우리가 텍스트 데이터를 마치 정형화된 어떤 데이터, 엑셀 파일처럼 잘 원활하게 다룰 수가 있는데요. 예를 들어서 뭐 비슷한 문서들을 적절히 클러스터링을 해서 문서를 분류하는 그런 시스템을 만들어 낸다거나 또 이러한 텍스트 데이터가 가지고 있는 여러 가지 감성 분석 예를 들어서 BTS의 노래 가사가 있다면 이걸 가지고 이게 긍정적인 건지 부정적인 건지 또 고객이 후기를 남겼다면 이 고객은 무엇이 불만인 건지 또 고객들의 불만 사항을 볼 때 고객들의 주 관심사는 어디에 있는 건지 이런 여러 가지 것들 그리고 스팸메일을 분류하는 건 어떻게 하는 거고 이런 것들에 대해서 다양한 예제를 통해서 텍스트 데이터를 마치 정형 데이터처럼 활용하는 방법을 설명드리도록 하겠습니다 그리고 텍스트 데이터에 대해서는 우리가 다양한 워드 키워드에 대해서 이런 키워드들 사이에 관계성을 표현하는 네트워크 분석까지 같이 다뤄보겠습니다 여러분이 강좌의 앞부분에서 비정형 데이터, 그 중에서도 굉장히 난이도가 있는 텍스트 데이터를 다루는 방법을 학습하시고 나면 뒤에 이미지 분석이라고 하는 것은 굉장히 쉽게 할 수가 있습니다. 그래서 이미지를 임포팅하고 임베딩을 하는 것, 그럼 임베딩의 과정에서 여러 임베더가 실제로 어떻게 동작을 하고 있는 건지 CNN이라고 부르는 합성곱 연산에 대해서 우리가 간단하게 개념을 좀 확인하도록 하겠습니다. 이렇게 이미지를 임베딩화하면 우리가 그러한 이미지를 통해서 군집 분석, 분류 모델 같은 것들을 할 수가 있고요 여러 가지 학습 데이터, 예를 들어서 강아지와 고양이 데이터를 본 다음에 새로운 데이터를 보고 아, 이것이 강아지 사진이다 라고 하는 것을 알아볼 수 있는 능력을 갖출 수가 있습니다 이러한 일련의 과정을 통해서 여러분께서도 직접 간단한 클릭 몇 번만으로 그런 시스템을 만드시는 역량을 갖출 수 있을 겁니다

이 강좌의 강의

학습 내용 안내재생 중
비정형 데이터 분석의 이해맛보기
코퍼스와 워드 클라우드
텍스트 전처리와 불용어 사전, 그리고 정규표현식
토큰과 N-그램
텍스트 군집 분석과 Bag of Words
텍스트 문서 분류 모델과 평가
고객의 구매 후기 감성 분석
텍스트 데이터의 네트워크 분석
이미지 데이터 다루기
이미지 임베딩과 합성곱 신경망(CNN)
이미지 데이터 분류 모델

Orange를 활용한 코딩 없는 AI 데이터 분석 - Lv.6 텍스트와 이미지 분석강좌 자세히 보기