본문 바로가기

Study/빅데이터분석기사

[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(비정형 데이터 분석)

SMALL

안녕하세요! 데코입니다!

오늘은 빅데이터 분석기사 필기 공부를 하면서

고급 분석기법 파트에 있는 "비정형 데이터 분석" 내용을 정리하려고 합니다!

 

(출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서)


1. 비정형 데이터 개념

 - 비정형 데이터(Unstructured-Data)는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음

    ex) 텍스트 데이터, 이미지, 동영상

 

(1) 데이터 수집 난이도

 

(2) 데이터 처리 아키텍처

 

(3) 데이터의 잠재적 가치

 -  정형 데이터  <  반정형 데이터  <  비정형 데이터(가장 가치가 높음)

 

2. 비정형 데이터 분석

 - 빅데이터 환경에서 80% 이상의 데이터가 비정형 데이터(분석 중요도가 높음)

 

 - 현재는 컴퓨터 기술의 발달로 비정형 데이터를 제한 없이 분석하여 결과 도출하는 수준

 

(1) 비정형 데이터 분서의 기본 원리

 - 비정형 데이터 내용 파악, 비정형 데이터 속 패턴 발견이 목적

 

 - 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석과 같은 기법 사용 

 

 - 비정형 데이터를 정형 데이터로 만든 후 의미 있는 정보 발굴(군집화, 회귀, 분류, 이상감지 분석 등 적용)

 

(2) 데이터 마이닝(Data Mining)

 - 데이터 마이닝은 대규모로 저장된 데이터 안에서 통계적 규칙, 패턴을 분석하여 가치 있는 정보 추출하는 과정

 

 - KDD(데이터베이스 속의 지식 발견, Knowledge-Discovery in Databases)라고도 함

 

 - 통계학 쪽에서 발전한 탐색적 자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론 활용

 

 - 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리, On-Line Analytic Processing) 활용

 

 - 인공지능 진영에서 발전한 SOM(자기 조직화 지도, Self-Organicing Map), 신경망, 전문가 시스템 등의 기술적인 방법론 활용

 

 - 전통적인 데이터 마이닝 기법은 비정형데이터를 정형화하는 기반하에서 상식적 범위에서 부분적인 데이터를 다룬다는 한계가 존재

 

(3) 데이터 마이닝 적용 분야

 - 분류(Classification) : 일정한 집단에서 특정 정의를 통해 분류 및 구분을 추론(지도 학습)


 - 군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾음. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않음(바지도 학습)


 - 연관성(Association) : 동시에 발생한 사건 간의 관계를 파악


 - 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 파악. 기간의 특성을 제외하면 연관성 분석과 유사


 - 예측(Forecasine) : 대용량 데이터 집합 내 패턴을 기반으로 미래를 예측(지도 학습)

 

3. 텍스트 마이닝(Text Mining)

 - 전통적인 데이터 마이닝의 한계를 벗어난 방법

 

 - 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용함

 

 - 이를 통하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등 의미를 발견

 

 - 자연어 처리는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나

 

 - 정보 검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등에 활용

텍스트 마이닝(Text Mining)

 

4. 웹 마이닝(Web Mining)

 - 웹 마이닝은 데이터 마이닝 기술의 응용분야로 인터넷을 통해 웹자원으로부터 의미 있는 패턴, 프로파일, 추세 등을 발견하는 것을 의미


 - 데이터의 속성이 반정형이거나 비정형이고, 링크(Link) 구조를 가지므로 전통적인 데이터 마이닝 기술에 추가적인 분석기법이 필요

.
 - 정보필터링, 경쟁자와 특허, 그리고 기술개발 등의 감시, 이용도 분석을 위한 웹 액세스 로그의 마이닝, 브라우징(고객의 웹에서의 이동경로 탐색) 지원 등에 활용

웹 마이닝(Web Mining)

 

5. 오피니언 마이닝(Opinion Mining)

 - 오피니언 마이닝은 특정 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 의견, 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것을 의미


 - 사람들의 주관적인 의견을 통계 및 수치화하여 객관적인 정보로 바꾸는 기술

 

 - 특정 사안이나 인물에 대한 사람들의 의견 그리고  감정과 태도도 분석하기 때문에 감정 분석이라고도 함


 - 오피니언 마이닝도 분석 대상이 텍스트이므로 텍스트 마이닝에서 활용하는 자연어 처리 방법을 사용

 

 - 주된 분석 대상은 포털 게시판, 블로그, 쇼핑몰과 같은 대규모의 웹 문서이다.

오피니언 마이닝(Opinion Mining)


6. 리얼리티 마이닝(Reality Mining)

 - 리얼리티 마이닝은 스마트폰 등의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법을 의미


 - 활용 데이터는 통화/메시징 등의 커뮤니케이션 데이터, GPS/WIFI 등의 위치 데이터

 

 - 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 함

리얼리티 마이닝(Reality Mining)


오늘은 빅데이터분석기사 필기시험을 준비하면서

비정형 데이터 분석에 관한 내용을 정리해 보았습니다!

 

비정형 분석은 말 그대로 정형화되어 있지 않기 때문에 데이터 수집부터 난이도가 높지만

그만큼 분석 목적에 맞게 데이터를 수집하고 활용할 수 있다는 것이 매력적인 부분이라고 생각해요!

 

필기시험에는 정형/반정형/비정형 데이터의 차이, 데이터 마이닝 이 정도 출제 할 것 같다고 생각이 듭니다!

 

설명이 어려운 부분 혹은 잘 이해가 안 가는 부분

그리고 더 궁금한 내용이 있다면

 

언제든지 댓글로 남겨주세요!

빠르게 궁금증을 해결해드릴게요!

 

공감과 댓글은 큰 힘이 됩니다!

읽어주셔서 감사합니다! :)

LIST