안녕하세요! 데코입니다!
오늘은 빅데이터 분석기사 필기 공부를 하면서
고급 분석기법 파트에 있는 "비정형 데이터 분석" 내용을 정리하려고 합니다!
(출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서)
1. 비정형 데이터 개념
- 비정형 데이터(Unstructured-Data)는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음
ex) 텍스트 데이터, 이미지, 동영상
(1) 데이터 수집 난이도
(2) 데이터 처리 아키텍처
(3) 데이터의 잠재적 가치
- 정형 데이터 < 반정형 데이터 < 비정형 데이터(가장 가치가 높음)
2. 비정형 데이터 분석
- 빅데이터 환경에서 80% 이상의 데이터가 비정형 데이터(분석 중요도가 높음)
- 현재는 컴퓨터 기술의 발달로 비정형 데이터를 제한 없이 분석하여 결과 도출하는 수준
(1) 비정형 데이터 분서의 기본 원리
- 비정형 데이터 내용 파악, 비정형 데이터 속 패턴 발견이 목적
- 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석과 같은 기법 사용
- 비정형 데이터를 정형 데이터로 만든 후 의미 있는 정보 발굴(군집화, 회귀, 분류, 이상감지 분석 등 적용)
(2) 데이터 마이닝(Data Mining)
- 데이터 마이닝은 대규모로 저장된 데이터 안에서 통계적 규칙, 패턴을 분석하여 가치 있는 정보 추출하는 과정
- KDD(데이터베이스 속의 지식 발견, Knowledge-Discovery in Databases)라고도 함
- 통계학 쪽에서 발전한 탐색적 자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론 활용
- 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리, On-Line Analytic Processing) 활용
- 인공지능 진영에서 발전한 SOM(자기 조직화 지도, Self-Organicing Map), 신경망, 전문가 시스템 등의 기술적인 방법론 활용
- 전통적인 데이터 마이닝 기법은 비정형데이터를 정형화하는 기반하에서 상식적 범위에서 부분적인 데이터를 다룬다는 한계가 존재
(3) 데이터 마이닝 적용 분야
- 분류(Classification) : 일정한 집단에서 특정 정의를 통해 분류 및 구분을 추론(지도 학습)
- 군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾음. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않음(바지도 학습)
- 연관성(Association) : 동시에 발생한 사건 간의 관계를 파악
- 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 파악. 기간의 특성을 제외하면 연관성 분석과 유사
- 예측(Forecasine) : 대용량 데이터 집합 내 패턴을 기반으로 미래를 예측(지도 학습)
3. 텍스트 마이닝(Text Mining)
- 전통적인 데이터 마이닝의 한계를 벗어난 방법
- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용함
- 이를 통하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등 의미를 발견
- 자연어 처리는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나
- 정보 검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등에 활용
4. 웹 마이닝(Web Mining)
- 웹 마이닝은 데이터 마이닝 기술의 응용분야로 인터넷을 통해 웹자원으로부터 의미 있는 패턴, 프로파일, 추세 등을 발견하는 것을 의미
- 데이터의 속성이 반정형이거나 비정형이고, 링크(Link) 구조를 가지므로 전통적인 데이터 마이닝 기술에 추가적인 분석기법이 필요
.
- 정보필터링, 경쟁자와 특허, 그리고 기술개발 등의 감시, 이용도 분석을 위한 웹 액세스 로그의 마이닝, 브라우징(고객의 웹에서의 이동경로 탐색) 지원 등에 활용
5. 오피니언 마이닝(Opinion Mining)
- 오피니언 마이닝은 특정 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 의견, 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것을 의미
- 사람들의 주관적인 의견을 통계 및 수치화하여 객관적인 정보로 바꾸는 기술
- 특정 사안이나 인물에 대한 사람들의 의견 그리고 감정과 태도도 분석하기 때문에 감정 분석이라고도 함
- 오피니언 마이닝도 분석 대상이 텍스트이므로 텍스트 마이닝에서 활용하는 자연어 처리 방법을 사용
- 주된 분석 대상은 포털 게시판, 블로그, 쇼핑몰과 같은 대규모의 웹 문서이다.
6. 리얼리티 마이닝(Reality Mining)
- 리얼리티 마이닝은 스마트폰 등의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법을 의미
- 활용 데이터는 통화/메시징 등의 커뮤니케이션 데이터, GPS/WIFI 등의 위치 데이터
- 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 함
오늘은 빅데이터분석기사 필기시험을 준비하면서
비정형 데이터 분석에 관한 내용을 정리해 보았습니다!
비정형 분석은 말 그대로 정형화되어 있지 않기 때문에 데이터 수집부터 난이도가 높지만
그만큼 분석 목적에 맞게 데이터를 수집하고 활용할 수 있다는 것이 매력적인 부분이라고 생각해요!
필기시험에는 정형/반정형/비정형 데이터의 차이, 데이터 마이닝 이 정도 출제 할 것 같다고 생각이 듭니다!
설명이 어려운 부분 혹은 잘 이해가 안 가는 부분
그리고 더 궁금한 내용이 있다면
언제든지 댓글로 남겨주세요!
빠르게 궁금증을 해결해드릴게요!
공감과 댓글은 큰 힘이 됩니다!
읽어주셔서 감사합니다! :)
'Study > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사/빅분기/실기] 빅데이터분석기사 실기 시험 팁 TIPS!!(help()와 dir() 활용) (47) | 2023.05.30 |
---|---|
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(앙상블 분석) (39) | 2023.02.21 |
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(딥러닝 분석) (23) | 2023.02.10 |
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(베이즈 추론) (28) | 2023.01.30 |
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(시계열분석) (40) | 2023.01.26 |