본문 바로가기

Study/빅데이터분석기사

[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(다변량 분석)

SMALL

안녕하세요! 데코입니다!

오늘은 빅데이터 분석기사 필기 공부를 하면서

고급 분석기법 파트에 있는 "다변량 분석" 내용을 정리하려고 합니다!

 

(출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서)


1. 다변량 분석의 의미 

- 다변량 분석은 다수의 측정치를 동시에 분석하는 모든 통계적 방법(여러 변수를 동시에)

 

- 다변량 분석 기법은 일변량(단변량) 분석과 이변량분석의 확장형태

ex) 일변량분성 : t-검정, ANOVA(분산분석), 회귀분석 등이 존재

      이변량분석 : 상관분석 등이 존재

 

- 통계적으로 종속변수의 관계성을 고려하여 여러 개의 일변량분석을 동시에 수행함을 의미

 

2. 다변량 분석 용어 정리

1) 종속 기법(Dependence Methods) : 변수들을 종속변수와 독립변수로 구분 후 독립변수들이 종속변수에 미치는 영향력을 분석하는 기법


2) 상호의존적 기법(Interdependence Methods) : 분석할 변수들을 종속변수와 독립변수로 구분하지 않고 전체를 대상으로 분석


3) 명목 척도(Nominal Scale) : 분류만을 위해 사용된 숫자로서 숫자 그 자체는 전혀 의미가 없는 측정단위

ex) 남자는 1로 표기하고 여자는 2로 표기하여 구분


4) 순위 척도(Ordlinal Scale) : 순위를 나타낸 숫자로, 숫자 자체는 의미를 가지나 간격이나 비율이 의미를 가지지 못하는 측정단위

ex) 키가 큰 순서대로 1등부터 n등까지 순위를 부여하여 구분


5) 등간 척도(Interval Scale) : 측정된 숫자 자체와 숫자의 차이는 의미를 가지지만 숫자의 비율은 의미를 가지지 못하는 측정단위

ex) 특정 상품에 대한 만족도를 0점에서 7점 사이의 점수를 부여하여 구분


6) 비율 척도(Ratio Scale) : 측정된 숫자와 그 간격이 의미를 가질 뿐만 아니라 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위

ex) 키, 무게, 길이


7) 정량적 자료(Metric Data) : 등간척도나 비율척도로 측정된 자료로서 양적자료(Quantitative data) 또는 모수화된 자료(Parametric data)라고도 함


8) 비정량적 자료(Nonmetric Data) : 명목척도나 순위척도로 측정된 자료로서 질적자료(Qualitative Data) 또는 비모수화된 자료(Nonparametric Data)라고도 함


9) 변량(Variate) : 변수(Variable)들이 연구자의 실험대상인 표본으로부터 수집한 자료 그대로를 나타내는 반면에 변량(Variate)은 이러한 변수들을 일종의 통계적인 방법으로 가중치를 주어 변수들의 합의 형태로 나타낸 새로운 변수를 의미

 

3. 다변량분석기법의 종류

1) 다중회귀분석(Multi Regression)

- 하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간에 관련성이 있다고 가정되는 연구문제에 적합한 분석기법

 

- 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측


- 다중회귀분석을 통해 회귀모형의 적합도를 분석, 독립변수들이 종속변수를 설명하는 정도, 종속변수에 대한 독립변수들의 상대적인 기여도 파악이 가능


ex) 월 외식경비(종속변수)는 가정의 소득, 가족 구성원의 수와 같은 독립변수들에 의해 예측가능


2) 다변량분산분석. 다변량공분산분석

(1) 다변량분산분석(Multivariate ANOVA)
- 두 개 이상의 범주형 독립변수와 다수의 계량적 종속변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법으로 일변량분산분석의 확장된 형태


- 다변량분산분석은 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증에 유용


ex) 다수의 관광행동집단과 관광만족도 차원이 있을 때 각 관광행동집단의 다수 관광만족도 차원을 비교분석 시 다변량분산분석 사용


(2) 다변량공분산분석(Multivariate ANCOVA)

- 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과를 제거하기 위해 다변량분산분석과 함께 이용되는 방법으로 그 절차는 이변량 부분상관과 비슷


ex)호텔종업원 교육 시 종업원의 학력을 통제한 상태에서 종업원의 이론시험 성적과 실무 성적이 두 가지의 교육방식(강의/학습참여)에 따라 차이가 있는지를 알고자 하는 경우

 

3) 정준상관분석(Canonical Analysis)

- 정준상관분석은 하나의 계량적 종속변수와 다수의 계량적 독립변수 간의 관련성을 조사하는 다중회귀분석을 논리적으로 확대시킨 개념
- 정준상관분석의 기본원리는 종속변수군과 독립변수군 간의 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 일
- 종속변수군과 독립변수군 간의 상관을 최대화하는 각 변수군의 가중치의 집합을 찾는 것


ex) 다수의 외식 동기 항목과 레스토랑 선택속성 변수들 간의 관계분석을 통해 고객의 외식동기가 레스토랑 선택에 미치는 영향을 분석

 

4) 요인분석(Factor Analysis)

- 요인분석은 많은 수의 변수들 간 상호 관련성을 분석하고, 이들 변수들을 어떤 공통 요인들로 설명하고자 할 때 이용되는 기법

 

- 요인분석은 많은 수의 원래 변수들을 이보다 적은 수의 요인으로 요약하기 위한 분석기법


- 요인분석은 주로 검사나 측정도구의 개발과정에서 측정도구의 타당성을 파악하기 위한 방법으로 많이 사용됨


- 요인분석의 종류로는 연구자가 가설적인 요인을 설정하지 않고 얻어진 자료에 근거하여 경험적으로 요인의 구조를 파악하는 탐색적 요인분석과 연구자가 사전에 요인의 구조를 가설적으로 설정하고 이를 검증하는 확인적 요인분석이 존재


ex) 관광객이 여행사를 선택하는 변수(속성)들이 많을 때, 이들 변수 모두를 개별적으로 분석하기보다는 좀 더 이해하기 쉬운 몇 개의 요인으로 축소하거나 요약할 때


5) 군집분석(Cluster Analysis)

- 군집분석은 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때 사용

 

- 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법

 

- 판별분석과 달리 군집분석에서는 집단이 사전에 정의되어 있지 않음


• 군집분석의 단계
(1) 몇 개의 집단이 존재하는가를 알아보기 위해 각 표본들 간의 유사성 혹은 연관성을 조사

(2) 정의된 집단에 어떤 표본을 분류해 넣거나 혹은 그 소속을 예측

(3) 군집기법에 의해 나타난 그룹들에 대해 판별분석을 적용


ex) 공원 운영자가 고객들로부터 각종 레저활동에 대한 관심도, 다양한 실내/외 시설에 대한 선호도 등을 조사하여 각종 주제시설의 세분시장을 발견하려는 경우


6) 다중판별분석(Multi Discriminant Analysis)

- 종속변수가 남/녀와 같이 두 개의 범주로 나누어져 있거나, 상/중/하와 같이 두 개 이상의 범주로 나누어져 있을 경우, 즉 종속변수가 비계량적 변수일 경우 다중판별분석이 이용


- 다중회귀분석과 같이 독립변수는 계량적 변수로 이뤄짐. 판별분석은 각 표본이 여러 개의 범주를 가진 종속변수에 기초한 여러 개의 집단으로 분류될 때 적합


- 다중판별분석의 주목적은 집단 간의 차이를 판별하며, 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성을 예측

다중판별 분석 예시

새 상품이 고객에게 호응을 얻는지 알아보는데 관심이 있다고 가정해보자.

종속변수 새 상품에 대한 고객의 구매 여부
새 상품을 평가하는 척도(독립변수) 가격
크기
무게
기능
다중판별분석을 통해 아래 두 가지를 수행 가능
1. 새 상품을 구매하거나 구매하지 않을 고객을 예측
2. 새 상품을 평가하는 어떤 척도가 구매자와 비구매자를 가장 잘 판별해 줄 수 있는가를 보여줌

예를 들면 새 상품을 살 것이라는 반응이 가격척도 점수가 높은 것과 항상 관련이 있고, 새 상품을 사지 않을 것이라는 반응이 가격척도 점수가 낮은 것과 관련이 있다면, 가격은 구매자와 비구매자를 판별하 는데 좋은 척도라는 결론을 내릴 수 있음

 

7) 다차원척도법(MDS: Multi-Dimensional Scaling)

- 다차원척도법은 다차원 관측값 또는 개체들 간의 거리(distance) 또는 비유사성 (dissimilarity)을 이용하여 개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 공간상에 위치시켜(spatial configuration) 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는데 목적이 있음


- 차원의 축소와 개체들의 상대적 위치 등을 통해 개체들 사이의 관계를 쉽게 파악하고자 하는데 목적이 있으며, 공간적 배열에 대한 주관적인 해석에 중점을 두고 있음

ex) 특정 관광지를 대상으로 관광객의 인지에 대한 유사성 연구

 

- 응답자들이 경쟁관광지와 비교하여 자기 지역 관광상품에 대한 이미지를 어떻게 지각하는지 알 수 있으며, 이를 통해 지역의 차별화 방안 구체화 가능

 

 


 

오늘은 고급 분석기법의 다변량 분석의 개념을 정리해서 작성해 보았습니다.

대부분의 데이터들은 다양한 변수들을 가지고 있어서 다변량 분석이 필수라고 생각해요!

공부하면서 개념 정리하니까 좋은 것 같네요!

 

설명이 어려운 부분 혹은 잘 이해가 안 가는 부분은 그리고 더 궁금한 내용이 있다면

언제든지 댓글로 남겨주세요!
빠르게 궁금증을 해결해드릴게요!

공감과 댓글은 큰 힘이 됩니다!
읽어주셔서 감사합니다! :)

 

 

 

 

 

LIST