본문 바로가기

Study/빅데이터분석기사

[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(범주형 자료분석)

SMALL

안녕하세요! 데코입니다!

오늘은 빅데이터 분석기사 필기 공부를 하면서

고급 분석기법 파트에 있는 "범주형 자료분석" 내용을 정리하려고 합니다!

 

(출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서)


1. 범주형 자료분석의 통계적 의미 

- 범주형 자료분석은 변수들이 이산형 변수일 때 이용하는 분석

  ex)  1. 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부 판단

         2. 각 집단 간의 비율차이가 있는지 확인하기 위한 경우

 

- 범주형 변수를 다룰 때에는 주로 빈도를 세서 표로 작성하고, 두 변수의 범주가 교차된 표가 있다면 이를 분할표(Contingency Table)이라 함

 

- 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정등의 카이제곱 검정을 수행, 일반 선형모형 해석에도 사용 됌

 

2. 자료의 분석 

1) 자료의 형태에 따른 범주형 자료 분석 방법

독립변수 종속변수 분석방법
범주형 범주형 빈도분석, 카이제곱 검정,
로그선형분석
연속형 범주형 로지스틱 회귀분석
범주형 연속형 T검정(2그룹)
분산분석(3그룹 이상)
= ANOVA 분석
연속형 연속형 상관분석, 회귀분석

2) 분할표

분할표 예시 (1) : 세 곳의 지역과 네 곳의 정당별 선호도 조사

3 X 4 분할표 - 지역별 정당선호도 차이에 대한 조사

분할표 예시 (2) : 서울과 A당 중심으로 2차원 분할표로 변형

2 X 2 분할표 - 지역별 정당선호도 차이에 대한 조사

 

- 오즈란 성공할 확률이 실패할 확률의 몇배인지를 나타내는식(성공은 정의하기 나름)

 

- 오즈비는 2  X 2 분할표에서 나오는 두 오즈를 나눈 값, 독립인 경우 오즈비가 1이다.

 

  ex)  A당을 선호하는 것을 성공이라고 가정을 해보자

         2 x 2 분할표에서 서울의 오즈(Odds)는 10 / 30 = 0.33

            =  성공 확률이 실패 확률의 0.33배를 의미

         2 x 2 분할표에서 서울 외의 오즈(Odds)는 25 / 55 = 0.45

            = 성공 확률이 실패 확률의 0.45배를 의미

         2 x 2 분할표에서 오즈비(Odds Ratio)는  0.33/ 0.45 = 0.73

            = 서울에서 성공이 서울외에서의 성공의 0.73배를 의미

            = 1이 아니므로 독립이 아니다.

          

3) 교차분석 또는 카이제곱검정(Chi-Square Test)

-  두 범주형 변수가 서로 상관이 있는지(동질성), 독립인지를 판단(독립성)하는 통계적 검정방법

  ex)  1. 성별에 따라 종교의 차이가 유의미 한지

         2. 종교에 따라 취미의 분포 차이가 있는지

         3. 야당과 여당에 따라 긍정, 부정의 시각차가 있는지

 

-  사용되는 통계량은 x^2을 이용하여 카이제곱검정(Chi-Square Test)에 의한 방법으로 분석

 

4) 로지스틱 회귀분석

- 분석 대상들을 각각어느 집단으로 분류될 수 있는지를 분석할 때 사용(분류)

 

5) t-검정

- 독립변수가 범주형(두 개의집단)이고 종속변수가 연속형인 경우 사용되는 방법

- 두 집단간의 평균 비교 등에 사용

 

6) 분산분석(ANOVA)

- 독립변수가 범주형(두 개 이상의 집단)이고 종속변수가 연속형인 경우 사용

- 두 집단간의 분산 비교 등에 사용

 


통계학과를 졸업한 지 시간이 조금 지나서인지

일부 개념이 헷갈려서 공부 겸 기록 겸 글을 작성해보았습니다!

 

설명이 어려운 부분 혹은 잘 이해가 안 가는 부분은 그리고 더 궁금한 내용이 있다면

언제든지 댓글로 남겨주세요!
빠르게 궁금증을 해결해드릴게요!

공감과 댓글은 큰 힘이 됩니다!
읽어주셔서 감사합니다! ;)

 

 

 

 

 

LIST