안녕하세요! 데코입니다!
오늘은 빅데이터 분석기사 필기 공부를 하면서
고급 분석기법 파트에 있는 "시계열분석" 내용을 정리하려고 합니다!
(출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서)
1. 시계열분석 의미
- 시계열 자료(data)를 분석하고 여러 변수들 간의 인과관계를 분석하는 방법론
- 시계열자료의 구분, 정상성 구분에 따른 분석모형 그리고 회귀 분석에 대해 이해 필요
- 시계열 자료를 이용하여 미래에 대해 예측 또는 제어하는 것이 주 이용 목적
2. 시계열 자료의 개념
1) 시계열 자료
- 시간의 흐름에 따라서 관측되는 데이터를 의미
- 시계열 자료를 이용하여 미래에 대해 예측 또는 제어하는 것이 주 이용 목적
(1) 이산시계열 : 관측값들이 이산적인 형태로 분리되어 존재
(2) 연속 시계열 : 관측값들이 연속적으로 연결된 형태의 자료
(3) 시차(Time Lag) : 한 관측시점과 다른 관측시점 사이의 간격
2) 시계열 자료의 성분
(1) 불규칙 성분(lrregular Componend) : 시간에 따른 규칙적인 움직임이 없는(무관 하게) 랜덤하게 변화하는 변동 성분이다.
(2) 체계적 성분(Systemic Component) : 시간에 다른 규칙이 존재하는 변동성분
• 추세성분(Trend Component) : 관측 값이 지속적 증가 또는 감소하는 추세(Trend)를 포함
• 계절성분(Seasonal Component) : 주기적 성분에 의한 변동을 가지는 형태(계절, 주, 월, 년 등)
• 순환성분(Cyclical Component) : 주기적 변화를 가지나 계절적인 것이 아닌 주기가 긴 변동을 가지는 형태
• 복합성분 : 추세성분과 계절성분을 동시에 가지는 경우를 지칭한다
• 자기상관성(Autocorrelation) : 시계열 데이터에서 시차값들 사이에 선형관계를 보이는 것을 자기 상관이라 함
• 백색잡음(White Noise) : 자기 상관성이 없는 시계열 데이터를 지칭하며 아무런 패턴이 남아있지 않은 무작위 한 움직임(진동)을 보이는 데이터를 의미
3) 정상성(Stationarity)
- 시계열 데이터가 평균과 분산이 일정한 경우를 의미
- 일반적으로 시계열 데이터가 정상성을 가지면 분석이 용이한 형태로 볼 수 있음
(1) 평균이 일정
• 모든 시점에 대해 평균이 일정
• 시계열 데이터가 평균이 일정하지 않은 경우 차분(difference)을 통해 정상성을 가지도록 변형 필요
(2) 분산이 일정
• 모든 시점에서 분산이 일정
• 시계열 데이터가 분산이 일정하지 않으면 변환(transformation)을 통해 정상성을 가지도록 변형 필요
(3) 공분산도 시차에만 의존하며 특정시점에는 의존하지 않음
(4) 정상성을 가지는 시계열 자료의 특징
• 정상시계열은 어떤 시점에서 평균분산 그리고 특정시차가 일정한 경우의 공분산이 동일
• 정상시계열은 항상 평균회귀 경향이 있으며 평균 주변의 변동은 대체로 일정한 폭을 가짐
• 정상성을 가지는 시계열의 경우는 특정기간에서 얻은 정보를 다른 시기에서도 사용이 가능한 정보로 일반화가 가능하지만 아닌 경우는 일반화가 힘듦
3. 시계열자료 분석 방법
(1) 단순방법
• 이동평균법(Moving Average Method)
- 과거로부터 현재까지 시계열 자료를 대상으로 시계열을 이동하면서 평균을 계산하는 방법
- 이를 통해 추세를 파악 후 시계열의 다음 기간을 예측에 사용(간단한 방법으로 추세의 판단이 가능)
- 데이터가 많고 안정된 패턴을 보이는 경우 추세의 판단의 효용성이 높음
- 데이터가 뚜렷한 추세가 있거나 불규칙 움직임이 적은 경우는 n을 작게(짧은 관찰기간)
- 데이터가 뚜렷한 추세가 없거나 불규칙 움직임이 많은 경우는 n을 늘려서 사용(긴 관찰기간)
• 지수평활법(Exponential Smoothing Method)
- 이동평균법과 달리 모든 시계열 데이터를 사용하며 최근 시계열에 더 많은 가중치를 주며 추세를 찾는 방법
- 지수평할법은 단기간에 발생하는 불규칙 변동을 평활하는데 주로 사용
- 지수평활계수의 효과로 과거 데이터일수록 가중치를 적게(지수적 감소) 배당하며 구함
- 장기 추세나 계절성이 포함된 시계열 데이터에는 부적합
• 분해법(Decomposition Method)
- 분해법은 시계열자료의 성분 분류대로 시계열 데이터를 분해하는 방법(추세성분, 계절성분, 순환성분)
- 분해법사용의 목적은 시계열 자료를 분해된 성분별로 해석에 있음. 시계열자료로부터 계절적 특성, 추세/순환 성분을 분리하여 시계열의 장기적 추이를 분석하며, 불규칙성분으로부터 불규칙성이 발생한 시점을 찾음
- 계절조정(Seasonal Adjustment) 자료를 제공
(2) 모형에 의한 방법
• 자기회귀모형(AR: AutoRegressive Model)
• 자기회귀이동평균모형(ARMA: AutoRegressive Moving Average Model)
• 자기회귀누적이동평균모형(ARMA: AutoRegressive Integrated Moving Average Model)
- ARIMA(p, d, q) 형태로 정의하며 비정상성을 가지는 시계열 데이터 분석에 많이 사용
- ARIMA(p, d, q)은 시계열 데이터 X를 d번 차분 후 만들어진 ARMA(p, q) 모형을 의미
d = 0 : ARMA(p, q)이므로 정상성을 가지는 데이터가 된다.
p = 0 : IMA(d, q)이므로 d번 차분하면 MA(q) 모형을 따른다.
q = 0 : AR(p, d)이므로 d번 차분하면 AR(p) 모형을 따른다.
*시계열에서 차분의 정의
차분은 미분의 이산적 형태로 정의하며 산출 식은 아래와 같다.
통계학과를 졸업한 지 시간이 조금 지나서인지
일부 개념이 헷갈려서 공부 겸 기록 겸 글을 작성해 보았습니다!
시계열 분석은 이론을 바탕으로 실제로 적용을 해보면서 모형을 발견해야 해요!
발견한 모형을 기반으로 예측을 해야 해서 머신러닝을 이용한 분석에서는
어려운 난이도에 속한다고 개인적으로 생각해요!
설명이 어려운 부분 혹은 잘 이해가 안 가는 부분은 그리고 더 궁금한 내용이 있다면
언제든지 댓글로 남겨주세요!
빠르게 궁금증을 해결해드릴게요!
공감과 댓글은 큰 힘이 됩니다!
읽어주셔서 감사합니다! :)
'Study > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(비정형 데이터 분석) (14) | 2023.02.14 |
---|---|
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(딥러닝 분석) (23) | 2023.02.10 |
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(베이즈 추론) (28) | 2023.01.30 |
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(다변량 분석) (25) | 2023.01.24 |
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(범주형 자료분석) (24) | 2023.01.20 |