- 베이즈 추론(베이지안 추론, Bayesian Inference)은 통계적 추론의 한 방법
- 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법
- 베이즈 추론은 베이즈 확률론을 기반으로 하며, 이는 추론하는 대상을 확률변수로 보아 그 변수의 확률분포를 추정하는 것을 의미
-많은 현대적 기계 학습 방법은 객관적 베이즈 원리에 따라 만들어짐
- 어떤 가설의 확률을 평가하기 위해서 사전 확률을 먼저 밝히고 새로운 관련 데이터에 의한 새로운 확률값을 변경함(in 심리학, 사회학, 경제학 이론)
2) 확률론적 의미 해석(조건부 확률)
- 베이즈 정리(Bayes Theorem) : 사건 “A"의 사전 확률 P(A)가 주어지고, 사건"A"와 관계된 사건 "B"가 있을 때 조건부 확률 P(B | A)가 주어진다면 사후 확률을 구할 수 있음
- 사전 확률 P(A) : 사건 "A”의 확률
- P(B I A) : 사건 “A"가 발생하였다고 했을 때 관계된 "B"가 발생할 조건부 확률
- 사후 확률 P(A I B) : B가 발생 시 조건하에서 "A"가 발생하는 확률
- 이전의 경험과 현재의 증거를 기반으로 어떤 사건의 확률을 추론
= (P(A), P(B), P(B | A)를 통해 P(B | A)을 추론)
2. 베이즈 기법 적용
1) 회귀분석모델에서 베이즈 기법의 적용
• 선형회귀분석모델(Linear Regression)
- 독립변수와 종속변수의 관계에 대해 추론
- 추정치(예측값)와 실제의 차이(loss)를 최소화하는 것이 이 회귀분석모델(regression)의 목표
• 기존 머신러닝의 방법 - 머신러닝은 경사하강법(Gradient Descent)과 같은 알고리즘을 통해 점진적 으로 학습하여 매개변수(parameter)를 찾음
• 베이지안 확률론의 적용개념 - 추정하고자 하는 매개변수 θ_0과 θ_1이 하나의 특정한 값을 갖는 것이 아니라 분포를 갖는다고 가정하면
머신 러닝이 매개변수를 찾는 과정을 베이즈 정리를 이용해서 다음과 같이 표현 가능.
- P(model)이라는 사전확률(prior)을 알고 있는데 새로운 데이터가 관측이 되면 posterior (P(model | Data))를 얻고 이를 다음번 학습의 사전확률로 사용하면서 점진적으로 P(model), 즉 매개변수(parameter)들의 분포를 찾아가는 과정이 머신러닝 과정으로 만들 짐
2) 분류에서 베이즈 기법의 적용
• 나이브 베이즈 분류(Naive Bayes Classification) - 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기를 지칭함
• 나이브 베이즈의 특성 - 분류기를 만들 수 있는 간단한 기술로서 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련
- 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값이 서로 독립임을 가정
ex) 특정 과일을 귤로 인식(분류)하게 하는 특성은 아래와 같다 1. 노란색(특성 1) 2. 둥글다(특성 2) 3. 표면이 울퉁불퉁(특성 3) 4. 지름이 5cm(특성 4)
위와 같은 특성들은 나이브 베이즈 분류기에서는 아무런 연관성이 없다(독립사건)
• 나이브 베이즈의 장점 - 특정 확률모델에서 나이브 베이즈 분류는 지도 학습(Supervised Learning)에서 매우 효율적으로 훈련됨
- 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적음
- 간단한 디자인과 단순한 가정에도 불구하고, 복잡한 실제 상황에서 잘 작동
. • 나이브 베이즈 분류기의 생성(확률모델) - 나이브 베이즈는 조건부 확률 모델
- 분류될 인스턴스들은 N개의 특성(독립변수)을 나타내는 벡터 X=x1,x2, ... , xn로 표현
- 나이브 베이즈 분류기는 해당 벡터를 이용하여 k개의 가능한 확률적 결과들(클래스)을 할당
- 위의 공식을 베이즈 정리와 조건부 확률을 이용하여 다음과 같이 정리 가능
ex) 문서 이진분류 모델 문서 doc가 주어졌을 때 범주 C1과 C2로 분류 시 - 문서 doc가 주어졌을 때 해당 문서 범주가 C1인 확률과 C2인 확률을 비교(알고 싶은 값)
- 나이브 베이즈 모델은 P(C1 | Doc) / P(Doc)와 P(C2 | Doc)/P(Doc)를 비교해서 그 값이 큰 쪽으로 범주를 할당
• 이벤트 모델
- 클래스의 사전확률은 클래스 간의 동일 확률을 가정하여 계산 가능
(사전 확률 = 1/클래스의 수)
- 트레이닝 셋(training set)으로부터 클래스의 확률의 추정치를 계산 가능
(해당 클래스의 사전확률 = 해당 클래스의 샘플 수/샘플의 총수).
- 특성의 분포에 대한 모수들을 추정하기 위해서는, 트레이닝 셋의 특성들을 위한 비모수 모델이나 분포 가정 필요