카테고리 없음

Statistics) 공분산과 상관계수

@0-0 2024. 1. 8. 00:09
반응형

분산

: 어떤 대상의 흩어진 정도나 상태,

   확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자

 

 

성질_

1)  분산은 항상 0 이상의 값을 가짐(∵ 어떤 실수의 제곱은 0 이상이므로)

2) 상수의 분산은 0, 역도 성립하므로 어떤 확률변수 X에 해당하는 분산값이 0이면 확률변수는 항상 상수값을 출력

3) 분산이 평균값 µ에 대해 독립변수이므로 다음이 성립함

 

공분산

: 2개의 확률변수의 선형 관계를 나타내는 값, 한 확률변수의 증감에 따른 다른 확률변수의 증감의 경향에 대한 측도

두 개의 확률변수의 흩어진 정도

 

- x, y가 독립이라면 공분산은 0

 

 

출처: 위키백과(공분산)

-   두 확률변수의 경향에 따라 공분산의 값이 달라짐, 이때 공분산은 두 변수의 측정 단위의 크기에 영향을 받음

상관성이 낮아도 절대적 점수가 높은 공분산이 상관성이 높은 경우보다 높게 나올 수 있음

 

성질_

1) X, Y가 실수값인 확률변수이고 a,b가 상수일 때 다음이 성립함

* 공분산의 많은 성질은 내적의 성질과 유사함

 

 

상관성

출처: ABLEARN

1. 양의 상관관계: 변수 x가 증가할 때 y 증가

2. 음의 상관관계: 변수 x가 증가할 때 y 감소

3. 상관관계 없음: 변수 x의 움직임과 y의 움직임이 상관없음

 

상관계수

: 상관 관계의 정도를 수치적으로 나타낸 계수

 

 

-  -1 ≤ p ≤ 1

출처: ABLEARN

 

- 상관계수는 공분산의 단점을 보완

 

상관관계 vs 인과관계

- 상관관계: 두 변수 사이에서 보여지는 상관성

- 인과관계: x 때문에 y가 발생   회귀분석을 통해 인과관계의 방향, 정도, 수학적 모델 확인 가능

 

 

 

출처: wikipedia, namu wiki

 

반응형