상관 분석(Correlation Analysis)
상관 분석은 두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법으로, 상관계수를 활용한다.
+1에 가까우면 강한 양의 상관관계를 -1에 가까우면 강한 음의 상관관계를 가진다.
0에 가까울 수록 상관관계가 없음
상관관계가 있다는 것이 변수 사이에 인과관계가 있다는 의미는 아니다.
산점도 행렬(Scatter Plot Matrix)
산점도와 상관계수를 하나의 산점도 행렬을 통해 시각화 할 수 있다.
상관 관계 귀무가설(H0)상관 분석의 귀무가설은 두 변수는 아무 상관관계가 없다는 점이다.
p-value가 유의수준보다 작아서 귀무가설을 기각할 수 있다면, 두 변수 간에 유의한 상관관계가 있다고 말할 수 있다.
1. 피어슨 상관 분석(선형적 상관관계)
두 변수가 모두 정규분포를 따른다는 가정이 필요하다.
> X<-c(1, 2, 3, 4, 5)
> Y<-c(3, 6, 4, 9 ,8)
> cor(X, Y, method='pearson')
[1] 0.8062258
2. 스피어만 상관 분석(비선형적 상관관계)
두 변수들이 서열척도일 때 사용하는 상관계수
스피어만 상관계수는 비모수적 방법으로 관측값의 순위에 대하여 상관관계를 계산하는 방법이다.
> X<-c(1, 2, 3, 4, 5)
> Y<-c(3, 6, 4, 9 ,8)
> cor(X, Y, method='spearman')
[1] 0.8
correlation analysis test
| time |
학습시간(시간) |
8 |
6 |
7 |
3 |
2 |
4 |
2 |
7 |
2 |
3 |
| score |
점수(점) |
33 |
22 |
18 |
6 |
23 |
10 |
9 |
30 |
11 |
13 |
> time<-c(8, 6, 7, 3, 2, 4, 2, 7, 2, 3)
> score<-c(33, 22, 18, 6, 23, 10, 9, 30, 11, 13)
> cor.test(time, score)
Pearson's product-moment correlation
data: time and score
t = 3.0733, df = 8, p-value = 0.01527
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1978427 0.9331309
sample estimates:
cor
0.7358112
p-value가 유의수준 0.05보다 작으므로 귀무가설을 기가한다.
두 변수의 상관계수 추정치(cor)는 0.7358112
두 변수 간(time, score) 상관관계가 있다고 통계적으로 말할 수 있다.