안녕하세요, 산격동 너구리입니다.
이번 포스팅은,
R을 이용한 "스피어만 상관 계수"와 "켄달 타우 계수"입니다.
피어슨 상관 계수처럼 두 변수 간 상관 관계를 나타내는 수치이지만,
피어슨 상관 계수와는 다르게 두 변수를 순서형 변수로 취급합니다.
이 때문에 피어슨 상관 관계의 가정보다 비교적 완화된 가정을 가지고 있습니다.
따라서, 피어슨 상관 계수의 가정을 충족시키지 못 할 때, 해당 분석으로 대체할 수도 있습니다.
개요
스피어만 상관 계수와 켄달 타우 계수란??
두 변수의 상관 관계를 계량화한 수치입니다.
결과값은 -1 ~ 1 사이의 값이며,
양의 상관 관계가 있을수록 1에 가깝고, 음의 상관 관계가 있을수록 -1에 가깝습니다.
또한, 상관 관계가 없을수록 0에 가깝습니다.
피어슨 상관 계수와 큰 차이점은,
피어슨 상관 계수는 선형 상관 관계이지만,
스피어만 상관 계수와 켄달 타우 계수는 상관 관계에 대한 값입니다.
따라서, 피어슨 상관 계수처럼 두 변수가 꼭 선형적인 관계를 가질 필요가 없습니다.
가정
1. 두 변수는 적어도 순서형 변수이다.
2. 두 변수는 단조 관계를 가진다.
스피어만 상관 계수와 켄달 타우 계수를 구할 때, 값들을 순위로 바꿔서 계산한다고 보시면 됩니다.
따라서, 두 변수의 관계가 꼭 선형적인 관계일 필요는 없습니다.
형태가 어떻든 증가하거나 감소하기만 하면 됩니다.
또, 값을 순위로 바꾸기 때문에 피어슨 상관 계수처럼 이상치에 민감하지 않습니다.
값이 1, 2, 3, 999999999 이더라도, 순위는 결국 1, 2, 3, 4 이기 때문입니다.
이처럼 피어슨 상관 계수보다 가정이 약합니다.
가설
귀무가설 : 상관계수는 0이다(=상관 관계가 없다).
대립가설 : 상관계수는 0이 아니다(=상관 관계가 있다).
선형 상관 관계가 아니라 그냥 상관 관계라는 것만 빼면, 나머지는 피어슨 상관 분석을 하는 것처럼 하시면 됩니다.
피어슨 상관 계수처럼 귀무가설 자체가 "상관 계수는 0이다."이기 때문에
p-value가 0.05미만일 때에만 상관 계수가 의미를 가집니다.
피어슨 상관 계수와의 차이점에 대해서는 많이 말씀드렸는데,
그럼 스피어만 상관 계수와 켄달 타우 계수는 어떤 차이가 있을까요?
계산식이 다른 것은 당연한데, 정확하게 어떤 점이 다른지는 잘 모르겠습니다...ㅎ..
다만, 소표본이고, 동점이 많을 때에는 켄달 타우 계수를 더 선호한다고 합니다.
저라면 둘 다 해보거나 관련 논문을 참고해서 하나 결정할 것 같네요.
예제
이전 포스팅인 피어슨 상관 계수에 사용했던 예제를 사용하겠습니다.
예제 변수는 3개가 있고, 변수에 특별한 의미는 부여하지 않았습니다.
데이터 불러오기
## 데이터 불러오기
data = read.csv("F:/산격동 너구리/[수정]/예제 파일/13. [산격동 너구리] 상관 분석 예제.csv", header = T)
가정
1. 단조 관계
## 단조 관계 가정
pairs(data)
피어슨과 마찬가지로 보통은 산점도를 보고 확인합니다.
VAR2와 VAR3간에는 증가하는 관계가 보입니다.
나머지도 조금은 증가하는 관계가 보이는 것 같지만, 조금 애매해보입니다.
애매하긴 하지만, 완전히 커브형태인 것은 아니니 값을 확인해봐도 될 것 같습니다.
2. 연속형 변수이기 때문에 당연히 적어도 순서형 변수라는 가정을 만족합니다.
가설
귀무가설 : 두 변수 간 상관계수는 0이다(=상관 관계가 없다).
대립가설 : 두 변수 간 상관계수는 0이 아니다(=상관 관계가 있다).
스피어만 상관 분석
## 스피어만 상관 분석
library(psych)
corr.test(data,
use = 'complete',
method = 'spearman',
adjust = 'none')
처음 나오는 행렬이 상관 계수를 나타내는 행렬입니다.
두 번째로 나오는 행렬이
따라서 변수 간 상관 계수와 p-value는 다음과 같습니다.
VAR1 - VAR2 : 0.36 (0.00)
VAR1 - VAR3 : 0.22 (0.01)
VAR2 - VAR3 : 0.65 (0.00)
결과를 저장해서 좀 더 세부적인 값을 확인해봅시다.
# 세부 결과
res = corr.test(data,
use = 'complete',
method = 'spearman',
adjust = 'none')
res$r
res$p
스피어만 상관 분석 결과,
모든 변수 간 상관 계수는 유의한 것으로 나옵니다.
따라서, 변수들 간에 유의한 상관 관계가 있음을 확인할 수 있습니다.
상관 계수의 부호에 따라 양의 상관 관계 또는 음의 상관 관계인 것을 확인하시면 됩니다.
켄달 타우 계수
## 켄달 타우
corr.test(data,
use = 'complete',
method = 'kendall',
adjust = 'none')
처음 나오는 행렬이 상관 계수를 나타내는 행렬입니다.
두 번째로 나오는 행렬이
따라서 변수 간 상관 계수와 p-value는 다음과 같습니다.
VAR1 - VAR2 : 0.25 (0.00)
VAR1 - VAR3 : 0.15 (0.08)
VAR2 - VAR3 : 0.48 (0.00)
결과를 저장해서 좀 더 세부적인 값을 확인해봅시다.
# 세부 결과
res = corr.test(data,
use = 'complete',
method = 'kendall',
adjust = 'none')
res$r
res$p
켄달 타우 계수 결과,
모든 변수 간 상관 계수는 유의한 것으로 나옵니다.
따라서, 변수들 간에 유의한 상관 관계가 있음을 확인할 수 있습니다.
상관 계수의 부호에 따라 양의 상관 관계 또는 음의 상관 관계인 것을 확인하시면 됩니다.
이것으로 R을 이용한 스피어만 상관 계수와 켄달 타우 계수에 대해 마치도록 하겠습니다.
이상, 산격동 너구리였습니다.
감사합니다.
* 잘못된 정보 및 오타가 포함되어 있을 수 있습니다.
그대로 받아들이시기보다는 다른 사람의 의견도 참고하셔서 분석하시길 바랍니다.
* 포스팅 내용 및 통계 분석 관련 질문은 언제나 환영입니다.
가능한 선에서 최대한 답변하도록 하겠습니다.
'내가 하는 통계 분석 > R' 카테고리의 다른 글
[내가 하는 통계 분석] 회귀분석(2). 변수 선택법, 로그 변환 in R (0) | 2021.04.05 |
---|---|
[내가 하는 통계 분석] 회귀분석(1). 회귀분석(Regression) in R (0) | 2021.04.03 |
[내가 하는 통계 분석] 피어슨 상관 계수(Pearson correlation coefficient) in R (0) | 2021.03.12 |
[내가 하는 통계 분석] 정확 맥니마 검정(exact McNemar test) in R (2) | 2021.03.12 |
[내가 하는 통계 분석] 맥니마 검정(McNemar test) in R (0) | 2021.03.12 |