내가 하는 통계 분석/SPSS

[내가 하는 통계 분석] 피어슨 상관 계수(Pearson correlation coefficient) in SPSS

산격동 너구리 2021. 3. 16. 00:30

안녕하세요, 산격동 너구리입니다.

 

 

이번 포스팅은,

 

SPSS를 이용한 "피어슨 상관 계수"입니다.

 


개요

 

피어슨 상관 계수란??
두 변수의 선형 상관 관계를 계량화한 수치입니다.

결과값은 -1 ~ 1 사이의 값이며,

양의 상관 관계가 있을수록 1에 가깝고, 음의 상관 관계가 있을수록 -1에 가깝습니다.

또한, 상관 관계가 없을수록 0에 가깝습니다.

 

 가정
1. 두 변수는 연속형 변수이다.

2. 두 변수는 정규분포를 따른다.
    (간혹 한 변수만 정규분포를 따라도 된다고는 하지만, 이론적으로는 두 변수 모두 정규분포를 따라야합니다.)

3. 두 변수는 선형 관계를 가진다.

 

위의 가정 외에도 신경 써야하는 부분이 있습니다.

 

바로 이상치입니다.

 

극단적으로 값이 크거나 작은 경우가 포함되어 있으면 결과가 왜곡될 수 있습니다.

 

 가설
귀무가설 : 상관계수는 0이다(=상관 관계가 없다).

대립가설 : 상관계수는 0이 아니다(=상관 관계가 있다).

 

보통 상관 분석을 하면 상관계수와 p-value가 함께 나올텐데요,

 

p-value가 0.05이상인 경우에는 함께 보여지는 상관계수가 큰 의미가 없습니다.

 

귀무가설 자체가 "상관 계수는 0이다."이기 때문에 p-value가 0.05미만일 때에만 상관계수가 의미를 가집니다.


예제

13. [산격동 너구리] 상관 분석 예제.csv
0.01MB

이번 예제로는 변수 3개를 준비했는데, 특별하게 의미를 정의하진 않을게요.

 

상상력에 한계가;;;;;;;;

 

그리고 이번 데이터는 분석 가정에 완벽하게 부합하지는 않습니다.

 

최대한 현실적이면서도, 가정에 완벽한 데이터를 만드는 것도 쉽지는 않네요.

 

가정이 정확하게 맞진 않지만, 분석 방법이나 절차에 집중해서 봐주시면 되겠습니다.

 

 

그리고, 조금 현실적인 이야기인데...

 

의외로 피어슨 상관계수를 구하면서 가정에 대해 완벽히 체크하는 경우는 흔치 않습니다...

 

 

데이터 불러오기

 

가정

1. 선형성 가정

 

보통은 산점도를 보고 확인합니다.

 

 

VAR2와 VAR3간에 선형성이 보이는 것 같고, 나머지 관계에서는 조금 애매해보입니다.

 

만약, 선형성에 대해 엄밀하게 따진다면 VAR2와 VAR3간에서만 피어슨 상관 분석을 실시하게 되겠네요.

 

그보다 더 엄밀하게 따진다면, 어떤 관계에서도 선형성이 없다고 할 수 있겠지만요..ㅎ

 

따라서, 선형성 부분은 어느정도 주관이 개입될 수 밖에 없습니다.

 

 

2. 정규성 가정

지금 결과로 보면 VAR2를 제외한 나머지 변수에서 정규성 가정이 만족되지 않습니다.

 

이것도 엄밀하게 따지자면 피어슨 상관 분석을 하기에는 무리가 있습니다.

 

[현실]

그렇지만,,,,아까 말씀드린 것처럼 상관 분석의 가정을 깊게 따지지 않는 경우도 많습니다.

 

연구 분야나 목표 저널에 맞춰서 융통성있게 하시는게 더 현실적이지 않을까싶습니다.

 

[추가 내용]

피어슨 상관 계수의 정규성 가정을 정확하게 표현하면,

 

"두 변수는 이변량 정규분포를 따른다."입니다.

 

하지만, 이변량 정규분포에 대한 정규성 검정이 쉽지 않기 때문에

 

각 변수에 대한 정규성 검정을 통해서 두 변수가 정규성을 만족하는지 확인하는 것으로 대체합니다.

 

두 변수가 각각 정규분포라도 이변량 정규분포가 되는지는 확실치 않습니다.

 

그렇기 때문에 두 변수가 정규성을 만족한다는 것 자체도 이미 완화된 가정이라고 생각할 수 있습니다.

 

가설
귀무가설 : 두 변수 간 상관계수는 0이다(=상관 관계가 없다).

대립가설 : 두 변수 간 상관계수는 0이 아니다(=상관 관계가 있다).

 

 

피어슨 상관 분석

 

상관 계수와 그에 대응되는 p-value가 행렬 형태로 출력됩니다.

 

피어슨 상관 분석 결과,

 

모든 변수 간 상관 계수는 유의한 것으로 나옵니다.

 

따라서, 변수들 간에 유의한 상관 관계가 있음을 확인할 수 있습니다.

 

상관 계수의 부호에 따라 양의 상관 관계 또는 음의 상관 관계인 것을 확인하시면 됩니다.

 

 

참고로 목록별 결측값과 대응별 결측값의 차이는,

 

목록별 결측값 제외는 사용한 모든 변수에 대해서 결측값이 없는 케이스만 사용하는 것이고,

 

대응별 결측값 제외는 상관 계수를 계산하는 두 변수에 대해 결측값이 없는 케이스만 사용합니다.

 

따라서, 목록별 결측값으로 하면 모든 경우에 대해서 N이 같지만,

 

대응별 결측값으로 하면 경우에 따라 달라질 수도 있습니다.

 

지금 예제는 결측값이 없으니 어떤 것으로 해도 같은 결과가 나옵니다.


 

이것으로 SPSS를 이용한 피어슨 상관 계수에 대해 마치도록 하겠습니다.

 

이상, 산격동 너구리였습니다.

 

감사합니다.

 

 

 

* 잘못된 정보 및 오타가 포함되어 있을 수 있습니다.

  그대로 받아들이시기보다는 다른 사람의 의견도 참고하셔서 분석하시길 바랍니다.

 

* 포스팅 내용 및 통계 분석 관련 질문은 언제나 환영입니다.

  가능한 선에서 최대한 답변하도록 하겠습니다.