내가 하는 통계 분석/SAS

[내가 하는 통계 분석] 복합표본 평균 차이 검정

산격동 너구리 2021. 6. 3. 21:19

안녕하세요, 산격동 너구리입니다.

 

 

이번 포스팅은 SAS를 이용한 "복합표본 평균차이 검정"입니다. 이전 포스팅이 두 집단의 평균 차이 검정이었는데, 오늘은 세 집단 이상일 때 사용하는 방법입니다.

 


개요

 

복합표본 평균 차이 검정

 

일반적으로 두 집단의 평균 차이 검정은 T-test로, 세 집단 이상에서는 ANOVA를 사용합니다. 그래서 포스팅을 따로 하긴했지만, 복합표본에서는 둘 다 동일한 명령어를 사용합니다. 그러니까, 복합표본에서는 T-test랑 ANOVA를 구별할 필요가 없습니다.

 

 

 가정

 

역학 자료다보니 아마 가정은 잘 안 맞을겁니다. 그래도 확인하고자 하신다면, 복합표본인 것을 무시하시고 일반적인 방법으로 확인하시면 됩니다.

 

 


예제

 

 

예제는 분석지침서와 동일하게 진행하되 데이터 연도는 다릅니다. 결과를 비교하시는 분들께서는 참고해주세요!

 

 

데이터 불러오기

 

우선, 데이터를 불러옵니다.

 

 

 

Keep 옵션을 이용해서 사용할 변수만 가져왔습니다.

 

 

나이 범주화

 

 

 

나이 변수를 이용해 연령대 변수를 만들었습니다.

 

 

집단 변수 설정

 

 

 

현재 저희가 관심있는 대상 그룹은, 30세 이상입니다. 나이를 기준으로 집단 변수를 추가합니다.

 

 

가설

 

귀무가설 : 만 30세 이상에서 연령그룹에 따른 수축기혈압 평균은 차이가 없다.

대립가설 : 만 30세 이상에서 연령그룹에 따른 수축기혈압 평균은 차이가 있다.

 

 

확인

 

분석에서 꼭 해야되는 작업은 아닙니다. 관심 집단에 대해 결측치를 확인한 것인데, 가끔 분석을 하다보면 결과가 이상하게 나올 때가 있습니다. 원인은 코딩 실수나 데이터 문제가 대부분입니다. 그래서 저는 분석 전에 결측치 정도는 미리 확인합니다. 결과가 이상하다면, 코드와 데이터를 한번 더 점검합니다.

 

 

 

특별하게 결측치가 많아 보이는건 없네요. 근데 가중치 변수에서 결측치는 왜 있는거지..?

 

 

복합표본 평균 차이 검정

 

혹시나 이전 포스팅을 보셨다면, 명령어가 동일한 것을 확인하실 수 있습니다.

 

 

 

 

우선, [Tests of Model Effects]의 결과에서, Model과 age_g를 확인해보면 매우 유의합니다. 따라서, 수축기혈압 평균에 있어서 연령대가 유의한 것으로 보입니다. 또, ANOVA와는 조금 다른데요, 회귀분석 명령어를 통해서 분석을 하기 때문에 회귀분석처럼 결과가 나옵니다. 각각 연령대에서 Estimate 열이 의미하는 것을 먼저 말씀드리면, '70세 이상' 그룹을 기준으로 각각의 연령대가 어떤 영향력을 갖는지를 의미합니다. 

 

예를 들어, 30대의 경우에는 70대에 비해 약 18.54만큼 수축기혈압이 더 낮다는 뜻이고, 40대는 70대에 비해 약 15.52만큼 낮다는 뜻입니다. 당연히 70대는 70대에 비해서 차이가 없으니 Estimate는 0을 가지게 됩니다. 그리고 각각의 p-value가 전부 유의하게 나왔다는 것은, 30대는 70대보다 수축기 혈압이 낮은 것이 유의하고, 40대는 ....., 이런식으로 모든 연령대에서 70대보다 수축기 혈압이 유의하게 낮다고 해석할 수 있습니다.

 

결과적으로, 만 30세 이상에서 연령그룹에 따른 수축기혈압 평균은 차이가 있다는 것을 알 수가 있습니다. 


이상, 산격동 너구리였습니다.

 

감사합니다.

 

 

 

* 잘못된 정보 및 오타가 포함되어 있을 수 있습니다.

  그대로 받아들이시기보다는 다른 사람의 의견도 참고하셔서 분석하시길 바랍니다.

 

* 포스팅 내용 및 통계 분석 관련 질문은 언제나 환영입니다.

  가능한 선에서 최대한 답변하도록 하겠습니다.