함께 간호/간호 지식

[간호통계] 상관관계 분석 알려주세요: 피어슨 상관계수

공남녀_스텔라 2024. 12. 17.

안녕하세요 공남녀 스텔라입니다. 상관관계 분석(Correlation analysis)은 두 변수 간에 얼마나 강하고 일관된 관계가 있는지를 파악하는 통계 기법입니다. 상관관계 분석은 주로 두 변수 간의 선형적인 관계(직선 형태의 관계)를 측정하는 데 사용됩니다.

 

상관관계 분석

상관관계 분석의 주요 개념:

  1. 상관계수 (Correlation Coefficient):
    • 피어슨 상관계수 (Pearson's Correlation Coefficient): 두 연속형 변수 간의 선형 관계를 측정하는 가장 일반적인 방법입니다. 값은 -1에서 +1 사이에 위치하며,
      • +1: 두 변수 간의 완전한 양의 선형 관계
      • -1: 두 변수 간의 완전한 음의 선형 관계
      • 0: 두 변수 간에 선형적인 관계가 없다 (무상관)
    • 스피어만 상관계수 (Spearman's Rank Correlation): 순위 기반의 관계를 측정하는 방법으로, 비선형 관계나 순위가 중요한 데이터에서 유용합니다.
  2. 상관관계의 해석:
    • 상관계수가 +1 또는 -1에 가까울수록 두 변수 간의 관계가 강하다는 것을 의미합니다.
    • 상관계수가 0에 가까우면 두 변수 간에 관계가 거의 없음을 의미합니다.
    • 일반적으로, 0.1 ~ 0.3은 약한 상관관계, 0.3 ~ 0.5는 중간 정도의 상관관계, 0.5 이상은 강한 상관관계로 간주됩니다.

상관관계 분석의 활용 시점

상관관계 분석은 여러 상황에서 유용하게 활용될 수 있습니다. 대표적으로 다음과 같은 경우에 사용됩니다:

  1. 두 변수 간 관계를 파악하고자 할 때:
    • 목표: 두 변수 간에 관계가 있는지, 관계의 강도나 방향을 파악하려는 경우.
    • 예시: 교육 수준과 소득의 관계, 광고비와 매출의 관계 등을 분석할 때 사용합니다.
  2. 변수들 간의 관계를 예측하고자 할 때:
    • 목표: 한 변수의 변화를 통해 다른 변수의 변화를 예측하고자 할 때.
    • 예시: 학습 시간과 시험 성적의 관계를 분석하여, 학습 시간이 성적에 미치는 영향을 예측할 때 사용할 수 있습니다.
  3. 상호 관련된 변수를 그룹화하고자 할 때:
    • 목표: 다수의 변수들 중에서 서로 밀접하게 관련된 변수들을 찾아내고, 이를 그룹화하거나 중요 변수를 선별하려는 경우.
    • 예시: 다수의 건강 지표(체중, 혈압, BMI 등) 간의 상관관계를 분석하여, 관련이 높은 변수를 찾아 특정 건강 지표를 관리하는 방법을 모색할 수 있습니다.
  4. 데이터 패턴을 이해하고자 할 때:
    • 목표: 데이터 세트의 패턴이나 경향성을 파악하려는 경우.
    • 예시: 소비자 구매 패턴과 선호도 간의 상관관계를 분석하여, 마케팅 전략을 최적화할 때 활용됩니다.
  5. 인과 관계를 가설적으로 검토할 때:
    • 목표: 상관관계를 파악한 후, 더 구체적인 인과관계를 검토하기 위한 출발점으로 삼고자 할 때.
    • 예시: 피트니스 운동과 체중 감량 간의 상관관계를 분석한 후, 운동의 효과를 측정하기 위한 실험적 연구로 나아갈 수 있습니다. 하지만 상관관계 분석만으로 인과관계를 확정할 수는 없으므로, 더 심층적인 분석이 필요합니다.
  6. 비즈니스 전략이나 정책 결정을 지원할 때:
    • 목표: 비즈니스나 정책의 의사결정을 위한 데이터 분석.
    • 예시: 광고 비용과 매출 간의 상관관계를 분석하여, 최적의 광고 예산을 설정하거나, 고객 만족도와 재구매율 간의 관계를 분석하여, 제품 개선 및 마케팅 전략을 수립하는 데 활용할 수 있습니다.

상관관계 분석을 사용할 수 없는 경우

상관관계 분석은 두 변수 간의 선형적 관계만을 파악할 수 있기 때문에, 다음과 같은 경우에는 다른 방법을 사용해야 할 수 있습니다:

  1. 비선형 관계를 분석하려는 경우:
    • 상관분석은 직선 형태의 선형 관계만 분석할 수 있습니다. 비선형적인 관계를 가진 변수들 간의 관계를 파악하고자 한다면 다른 분석 기법 (예: 다항 회귀분석, 비선형 회귀분석 등)을 사용해야 합니다.
  2. 인과관계를 확인하려는 경우:
    • 상관관계 분석은 변수 간의 관계를 확인할 수는 있지만, 인과관계를 입증할 수는 없습니다. 상관관계가 높다고 해서 한 변수가 다른 변수에 영향을 미친다고 단정할 수 없습니다. 인과관계를 분석하려면 실험적 연구회귀분석 등을 통해 더 깊이 있는 분석이 필요합니다.
  3. 다수의 변수 간 상호작용을 분석하려는 경우:
    • 여러 변수들이 복합적으로 영향을 미치는 경우, 상관분석은 한 번에 두 변수 간의 관계만을 파악할 수 있기 때문에, 다수의 변수 간의 관계를 분석하려면 다중회귀분석 또는 주성분 분석(PCA) 등의 기법을 활용해야 합니다.

결론

상관관계 분석은 두 변수 간의 관계를 이해하고, 예측 모델을 구축하거나, 중요한 변수들을 선택하는 데 매우 유용한 도구입니다. 그러나, 상관관계 분석은 선형적 관계만을 분석할 수 있으며, 인과관계를 확정할 수 없다는 한계가 있습니다. 상관관계 분석을 활용할 때에는 이러한 한계를 염두에 두고, 추가적인 분석을 통해 더 깊은 통찰을 얻는 것이 중요합니다.

 

ADL과 IADL 점수에 따른 여자 남자 사망과 투석 간의 여러 관련변수를 분류하기 위해 상관관계분석을 한다면?

 

ADL(Activities of Daily Living)과 IADL(Instrumental Activities of Daily Living) 점수는 개인의 일상생활 수행 능력과 관련된 중요한 지표입니다. 이를 통해 여성과 남성의 사망 여부와 투석 여부를 포함한 여러 관련 변수들 간의 상관관계를 분석하려면, 상관분석을 다음과 같은 절차로 진행할 수 있습니다.

1. 데이터 준비

  • ADL 점수: 일상 생활 활동을 수행하는 능력에 대한 점수. 예를 들어, 옷 입기, 목욕, 식사, 화장실 사용 등 기본적인 생활 활동을 평가.
  • IADL 점수: 보다 복잡한 일상 활동을 수행하는 능력에 대한 점수. 예를 들어, 전화 걸기, 쇼핑, 돈 관리 등.
  • 성별: 남성과 여성의 구분.
  • 사망 여부: 사망 여부를 나타내는 변수 (예: 사망=1, 생존=0).
  • 투석 여부: 투석을 받고 있는지 여부를 나타내는 변수 (예: 투석=1, 비투석=0).
  • 기타 관련 변수들: 나이, BMI, 당뇨, 고혈압, 심장질환, 약물 복용 여부 등.

2. 변수들의 특성 파악

  • 연속형 변수: ADL 점수, IADL 점수, 나이, BMI 등.
  • 이진형 변수: 성별, 사망 여부, 투석 여부 등.

상관분석을 진행하기 전에 변수들의 특성을 파악하고, 이를 기반으로 어떤 분석 기법을 사용할지 결정해야 합니다.

3. 상관분석 방법 선택

  • 피어슨 상관계수 (Pearson Correlation Coefficient): ADL 점수, IADL 점수 등 연속형 변수들 간의 선형 상관관계를 분석할 때 사용합니다.
  • 스피어만 상관계수 (Spearman's Rank Correlation): 연속형 변수와 순위형 변수(예: 사망 여부)를 상관 분석할 때 사용하거나, 비선형적인 관계를 다룰 때 유용합니다.
  • 카이제곱 검정 (Chi-Square Test): 성별, 사망 여부, 투석 여부와 같은 범주형 변수들 간의 관계를 분석할 때 사용합니다. 예를 들어, 성별과 투석 여부의 관계를 파악할 수 있습니다.

4. 상관분석 절차

1) ADL 점수와 IADL 점수 간의 상관분석

  • 목표: ADL과 IADL 점수 간의 관계를 확인합니다. 이 두 변수는 일상 생활 활동 능력과 관련이 깊으므로, 이들 간의 상관관계를 살펴보는 것이 중요합니다.
  • 방법: 피어슨 상관계수를 사용하여 ADL 점수와 IADL 점수 간의 관계를 계산합니다.
  • 분석: 두 변수의 상관계수가 0.7 이상이라면 두 변수 간에 강한 상관관계가 있다고 볼 수 있습니다.

2) 성별, 사망 여부, 투석 여부와 ADL/IADL 점수 간의 관계 분석

  • 목표: ADL과 IADL 점수는 성별, 사망 여부, 투석 여부와 어떻게 연관되는지 파악합니다.
  • 방법:
    • 성별과 ADL/IADL 점수: 성별과 ADL/IADL 점수 간의 관계는 평균 차이를 비교하는 독립표본 t-검정이나 ANOVA를 통해 분석할 수 있습니다.
    • 사망 여부와 ADL/IADL 점수: 사망 여부와 ADL/IADL 점수 간의 관계는 상관계수(피어슨 또는 스피어만)를 이용하여 연속형 변수 간의 관계를 분석하거나, 카이제곱 검정을 통해 사망 여부와 ADL/IADL 점수 간의 관계를 구체적으로 파악할 수 있습니다.
    • 투석 여부와 ADL/IADL 점수: 투석 여부와 ADL/IADL 점수 간의 관계는 카이제곱 검정으로 분석하거나, 투석 여부에 따른 ADL/IADL 점수의 차이를 분석하기 위해 t-검정을 사용할 수 있습니다.

3) 상관분석 결과 해석

  • ADL, IADL 점수와 사망 여부: ADL과 IADL 점수가 낮을수록 사망 위험이 높을 가능성이 큽니다. 이는 두 변수 간의 음의 상관관계를 통해 확인할 수 있습니다.
  • ADL, IADL 점수와 투석 여부: ADL과 IADL 점수가 낮을수록 투석을 받을 가능성이 높을 수 있습니다. 투석 여부와 점수 간의 관계를 분석하여, 어떤 점수가 중요한 지표인지 파악할 수 있습니다.
  • 성별 차이: 성별에 따른 ADL/IADL 점수 차이가 통계적으로 유의미한지 확인하고, 그 차이를 기반으로 여성과 남성의 건강 상태와 사망/투석 여부의 차이를 분석할 수 있습니다.

4) 추가 분석

  • 다중상관분석(Multiple Correlation Analysis): 여러 변수(ADL, IADL, 나이, 성별 등)가 종속 변수인 사망 여부 또는 투석 여부에 미치는 영향을 동시에 분석할 수 있습니다. 이때 회귀분석을 통해 각 변수의 상대적 중요도를 평가할 수 있습니다.
  • 로지스틱 회귀분석 (Logistic Regression): 사망 여부나 투석 여부와 같은 이진형 결과 변수에 대해, ADL, IADL 점수, 성별, 나이 등의 독립변수들이 어떻게 영향을 미치는지 분석할 수 있습니다.

5. 분석 결과 예시

  • ADL, IADL 점수와 사망:
    • ADL 점수가 낮고 IADL 점수가 낮을수록 사망 위험이 높다.
    • 예: ADL 점수와 사망 여부 간의 피어슨 상관계수 = -0.65 (강한 음의 상관).
  • ADL, IADL 점수와 투석:
    • ADL 점수가 낮고 IADL 점수가 낮을수록 투석을 받을 가능성이 높다.
    • 예: ADL 점수와 투석 여부 간의 피어슨 상관계수 = -0.7, IADL 점수와 투석 여부 간의 피어슨 상관계수 = -0.5.
  • 성별에 따른 차이:
    • 성별에 따른 ADL, IADL 점수 차이가 통계적으로 유의미한지 t-검정으로 분석하여 남성과 여성의 생활 능력 차이를 파악.

결론

이와 같이 상관분석은 ADL, IADL 점수와 사망 여부, 투석 여부와 같은 변수 간의 관계를 분석하는 데 유용하며, 각 변수들이 어떤 영향을 미치는지에 대한 통찰을 제공합니다. 상관분석의 결과를 바탕으로 추가적인 분석(회귀분석 등)을 통해 더 깊은 인사이트를 얻을 수 있습니다.

댓글