목차

  • 생존 분석 개념
  • 생존 분석 방법

 

1. 생존 분석 개념

  •  생존 분석은 특정 대상의 사건 발생 시간을 다루는 통계 분석 방법론
  •  어떠한 사건이 발생하기까지 걸리는 시간을 추정
  •  기존에는 의학 분야에서 환자들의 생존 가능성 추정에 많이 사용되었지만, 최근에는 제품 수명 예측, 고객 이탈률 등 다양한 분야에서도 많이 활용됨

 

 <주요 키워드>

  • 생존: 특정 사건이 아직 발생하지 않은 상태
  • 시간 (Time): 상대적 시간을 의마함. 분석하려는 대상을 관찰하기 시작한 시점으로부터 경과한 시간
  • 사건 (Event): 생존의 반대 상태. 사망, 고객 이탈 등 생존 분석을 하기 위한 대상이라고 해석. 생존 분석에서는 오로지 한 번만 발생 (사건 발생 or 발생하지 않음)
  • 중도절단 (Censored): 관찰을 시작하기 전, 후로 나누어 해석 가능
    • Right Censored: 대상에 아직 사건이 발생하지 않거나, 기타 이유로 관찰이 종료된 것. 실제 생존 시간이 관찰 기간보다 긴 경우를 의미함
    • Left Censored: 대상을 관찰하기 전에 이미 사건이 발생 또는 기대한 최소 기간보다 생존 기간이 더 짧은 경우
  • 생존함수 (Survival Function): 관찰 대상이 특정 시점보다 더 오래 생존 (사건이 발생하지 않을)할 확률을 계산하는 함수 (누적 생존 확률)
  • 위험함수 (Hazard Function): 특정 시점에 사건이 발생할 확률. 이 때, 사건이 발생하기 전에는 해당 사건이 발생하면 안됨. 대상이 특정 시점까지 생존한 상태에서 특정 시점에 사건이 발생할 확률
  • 누적위험함수 (Cumulative Hazard Function): 위험함수를 관찰을 시작한 시점부터 사건이 발생한 시점까지 적분한 값. 즉, 사건 발생 시점 전까지 관찰 대상에게 사건이 발생할 확률을 각각의 시점마다 구한 후, 모두 더한 것

 

2. 생존 분석 방법

2.1) Kaplan-Meier 추정

  • 추정 방법: 관찰 시간에 따라 사건이 발생한 시점의 사건 발생률 계산, 시간에 따른 생존 함수를 추정
    1. 데이터를 시간에 따라 정렬
    2. 각 시점마다 생존해 있는 사람 수와 관찰 대상 그룹에 속한 사람 수 정리 (관찰 대상 그룹에는 관찰이 중단된 사람, 생존해 있는 사람, 사건이 일어난 사람 세 부류가 있다)

  • 수식
    • S(t): 시간 t에서의 생존 확률
    • t(i): 이벤트가 발생한 시간의 집합
    • d(i): 시간 t(i)에서 이벤트가 발생한 개수
    • n(i): 시간 t(i)에서 생존 가능한 개체의 수

[그림 1] 두 그룹 간 캐플런 마이어 추정을 이용한 그래프

  • 특징
    • 이벤트가 발생하지 않는 시간까지 각 시간의 생존 확률 계산
    • 이벤트가 발생한 시간에서의 생존 확률 S(t)는 해당 시간 직전까지의 누적확률에 현재 시간에서의 생존 확률을 곱한 것
    • 사건이 발생하지 않은 관측치에 대해서도 누적 확률 도출 가능
    • 다양한 시점에서 사건이 발생할 수 있는 경우에 유용함
    • 두 그룹의 생존하는 비율 차이 비교에 사용됨 (실험군 vs 대조군 비교 시, 신뢰구간 비교)
    • 비모수적 추정 방법
      • 비모수적 통계방법: 확률 분포에 대한 가정을 하지 않고, 데이터의 분포나 특성에 대한 일반적인 추론을 수행하는 통계적 방법, 관측값의 순위 또는 분포를 사용하여 추론 수행, 특정한 가정 없이 데이터를 다룰 수 있음
      • 모수적: 특정한 확률 분포를 기반으로 모집단의 특성을 추정

2.2) Log Rank Test

  • 추정 방법: 생존 함수 분포를 비교하고 유의한 차이가 있는지 알아보는 가설 검정 기법
    • Kaplan-Meier 생존 곡선 [그림 1]을 사용하여 그룹 간의 생존 분포가 통계적으로 유의미한 차이가 있는지 확인
    • 각 그룹에서 발생한 사건의 수와 관측치 수를 이용하여 기대되는 사건의 수와 실제로 발생한 사건의 수 간의 차이를 검정

Log Rank Test 수식

  • 수식
    • 예상 이벤트: 특정 시간에서 그룹 내 발생할 것으로 예상되는 사건의 수, 특정 시간에서의 생존 확률과 그 시간 간격을 곱하여 계산
    • 실제 이벤트: 해당 시간에서 그룹 내에서 실제로 발생한 사건 수

2.3) Cox 비례 위험 모형 (Cox Proportional Hazard Model)

  • 추정 방법
    • 생존 시간에 영향을 미치는 요인들의 효과 추정
    • 변수들 간의 비례적 위험 가정: 위험비(변수 한 단위가 변화할 때 변화하는 위험함수 값)가 생존 기간 내내 시간과 무관하게 일정하다고 가정
    • 설명 변수들의 위험 비율이 시간에 따라 변하지 않고 일정하다고 가정 (단, 생존에는 영향을 주는 변수)
    • Hazard: 위험률, 어느 시점에 대상이 탈락가능성이 높은지 평가하는 비율

Cox 비례 위험 모형 기본 수식

  • 수식
    • h(t): 시간 t에서의 위험 비율 (두 그룹 간의 위험의 상대적 크기)
    • h0(t): 기준 위험 비율
    • x1, x2, ..., xp: 독립 변수
    • beta1, beta2, ..., betap: 설명 변수의 회귀 계수
  • 특징
    • Kaplan-Meier, Log-Rank Test와 달리, 설명 변수들의 함수 형태나 생존 곡선의 형태에 대한 가정을 하지 않음, 모델이 더 유연하게 다양한 데이터에 적용 가능
    • 비례적 위험 가정
    • 독립 변수 여러 개 고려 가능
    • Semi Parametric: 독립 변수 정보를 활용하지만, 생존 시간 분포 정보를 사용하지 않는 방법 (Kaplan-Meier 추정은 Non-Parametric, 독립변수와 생존 시간 분포 정보 모두 사용 안함, 분포 정보를 알 수 없을 때 유용하지만 예측이 부정확할 수 있음)

'통계 분석 > 생존 분석' 카테고리의 다른 글

[Survival Analysis] 생존 분석 (2)  (0) 2024.01.24

+ Recent posts