본문 바로가기
Longitudinal Analysis

Longitudinal Data Analysis - GEE

by Aubreyy 2021. 8. 17.

Stutdy Design 및 장단점

 

한 id 당 관측값이 1개인 cross-sectional data와 다르게 longitudinal data는 한 id 당 관측값이 여러개 일 수 있다. 그리고 prospective이 될 수도, retrospective이 될 수도 있다. 개인별 변화를 볼 수도 있고, 그룹 내 변화를 볼 수도 있다. 하지만, 복잡하고 시간이 지날수록 missing data나 늘어날 수 있다는 단점이 있다. 오랜시간 관측하기 때문에 비용이 많이 들수도 있다.

 

 

비교

 

임상시험은 cross-sectional한 구조를 가지고 있다. 예를 들어 survival analysis를 할 때는 여러 관측값보다는, event까지 걸린 시간을 측정을 한다. multiple correlated survival data의 경우, 각 id마다 2개 이상의 event를 측정을 한다. 예를 들어 한 질병이 2번 이상 발병한 경우, 또는 양쪽 눈이 각각 다른 시간차를 두고 멀었을 때와 같은 경우이다. (Multiple events, repeated events) 하지만, cox PH 가정이 위반되기 때문에 Variance-corrected model을 사용한다. 시계열 분석의 경우는 시간 변화에 따른 패턴을 연구하기 위해 관측치를 시간별로 나열해 놓은 데이터이다. 이 경우 발생한 시간이 가까울 경우 먼 것보다 correlated될 경향이 더 커서 independence 가정은 적합하지 않다.

 

 

얻을 수 있는 것

 

- 시간 변화에 따라 개별 또는 그룹의 outcome 변수가 어떻게 변하는지 (증가/감소/변화x) 알 수 있음.

- 이러한 변화에 covariates가 어떤 영향을 미치는지 알 수 있음

 

 

어떤 변수가 outcome 변수가 될 수 있는가

 

- 연속형

- 범주형

- 2개 범주형

- 비율이나 count

- event까지 걸린 시간

 

 

어떤 모델을 사용할 수 있는가

 

- Marginal model

- Transitional model

- Random-effects model

 

 

모델이 측정 가능한 것

 

- Population-level regression parameteers

- Individual-level regression parameters

 

-- within-subject correlation: 각 id마다 가지고 있는 n개의 outcome에 대해 가능한 correlation을 고려해야 한다. 개인별로 ni(ni-1)/2개의 correlation 존재.

--- Independence: 반복된 측정들끼리 correlated되어있지 않음.

--- Unstructured: 반복 측정값 중 두 가지 response 끼리의 correlation은 알 수 없고 측정되어야 함.

--- Exchangeabl: 반복 측정값 중 두 가지 reponse 끼리의 correlation은 동일함.

--- Autoregression of first order: 두가지 response 끼리의 sampling interval이 같다고 가정

 

 

Missing Value

 

GEE에서는 랜덤 missing 되었다고 가정하고 처리됨

 

 

여러 Longitudinal data analysis 방법들 중에 GEE 사용하는 이유

 

우선, longitudinal data 분석에는 여러 종류가 있고 상황에 맞게 맞는 것을 선택하여 사용하면 된다.

- Two-stage or derived variable 분석의 경우, 반복측정된 변수를 한개의 변수로 만들어서 분석한다. 이 때 반복측정된 변수가 시간에 따라 변화하는 변수라면 사용하지 않는 것이 좋고, within-subject correlation을 사용할 수 없다.

- Growth curve 모델의 경우, 각 반복측정 변수는 시간에 따른 변화를 볼 수 있지만 거리를 동일하게 해야하는 단점이 있다.반복측정 ANOVA의 경우, 관측값들 사이의 correlation이 동일하다. 시간에 따른 효과를 측정할 수는 없다.

- Random effects은 각 subject들의 증가가 관심사일 때 GEE보다 더 적절하게 사용. (subject-specific models)

- 기타 transition model, four-stage procedure, boostrap procedure 등이 존재한다.

- 복잡하고 데이터가 unbalanced 되었을 때 특히 parameter 측정이 힘들어지는데, GEE의 경우 quasi-likelihood 이론에 기반하여 측정하게 됨. 즉, GEE는 반복 측정 데이터나 그룹을 fitting할 수 있는 모델이고, response도 연속 범주 다 사용이 가능하다. (link function logistic, log-linear, linear 선택 가능) 또한 within-subject correlation 측정도 가능하고 (여러 옵션이 존재), 각각의 id가 서로 다른 수의 측정값을 가져도 된다.

 

 

GEE의 세 가지 요소

 

Random component: outcome y 요소들은 독립적인 normal distribution을 갖는다.

Systematic component: covariate들은 선형 predictor를 만들어낸다.

Link function: random과 systematic를 이어주는 link

 

 

 

댓글