GW Authored Works

Comparison of Imputation Strategies for Incomplete Longitudinal Data in Lifecourse Epidemiology

Crystal Shaw, Department of Epidemiology, Fielding School of Public Health, University of California, Los Angeles, United States.
Yingyan Wu, Department of Epidemiology, Fielding School of Public Health, University of California, Los Angeles, United States.
Scott C. Zimmerman, Department of Epidemiology and Biostatistics, University of California, San Francisco, United States.
Eleanor Hayes-Larson, Department of Epidemiology, Fielding School of Public Health, University of California, Los Angeles, United States.
Thomas R. Belin, Department of Biostatistics, Fielding School of Public Health, University of California, Los Angeles, United States.
Melinda C. Power, Department of Epidemiology, Milken Institute School of Public Health, The George Washington University, Washington, DC, United States.
M Maria Glymour, Department of Epidemiology and Biostatistics, University of California, San Francisco, United States.
Elizabeth Rose Mayeda, Department of Epidemiology, Fielding School of Public Health, University of California, Los Angeles, United States.

Document Type

Journal Article

Publication Date

6-20-2023

Journal

American journal of epidemiology

DOI

10.1093/aje/kwad139

Keywords

Fully-conditional specification; Health and Retirement Study; Joint modelling; Longitudinal data; Missing Not at Random; Multiple Imputation by Chained Equations; Multiple imputation; Predictive Mean Matching

Abstract

Incomplete longitudinal data are common in lifecourse epidemiology and may induce bias leading to incorrect inference. Multiple imputation (MI) is increasingly preferred for handling missing data, but few studies explore MI method performance and feasibility in real data settings. We compared three MI methods using real data under nine missing data scenarios, representing combinations of 10%, 20%, and 30% missingness and missing completely at random, at random, and not at random. Using data from Health and Retirement Study (HRS) participants, we introduced record-level missingness to a sample of participants with complete data on depressive symptoms (1998-2008), mortality (2008-2018), and relevant covariates. We then imputed missing data using three MI methods (normal linear regression, predictive mean matching, variable-tailored specification), and fit Cox proportional hazards models to estimate effects of four operationalizations of longitudinal depressive symptoms on mortality. We compared bias in hazard ratios, root mean square error (RMSE), and computation time for each method. Bias was similar across MI methods and results were consistent across operationalizations of the longitudinal exposure variable. However, our results suggest predictive mean matching may be an appealing strategy for imputing lifecourse exposure data given consistently low RMSE, competitive computation times, and few implementation challenges.

APA Citation

Shaw, Crystal; Wu, Yingyan; Zimmerman, Scott C.; Hayes-Larson, Eleanor; Belin, Thomas R.; Power, Melinda C.; Glymour, M Maria; and Mayeda, Elizabeth Rose, "Comparison of Imputation Strategies for Incomplete Longitudinal Data in Lifecourse Epidemiology" (2023). GW Authored Works. Paper 2704.
https://hsrc.himmelfarb.gwu.edu/gwhpubs/2704

Department

Epidemiology

Link to Full Text

COinS

GW Authored Works

Comparison of Imputation Strategies for Incomplete Longitudinal Data in Lifecourse Epidemiology

Document Type

Publication Date

Journal

DOI

Keywords

Abstract

APA Citation

Department

Search

Browse

Author Corner

Links

GW Authored Works

Comparison of Imputation Strategies for Incomplete Longitudinal Data in Lifecourse Epidemiology

Authors

Document Type

Publication Date

Journal

DOI

Keywords

Abstract

APA Citation

Department

Share

Search

Browse

Author Corner

Links