Chapter 8 Summary / Samenvatting / Zusammenfassung

Summary

Missing values are a pervasive problem in almost all kinds of studies. In large cohort studies, the type of study most often conducted in the field of epidemiology, missing observations in covariates pose the major challenge. Since measurements are taken in an uncontrolled environment, typically many covariates need to be considered as potential confounders to filter out unwanted influences that environmental factors may have on the estimates of interest. Due to the large number of variables measured and the fact that measurement often relies on participants recalling and reporting detailed information, large proportions of missing data are common in these types of studies. In light of the above, the research that forms this thesis focuses on the analysis of incomplete cohort study data where missingness is in the covariates.

Chapter 1 provides a brief introduction into the history of the most popular approach to handle incomplete data, multiple imputation (MI), and gives an overview of common approaches to perform multiple imputation or to directly perform inference with incomplete data. Moreover, concepts relevant to the analysis under the Bayesian paradigm are outlined.

The focus of Chapter 2 is the analysis of longitudinal data with incomplete baseline covariates. We describe a fully Bayesian approach to analyse and impute data in this setting and discuss a number of naive and more sophisticated approaches to impute such data in wide format using multiple imputation with chained equations (MICE). Results from the analysis of the motivating dataset from the Generation R Study as well as two simulation studies demonstrate that with MICE omission of the outcome from the imputation models, or even the use of simple summaries, can lead to severe bias. Only when more sophisticated summaries of the outcome, which captured important features associated with the missingness, were used, bias was negligible. Since it is generally not known which features of the outcome are relevant to the missingness, the fully Bayesian approach, in which the outcome is included automatically and implicitly without the need to summarize it, and which provided unbiased results throughout all analyses, is the preferred method for imputation of incomplete baseline covariates in longitudinal data.

The fully Bayesian approach is applied to data from the Generation R Study in Chapter 3, in which the association between gestational weight (gain) and dietary patterns is investigated. In the primary analysis, a stratified Bayesian linear mixed model is fitted to repeated measures of gestational weight, and missing covariate values are imputed. Extracting these imputed values and creating multiple completed datasets allows performing secondary analyses of gestational weight gain during different periods of pregnancy as well as sensitivity analyses using the idea of multiple imputation.

Chapter 4 provides another application of the proposed approach to data from the Generation R Study. The association between child body composition and maternal sugar containing beverage consumption during pregnancy is investigated. Three different measures of child body composition are of interest in the primary analysis: BMI, measured repeatedly until six years of age, and fat mass index (FMI) and fat free mass index (FFMI), measured at the age of six. The three outcomes are modelled jointly in the Bayesian framework using a linear mixed model for BMI and linear models for FMI and FFMI, and missing values in covariates are imputed simultaneously. Again, imputed values are extracted to perform additional analyses, in this case analyses on subgroups within the data.

The Bayesian approach is further extended to settings with time-varying covariates in Chapter 5. Additional challenges that arise with time-varying covariates, such as the functional form of the association between outcome and covariate, and potential endogeneity, are investigated. The previously described Bayesian approach, extended to settings with time-varying covariates, is compared to joint model multiple imputation using a multivariate normal distribution, with regards to its ability to handle the additional challenges. Simulation studies show that misspecification of the functional form or misspecification of an endogenous covariate as exogenous can lead to severe bias. Even though joint model MI assumes endogeneity, the subsequent analysis of the imputed data usually assumes exogeneity for all covariates, and associations between outcome and time-varying covariates are assumed to be linear during imputation. Since the (extended) fully Bayesian approach allows inclusion of endogenous covariates, flexible non-linear associations and performs simultaneous analysis and imputation, it is the superior approach in this setting.

Chapter 6 describes the implementation of the fully Bayesian approach in the R package JointAI and illustrates the use of the package by means of various examples.

This thesis is concluded in Chapter 7 with a short summary of the advantages of the fully Bayesian approach, discusses implications by the assumptions made by the approach and explores extensions and directions for future work.

Samenvatting

Ontbrekende waardes zijn een veelvoorkomend probleem in bijna alle soorten studies. In grote cohortstudies, het meest gebruikte type studie in de epidemiologie, vormen ontbrekende waardes in de covariabelen het grootste probleem. Omdat metingen in een niet gecontroleerde omgeving worden gedaan moet er doorgaans met veel covariabelen rekening gehouden worden om ongewenste invloed van omgevingsfactoren op de schattingen van belangrijke parameters te voorkomen. Door het grote aantal gemeten variabelen en door het feit dat metingen vaak vereisen dat deelnemers zich gedetailleerde informatie herinneren en deze informatie ook rapporteren, komen grote hoeveelheden ontbrekende waardes vaak voor in dit type studies. Naar aanleiding van het bovenstaande, focust het onderzoek in deze dissertatie zich op de analyse van incomplete data uit cohortstudies met ontbrekende waardes in de covariabelen.

Hoofdstuk 1 geeft een korte inleiding in de geschiedenis van de meest populaire manier om onvolledige gegevens te benaderen; multiple imputatie (MI), en geeft een overzicht van gebruikelijke methodes om MI uit te voeren of incomplete data direct te analyseren. Bovendien worden concepten geschetst die relevant zijn in het kader van het Bayesiaanse paradigma.

De focus van hoofdstuk 2 is de analyse van longitudinale gegevens met onvolledige “baseline” covariaten. We beschrijven een volledig Bayesiaanse benadering om data in deze situatie te analyseren en imputeren en bespreken zowel een aantal naïeve, als ook meer verfijnde benaderingen om dergelijke gegevens in het zogenaamde “wide format” te imputeren met “Multiple Imputation with Chained Equations” (MICE). Resultaten van de analyse van de motiverende dataset uit de Generation R studie en twee simulatiestudies tonen aan dat met MICE het niet includeren van de uitkomst in de imputatiemodellen, of zelfs het gebruik van eenvoudige samenvattingen van de uitkomst, kan leiden tot ernstige systematische fouten. Alleen wanneer meer uitgebreide samenvattingen van de uitkomst werden gebruikt, welke belangrijke karakteristieken van de “missingness” bevatten, was de systematische fout verwaarloosbaar. Omdat in het algemeen niet bekend is welke kenmerken van de uitkomst relevant zijn voor de “missingness”, heeft de volledig Bayesiaanse benadering, waarin de uitkomst automatisch en impliciet in de imputatie geïncludeerd is, zonder de noodzaak om het samen te vatten, en die tijdens alle analyses resultaten zonder systematische fouten opleverde, de voorkeur voor imputatie van onvolledige baseline gegevens in longitudinale studies.

De Bayesiaanse benadering wordt toegepast op gegevens van de Generation R studie in hoofdstuk 3, waarin de associatie tussen (de toename van) gewicht tijdens zwangerschap en voedingspatronen wordt onderzocht. In de primaire analyse wordt een gestratificeerd Bayesiaans lineair gemengd model toegepast op herhaalde metingen van zwangerschapsgewicht en worden ontbrekende waardes in de covariabelen geïmputeerd. Het extraheren van deze geïmputeerde waardes en het creëren van meerdere volledige datasets maakt het mogelijk om in het kader van MI secundaire analyses van gewichtstoename tijdens verschillende periodes van de zwangerschap, evenals gevoeligheidsanalyses, uit te voeren.

Hoofdstuk 4 laat een verdere toepassing zien van de voorgestelde methode op data uit de Generation R studie. De associatie tussen lichaamssamenstelling van kinderen en de consumptie van suikerhoudende dranken door hun moeders tijdens de zwangerschap wordt onderzocht. Er zijn drie belangrijke maten van lichaamssamenstelling in de primaire analyse: BMI, herhaald gemeten tot zes jaar, vetmassa index (FMI) en vetvrije massa index (FFMI), beiden gemeten op zesjarige leeftijd. De drie uitkomsten worden gezamenlijk gemodelleerd in het Bayesiaanse kader met behulp van een lineair gemengd model voor BMI en lineaire modellen voor FMI en FFMI, waarbij ontbrekende waardes in covariaten binnen dezelfde procedure worden geïmputeerd. Wederom worden deze geïmputeerde waarden geëxtraheerd om extra analyses, in dit geval in subgroepen, uit te voeren.

De Bayesiaanse benadering wordt in hoofdstuk 5 verder uitgebreid naar situaties met covariaten die in de tijd variëren. Bijkomende uitdagingen die horen bij tijds variërende covariaten, zoals de functionele vorm van de associatie tussen uitkomst en covariaat en mogelijke endogeniteit, worden onderzocht. De eerder beschreven Bayesiaanse benadering, uitgebreid naar situaties met in de tijd varieerde covariaten, wordt vergeleken met “joint model” MI met behulp van een multivariate normale verdeling, op het vermogen om de additionele uitdagingen aan te gaan. Simulatiestudies tonen aan dat een verkeerde specificatie van de functionele vorm of een specificatie van een endogene covariabel als exogeen, tot ernstige systematische fouten kan leiden. Hoewel “joint model” MI endogeniteit veronderstelt, neemt de daaropvolgende analyse van de geïmputeerde gegevens meestal exogeniteit aan voor alle covariaten, en er wordt tijdens de imputatie van uitgegaan dat associaties tussen uitkomst en tijdsvariërende covariaten lineair zijn. Omdat de (uitgebreide) volledig Bayesiaanse benadering zowel rekening kan houden met endogeniteit van covariabelen en flexibele niet-lineaire associaties, als analyse en imputatie simultaan uitvoert, is dit de superieure methode in deze situatie.

Hoofdstuk 6 beschrijft de implementatie van de volledig Bayesiaanse benadering in het R pakket JointAI en illustreert het gebruik van het pakket aan de hand van verschillende voorbeelden.

Dit proefschrift wordt afgesloten in hoofdstuk 7 met een korte samenvatting van de voordelen van de volledig Bayesiaanse methode, de implicaties van de aannames die gemaakt worden in deze benadering en mogelijke verbeteringen en onderwerpen voor toekomstig werk.

Zusammenfassung

Fehlende Werte sind ein allgegenwärtiges Problem in vielerlei Studien. In großen Kohortenstudien, dem Studientyp, der in der Epidemiologie am häufigsten durchgeführt wird, stellen fehlende Werten in Kovariablen die größte Herausforderung dar. Da Daten nicht in einem kontrollierten Umfeld erhoben werden, müssen üblicherweise viele Kovariablen als potentielle Störfaktoren berücksichtigt werden, um so zumindest einen Teil der unerwünschten Einflüsse herauszufiltern, die das Ergebnis verzerren können. Aufgrund der großen Anzahl von Werten, die deshalb erhoben werden, und da es oft notwendig ist, dass Probanden sich an detaillierte Informationen erinnern und diese auch wiedergeben, ist ein hoher Prozentsatz fehlender Werte keine Seltenheit. Die wissenschaftlichen Arbeiten, die dieser Dissertation zugrunde liegen, konzentrieren sich daher auf die Analyse unvollständiger Daten aus Kohortenstudien, wobei die fehlenden Werte in den Kovariablen auftreten.

Kapitel 1 gibt eine kurze Einführung in die Geschichte der derzeit bekanntesten Methode zum Umgang mit fehlenden Werten: „Multiple Imputation“ (MI), und eine Übersicht häufig verwendeter Methoden, mit denen entweder MI oder direkt Inferenz aus unvollständigen Daten durchgeführt werden können. Außerdem werden Konzepte skizziert, die im Zusammenhang mit bayesianischer Statistik relevant sind.

Der Fokus in Kapitel 2 liegt auf der Analyse longitudinaler Daten mit unvollständigen zeitunabhängigen Kovariablen. Wir beschreiben eine vollständig bayesianische Methode um derartige Daten zeitgleich zu analysieren und zu imputieren, und erörtern einige einfache sowie kompliziertere Ansätze um diese Daten, in horizontalem Format, mit der gebräuchlicheren Methode „Multiple Imputation using Chained Equations“ (MICE), d.h. durch eine Reihe von univariaten Modellen zu imputieren. Ergebnisse aus der Analyse des motivierenden Datensatzes aus der „Generation R“ Studie sowie aus zwei Simulationsstudien zeigen, dass bei MICE das Weglassen der Zielvariablen aus den Imputationsmodellen, oder auch die Verwendung einfacher Zusammenfassungen der Zielvariablen zu schwerwiegenden systematischen Fehlern führen kann. Nur wenn komplexere Zusammenfassungen der Zielvariablen verwendet wurden, die die im Zusammenhang mit den fehlenden Werten wichtigen Merkmale erfassen, war der systematische Fehler vernachlässigbar. Bei der vollständig bayesianischen Methode wird die Zielvariable automatisch und implizit berücksichtigt ohne dass eine Zusammenfassung notwendig ist. Da im Allgemeinen nicht bekannt ist welche Merkmale relevant sind und die bayesianische Methode in allen Analysen korrekte Ergebnisse lieferte, ist sie die überlegene Methode, um fehlende Werte in zeitkonstanten Kovariablen in longitudinalen Datensätzen zu imputieren bzw. solche Daten zu analysieren.

Die vollständig bayesianische Methode wird in Kapitel 3 auf eine Fragestellung aus der „Generation R“ Studie angewendet, in der die Beziehung zwischen Ernährungsmustern und Gewicht bzw. Gewichtszunahme während der Schwangerschaft untersucht wird. Für die primäre Fragestellung wird ein stratifiziertes, bayesianisches, lineares gemischtes Model für die wiederholten Messungen des Gewichts der Mutter aufgestellt, womit gleichzeitig fehlende Werte in Kovariablen imputiert werden. Dem Konzept von MI folgend werden mit diesen imputierten Werten vervollständigte Versionen des ursprünglichen Datensatzes generiert, und somit die Analyse der sekundären Frage nach der Beziehung zwischen Ernährung und Gewichtszunahme in verschiedenen Phasen der Schwangerschaft sowie Sensitivitätsanalysen ermöglicht.

Kapitel 4 stellt eine weitere Anwendung der vorgeschlagenen bayesianischen Methode auf Daten aus der „Generation R“ Studie dar. Der Zusammenhang zwischen der Menge von mit Zucker gesüßten Getränken, die Frauen während der Schwangerschaft zu sich nehmen, und dem Körperbau ihrer Kinder nach der Geburt wird untersucht. Drei verschiedene Kennzahlen des Körperbaus sind in der primären Analyse von Interesse: BMI, mehrfach gemessen von der Geburt ab bis zum Alter von sechs Jahren, Fett-Masse-Index (FMI) und Fettfreie-Masse-Index (FFMI), gemessen im Alter von sechs Jahren. Zugleich mit der gemeinsamen Modellierung der drei Zielvariablen in einem bayesianischen Model werden fehlende Werte in Kovariablen imputiert. Dabei werden ein lineares gemischtes Model für BMI sowie lineare Regressionsmodelle für FMI und FFMI verwendet. Zur Durchführung weitere Analysen, in diesem Fall in Untergruppen, werden auch hier die imputierten Werte extrahiert.

In Kapitel 5 wird die bayesianische Methode auf Situationen mit zeitabhängigen Kovariablen erweitert. Dabei werden Herausforderungen untersucht, wie sie bei zeitabhängigen Kovariablen entstehen. In diesem Falle die funktionelle Form der Beziehung zwischen Zielvariable und Kovariable, sowie die mögliche Endogenität der Kovariable. Anhand von Simulationsstudien wird die zuvor beschriebenen, für zeitabhängigen Kovariablen erweiterten, bayesianische Methode mit einer alternativen Methode verglichen, in der fehlende Werte mit Hilfe einer gemeinsamen multivariaten Normalverteilung imputiert werden („joint model“ MI). Es ergibt sich, dass Fehlspezifikation der funktionellen Form oder Fehlspezifikation einer endogenen Kovariablen als exogen zu schwerwiegenden systematischen Fehlern führen kann. Obwohl “joint model” MI Endogenität annimmt, ist dies bei den meisten Methoden, die im Anschluss auf die imputierten Daten angewendet werden nicht der Fall. Außerdem wird die Beziehung zwischen Kovariable und Zielvariabel bei “joint model” MI als linear angenommen. Da bei der erweiterten vollständig bayesianischen Methode endogenen Kovariablen sowie flexible Formen für die funktionelle Beziehung zwischen Zielvariabel und Kovariablen berücksichtigt werden können, ist sie die überlegene Methode für derartige Daten.

Kapitel 6 beschreibt die Implementierung der vorgestellten vollständig bayesianischen Methode im R Paket JointAI und illustriert die Verwendung dieses Paketes anhand zahlreicher Beispiele.

Das abschließende Kapitel 7 fasst die Vorteile der von uns verwendeten bayesianischen Methode zusammen, und erläutert wesentliche Konsequenzen der Annahmen dieser Methode. Zusätzlich werden Ideen aufgezeigt wie die Methode und ihre Implementierung erweitert und verbessert werden kann.