Das R-Faktor Modell wird nach einem gemeinsam mit der Alpha Analytics UG (haftungsbeschränkt) & Co. KG Jena entwickelten Vorgehen validiert.
Die Validierung erfolgt fortlaufend in Form eines Backtestings auf Basis der in den letzten 365 Tagen automatisch generierten R-Schätzungen für Deutschland.
Datenbasis
Streuung
Ergebnisse
Erläuterungen
Nowcast: Ursprungsschätzung
Am jeweiligen Berichtstag wird eine R-Schätzung (hier 7-Tage-R) abgegeben. Diese beruht neben den bekannten Fällen auf einer Hochrechnung für noch erwartete Nachmeldungen zum jeweiligen Erkrankungsbeginn (prädiktiver Anteil) und bezieht sich auf die über sieben Tage geglätteten Fälle mit Erkrankungsbeginn bis vor vier Tagen. Insgesamt werden alle in den vergangenen 365 Tagen so abgegebenen Schätzungen als Ursprungsschätzung in die Validierung aufgenommen.
Review: aktuelle, rückblickende Schätzung
Mit zunehmendem zeitlichen Abstand, überwiegend schon nach wenigen Tagen ersetzt sich der Anteil der Hochrechnung durch zwischenzeitlich zusätzlich bekanntgewordene Nachmeldungen, sodass dann auf einen zunehmenden bzw. weitestgehend vollständigen Datenstand zurückgegriffen werden kann. Dies können sowohl mehr als auch weniger Fälle sein als im ursprünglichen Nowcast vom Modell prognostiziert.
Hieraus ergeben sich im Nachlauf (jeweils aktueller Datenstand) angepasste R-Schätzungen für die zurückliegenden Stichtage.
Durch den größeren zeitlichen Abstand und das inzwischen vorhandene Wissen um eingetretene Nachmeldungen zeigen diese Schätzungen ein vollständigeres Bild zur eingetretenen Infektionsdynamik.
Zusammen mit den Ursprungsschätzungen ergibt sich für jeden Stichtag ein Datenpaar, welches sich jeweils aus einem Nowcast- und einem Review-Schätzer zusammensetzt.
Regressionsanalyse
Die Schätzungen der vergangenen 365 Tagen werden in einer Regressionsanalyse beleuchtet. Ausgewiesen werden die Kennzahlen:
Korrelation und Bestimmtheitsmaß R².
Diese geben Auskunft über den Gleichlauf von ursprünglich abgegebenen Schätzungen (Nowcast) mit dem rückblickend erzeugten Verlauf der Reproduktionszahl auf aktueller Datenbasis (Review).
Verteilung der Abweichungen
Zudem ausgewiesen werden für die Differenzen der jeweiligen Datenpunkte:
Median, 5%-Quantil und 95%-Quantil.
Limitationen
Keine Auskunft gibt die Validierung über die Güte der zeitlichen Zuweisung von Fällen mit unbekannten Erkrankungsbeginn durch das Modell (Imputation) wie auch über die abschließende Vollständigkeit der Meldedaten (Dunkelziffer) oder deren Eignung als im Verlauf der Zeit geeignete repräsentative Stichprobe.
Bereitstellung
Die Validerungskennzahlen werden täglich automatisiert ermittelt und bereitgestellt.
Implikationen
Auf Basis der Ergebnisse wird das Modell bei Bedarf - insbesondere bezüglich der Zentrierung - unsererseits kalibriert. Insbesondere die mittlere Abweichung vergangener Schätzungen findet hierbei Berücksichtigung.