„Ihrem Wesen nach sind alle Modelle falsch, aber einige sind nützlich“. Über Corona-Modelle und -Studien

Seuchenkolumne. Nachrichten aus der vervirten Welt 417

am 14.05.2021

Heute lässt Epidemiologe Robert Zangerle Revue passieren, wie Modellierungen und die Wirklichkeit aufeinander reagieren. Überraschung: die Modelle und Studien waren besser als ihr Ruf! Prognosen wie die 100.000 Toten in Österreich waren hingegen ohne Basis aus der Politikerhüfte geschossen. A.T.

»Was ist „Fedspeak“, auch bekannt als „Greenspeak“, benannt nach Alan Greenspan, dem ehemaligen Vorsitzenden des Federal Reserve Board (US-amerikanischen Notenbank)? Es beschreibt die schwülstige Sprache, die von Vorsitzenden des Federal Reserve Board verwendet wird, wenn vage, unverbindliche oder mehrdeutige Aussagen gemacht werden. Manch ein Vorsitzender witzelte, dass es ihm nicht erlaubt sei, „mir geht es ausgezeichnet“ zu sagen, weil so angeblich Turbulenzen an Finanzmärkten entstehen könnten. Gibt es Vergleichbares bei der Covid-19 Pandemie? Möglich.

Was macht es mit den Menschen, wenn Politiker oder prominente anerkannte Persönlichkeiten oder Meldungen in den Medien sagen, die Pandemie könnte sich in diese oder jene Richtung entwickeln? Das ist die große Unbekannte in den Modellen, das Verhalten der Menschen vorausschauend einzubauen. Wie auch. Diese „Unbekannte“ ist aber längst bekannt, gab es doch schon im Frühjahr die sattsam bekannten Diskussionen, dass es die Lockdowns gar nicht brauchte, weil die Menschen schon vorher ihr Verhalten ändern würden. Das ist richtig, aber vor allem falsch. Richtig, weil die Menschen ihr Verhalten tatsächlich vor offiziellen Ingangsetzungen von Maßnahmen ändern. Immer noch am eindrucksvollsten empfinde ich den Bericht des Klinikdirektors der Innsbrucker Universitätsklinik für Chirurgie, Prof. Dietmar Öfner-Velano über „freiwillige“ Verhaltensänderung:

„An der Klinik in Innsbruck hat der Rückgang der chirurgischen Eingriffe unmittelbar nach Bekanntwerden der ersten Fälle an Covid-19 begonnen, fast drei Wochen vor Verlautbarung der Regierung zu den beschlossenen Maßnahmen. Diese Reduktion spiegelt sich vollständig in der Reduktion der Mobilität in Tirol wider. Die Binsenwahrheit, dass Korrelationen in der Medizin NICHT mit Kausalität gleich gesetzt werden dürfen.“ Schon gar nicht sollte damit der hinlänglich notwendige und bewiesene Nutzen von „Lockdowns“ in Frage gestellt werden („wären gar nicht notwendig gewesen“), sondern es soll lediglich ein Hinweis sein auf die Schwierigkeit, die Pandemie zu modellieren.

Die Schweiz beschloss am 13. April, sechs Tage darauf, also am 19. mit Öffnungen zu beginnen, unter anderem die „Terrassen“ (Schanigärten), aber nicht die Innengastronomie, obwohl „die Zahlen“ gerade leicht stiegen. Die Science Task Force hielt Lockerungen zu einem Zeitpunkt steigender Zahlen für riskant und warnte vor den Öffnungen. „Die Zahlen“ sind aber seit den Öffnungen kontinuierlich im Sinken, weshalb die Task Force gefragt wurde, wieso denn die Modelle nicht stimmten? Task-Force-Chef Martin Ackermann, von der ETH Zürich, freute sich, dass das Infektionsgeschehen momentan besser sei, als es die Modelle gezeigt haben. Die Zusatzmessungen aus dem Abwasser in den Kläranlagen zeigen, dass es nicht daran liegt, dass einfach weniger getestet wird, die Abnahme scheint real zu sein. Das Schweizer Modell könnte die Saisonalität, das mildere Wetter, etwas zu pessimistisch gerechnet zu haben.

Die rückläufige Entwicklung des Fallgeschehens verlief auch in Österreich stärker als erwartet, die Modellierer Niki Popper und Peter Klimek stehen also vor dem selben Problem. Sobald es wärmer wird, verhalten sich Menschen anders, aber die Temperatur hat auch Einfluss auf die Empfänglichkeit der Existenzbedingungen für das Virus. Gleichzeitig verbreitet sich SARS-CoV-2 auch stärker, wenn es ganz trocken ist, wie bei uns im Winter, oder wenn es sehr feucht ist, wie nun in Indien. Die Größenordnung des Einflusses der Saisonalität auf den Verlauf der SARS-CoV-2-Dynamik bleibt offen, dazu gibt es kein gesichertes Wissen.

Möglicherweise wurde auch B.1.1.7, die Virusvariante, die erstmals in Großbritannien entdeckt wurde, doch zu pessimistisch eingeschätzt. Immerhin hat diese Schätzung der erhöhten Übertragbarkeit eine ordentliche Breite von 30-70%. Schon eine nur leichte Verschiebung in der Übertragbarkeit hat in Modellen einen riesigen Einfluss auf die Zahlen. Oder zeigt diese Virusvariante in der wärmeren und in der Luftfeuchtigkeit ausgeglichenen Jahreszeit eine weniger stark erhöhte Übertragbarkeit?

Der größte Unsicherheitsfaktor bei Öffnungen ist das Verhalten der Bevölkerung: Wie macht sie von den neuen Möglichkeiten Gebrauch? Wie vorsichtig oder unvorsichtig sind die Leute bei den zusätzlichen Kontakten? So wie es aussieht, verhält sich eine große Mehrheit sehr vernünftig. Das lag ja auch in der Absicht der Prognoseforscher In Österreich und der Schweiz. Möglicherweise zeigte deren Kommunikation in den letzten Monaten doch Wirkung: Dass sich Menschen der Gefahr bewusst sind und gescheite eigene Entscheidungen treffen. Dann tritt das Risiko nicht ein. So gesehen haben die Modelle vielleicht mitgeholfen, die Pandemie zu bremsen. Das klassische Präventionsparadox.

Tanja Stadler, Leiterin der Arbeitsgruppe Daten und Modellieren in der Science Task Force der Schweiz ist überzeugt, dass die nahende Impfung solches Verhalten gestärkt hat, und verweist auf sich selber: „Ich selbst verhalte mich etwa noch vorsichtiger seit ich weiß, dass die Impfung nicht mehr allzu lange weg ist. Denn so kurz vor der Impfung möchte ich nicht noch infiziert werden“. So habe auch ich das gesehen, und viele in meinem persönlichen Umfeld. Das wird auch durch eine große Studie aus England belegt, wo beschrieben wird, dass in den drei Wochen VOR der ersten Impfung das Infektionsrisiko um 72% sinkt.

Peter Klimek vom Complexity Science Hub der Medizinischen Universität Wien mahnte bei sich selber Zurückhaltung bei Aussagen wie „es hält sich eh niemand mehr an die Regeln“ ein, weil solche Aussagen dazu beitragen könnten, dass es tatsächlich so kommt. In Umfragen bei 240 000 Personen aus 14 Ländern konnte das bestätigt werden: es gibt keinen kontinuierlichen Abfall einer „Pandemie-Müdigkeit“, vielmehr kommen sogar umgekehrte Phänomene vor („fatigue reversal patterns“) .

Die Schweiz hatte den ganzen Winter über weniger harte Maßnahmen als Deutschland oder Österreich und hat vor drei Wochen gelockert. Dennoch zeigen die Kurven in allen drei Ländern nach unten. Oder, wie man leider allzu oft hört: „Es geht auch ohne Lockdown.“ Für die Schweiz gibt es Hinweise, dass dort moderate Maßnahmen wirkungsvoller sind als in manchen anderen Ländern. Wieso die Schweiz das aber besser hinkriegt, kann nur vermutet werden, es gibt keine Studien dazu. Allgemein betont wird die Effektivität der Quasi-Verpflichtung zum Home Office, ganz analog mit dem Umgang des Präsenzunterrichtes. Das beinhaltete gleich ein Bündel an Folgen: weniger Mobilität, kein gemeinsames Mittagessen, keine gemeinsamen Pausen u.a. Woraus man auch schließen kann, dass die Leute generell weniger Kontakte außerhalb ihres Haushalts haben.

Inwieweit das den Unterschied zwischen diesen 3 Ländern miterklärt, ist nicht klar. Ebenso unbewiesen ist, ob die lange und gleichbleibende Qualität aller Maßnahmen in der Schweiz im Vergleich zum Hü und Hott des Auf-Zu-Auf-Zu, besonders in Österreich, das wesentlich bessere Abschneiden der Schweiz in der 3. Welle erklärt. Um die Auswirkungen der Maßnahmen zur Eindämmung des Corona Virus oder von Lockerungsschritten in Übertragungsraten zu übersetzen, hält man sich an den international vorgegebenen Oxford-Stringency-Index. Da der Lernprozess während der Pandemie stetig weiterläuft und sich Variablen damit auch ständig verändern können, bedarf der Index weiterer Anpassungen.

Die Wirksamkeit nur einer einzelnen Maßnahme kann nicht sicher beurteilt werden. Keine der einzelnen, konkreten Maßnahmen wurde je isoliert in einem kontrollierten Experiment untersucht. Umgekehrt kann deshalb auch nicht die Folge der Aufhebung einer Maßnahme in den Folgen exakt abgeschätzt werden. Davon aber abzuleiten, dass besonders viele Aufhebungen von Maßnahmen zur gleichen Zeit unbedenklich wäre, ist völlig verfehlt. Da tut ein Blick in die Schweiz gut. Die Schweiz ist doch deutlich besser durch die 3. Welle gekommen. Sie öffnet die Innengastronomie erst 6 Wochen nach den Terrassen („Schanigärten“) – bei uns in Österreich gleichzeitig. Die jetzt beschlossene Aufhebung der Home Office Pflicht versucht die Schweiz mit einmal wöchentlichen Pflichttestungen in allen Betrieben abzumildern. Das könnte effizienter sein, als „Wohnzimmertests“ in den Betrieben zu verteilen und die Testung dem Zufall zu überlassen, wie vielerorts in Österreich. Das jeweils zu modellieren schlingert an der Grenze zum Unmöglichen. Besonders zu bedenken gilt, dass das Infektionsgeschehen, gemessen am effektiven Reproduktionsfaktor Reff seit Anfang Juli 2020 um den Wert 1 oszilliert, immer knapp über oder knapp unter 1, dann kann die Dynamik zwischen steigend oder fallend auch schnell kippen. Oder Modelle inadäquat machen, einer der Gründe wieso sich die Modelle in Österreich auf 14 Tage beschränken.

Dirk Brockmann, verantwortlich für epidemiologische Modellierung an der Humboldt-Universität zu Berlin und am Robert Koch-Institut, sieht in diesem Oszillieren um den Wert 1 auch das so schwer bis oft unmöglich zu berechnende Verhalten der Menschen. „Die Bevölkerung hat krasse Ausdauer bewiesen und gezeigt, dass sie mit den eigentlich falschen Entscheidungen der Politik nicht die Nerven verliert“ oder auch hier, versteckt in diesem ultralangen Interview. Dieses Verhalten passiert auch unabhängig von Maßnahmen, kann denen vorausgehen, und auch länger anhalten.

Ein Wort zu den Modellen. Was ist dran am Vorwurf der Panikmache oder Ungenauigkeit? Wie gut waren sie? Das bekannteste Model war wohl jenes des Teams um Neil Ferguson vom Imperial College in London im März 2020, welchem die Auslösung des Wechsels vom Zuwarten zum „Lockdown“ in Großbritannien und sogar in den USA und anderswo zugeschrieben wird. Leider wird immer wieder behauptet, dass dieses Modell 510 000 Todesfälle innerhalb von 2 Jahren vorausgesagt habe. Diese Projektion galt nur für den in Realität sehr unwahrscheinlichen Fall, dass keinerlei Maßnahmen getroffen würden.

Ihr Modell war im Übrigen eher optimistisch, weil das Modell selbst für den Fall eines nicht vollständigen Lockdowns maximal 50 000 Todesfälle voraussagte; die tatsächliche Zahl der Todesfälle lag aber weit darüber. Im Juli 2020 projizierte ihr Worst Case Szenario für Großbritannien bis 31. März dieses Jahres 85 000 Todesfälle, aber die Wirklichkeit war wiederum schlimmer als das Worst Case Szenario, in Teilen auch der B.1.1.7 geschuldet. Eine kleine Panne passierte im Oktober 2020, als eine fehlerhafte Berechnung von bis zu 4000 Todesfällen im Winter pro Tag, die noch gar nicht frei gegeben war, „geleaked“ wurde, obwohl die Berechnung schon vorher revidiert worden war.

Die Frage ist eher, kann man das besser machen? David Spiegelhalter von der Universität Cambridge machte im April 2020 eine Befragung bei 140 Experten und 2000 Nicht-Experten in Großbritannien, um deren Einschätzung der Epidemie zu untersuchen. Die Experten schätzten 30 000 Todesfälle bis Ende des Jahres und die Nicht-Experten 20 000, etwa ein Drittel der Experten hatte die wirkliche Zahl der Todesfälle in ihrem „Konfidenz-Intervall“ und lediglich 10% der Nicht-Experten trafen so genau. Die Menschen waren einfach zu optimistisch und zuversichtlich – keine neue Erkenntnis. Mit dem Satz „ihrem Wesen nach sind alle Modelle falsch, aber einige sind nützlich“ weist der Statistiker George E-P.Box den Weg. Modelle heißen Modelle, weil sie nicht die Realität sind – vergessen wir das nicht. Deshalb wohnen Modellen immer Unsicherheiten und Unwägbarkeiten inne, ausgehend von Annahmen, unzureichenden Daten und der Unvorhersagbarkeit des Verhaltens der Menschen in der Wirklichkeit. In der Regel wird das so kommuniziert, aber wieso wird es dann eigentlich anders verstanden?

Bitte jetzt nicht die Groteske von den 100 000 Todesfällen in Österreich ins Spiel bringen. Ein Worst Case Szenario, in dem das Fehlen jeglicher Maßnahmen die Basis bildete, mitten im harten Lockdown zu verkünden, wo sich der Rückgang der Zahlen schon andeutete, war einfach daneben und bildete meiner Ansicht nach die Saat für den folgenden Vertrauensverlust .

So kann diese Kolumne aber nicht aufhören. Es braucht einen kleinen Ausflug in die Heuristik. Welche Art von Studien haben die größte Beweiskraft? Und kann man die Arten der Studien in ihrer relativen Stärke in einer Hierarchie bewerten? Die Hierarchie vom Oxford Zentrum für Evidence Based Medicine mit ihren von I-V abnehmenden „Levels of Evidence“ hat am meisten Beachtung gefunden. Die Gültigkeit und die kausalen Schlussfolgerungen sind in der Kategorie I am stärksten, dort findet man auch am wenigsten Bias. „Bias“ sind durch nicht-optimale Untersuchungsmethoden verursachte Verzerrungen des Studienergebnisses.

Das sollte man auch bedenken, wenn jetzt Studien, die die Folgen des Ausrollens der Impfungen untersuchen (vor allem Israel und Großbritannien) auch immer wieder einmal in der Öffentlichkeit überinterpretiert werden, so zum Beispiel im Vergleich der Wirksamkeit von Impfstoffen. Da muss man sehr zurückhaltend sein, weil es für diese Fragestellung gar keine randomisierten Studien gibt, also keine Studien mit der höchsten Beweiskraft. In den großen randomisierten kontrollierten Studien mit Impfstoffen gegen Covid wurde gegenüber Placebo verglichen. Bei der AstraZeneca Studie in den USA wurde gegen Placebo verglichen, für die Zulassung in Europa diente auch Impfstoff gegen Meningokokken als Kontrolle. Es gibt keine randomisierte kontrollierte Studien, in der Impfstoffe gegen Covid Seite an Seite miteinander verglichen wurden.

Lassen wir die Wirksamkeitsstudien noch einmal Revue passieren: In der folgenden Tabelle sind die letzten verfügbaren Zahlen eingefügt, zum Teil auch aus Pressekonferenzen entnommen, aber voluminöse Assessment Reports der Behörden und Publikationen in den führenden Journalen sind den „kleineren“ Zahlen vorausgegangen. Schon erstaunlich, wie hervorragend wirksam diese Impfungen sind. Inzwischen sind die Zahlen aufgrund der längeren Beobachtungszeiträume wirklich grundsolide. Die Seuchenkolumne vom 14. März titelte optimistisch „Alle zugelassenen Impfstoffe sind gut. Warum das so ist und wie man das feststellt“, aber im Text wurde der Schutz vor schwerer Erkrankung wegen der damals noch kleinen Zahlen sehr vorsichtig formuliert.

„Sind zwei Monate Beobachtung, genug, um Sicherheitsbedenken für alle auszuräumen“? So lautete eine Zwischenüberschrift in der Seuchenkolumne vom 30. Dezember, der Text ging so weiter:

»So wie das formuliert ist, natürlich nicht. Üblicherweise werden für einen gänzlich neuen Impfstoff Sicherheitsdaten über 6 Monate verlangt. Zwei Monate entsprechen also einem Kompromiss, sowohl für die Behörden, für die es eine bedingte Zulassung unter besonderen Bedingungen darstellt. Es ist aber auch ein Common-Sense-Kompromiss für die Gesellschaft in der Abwägung zwischen den enormen Schäden durch Krankheit und Tod durch die Covid-19 Pandemie und den unvollständigen Sicherheitsdaten. Wenn wir diese Pandemie überwinden wollen, dann ist es eine gesellschaftliche Verpflichtung, dass alle von uns, welche geimpft werden können, auch wirklich geimpft werden.“

„Wie ist das aber für Personen mit geringerem Risiko für Exposition und/oder Erkrankung? Etwas bitter, hier scheint die Verknappung des Impfstoffes für die Entscheidung, wann geimpft werden soll, eine unerwünschte Hilfestellung zu sein. Bis Anfang April steht selbst für „Risikogruppen“ zu wenig Impfstoff zur Verfügung. Sechs Monate nach Beginn der Phase III Studien, das wird Anfang April 2021 mehr als übererfüllt sein, kann man sich sorglos fühlen, dass ein Impfstoff für möglichst alle sicher ist.“

Dem ist heute nichts dazu zufügen. Auch die Systeme zur Beobachtung von unerwünschten Wirkungen („Pharmakovigilanz“) funktionieren, wenngleich mancherorts auch Verbesserungsbedarf besteht.

Also dann, auf zum Impfen!« R.Z.

Distance, hands, masks, be considerate!

Ihr Armin Thurnher

„Ihrem Wesen nach sind alle Modelle falsch, aber einige sind nützlich“. Über Corona-Modelle und -Studien

Seuchenkolumne. Nachrichten aus der vervirten Welt 417

Biennale-Notizen aus Venedig.

Brüllnebler Kickl: Wär wässen noch lange nächt genog!

Dinge, die man nicht erfinden kann: Feinkosten

Politbotanik oder so: Russenblumen und Grassternmieren

Innsbruck, Leverkusen, Filoteig: Es lebe die Fortsetzung!