Präambel: Ich bin kein Experte auf dem Gebiet der Pandemieforschung. Daher erhebe ich keinerlei Ansprüche, dieses Feld gut zu kennen. Ich kenne mich lediglich im Bereich der Statistik bezüglich von Ländervergleichen aus, wenngleich es auch in diesem Feld ‚größere Kapazitäten‘ als mich gibt. Trotzdem ist vielleicht gerade der fachfremde Blick hilfreich, die Diskussion um die vorhandene quantitative Evidenz zur Wirksamkeit der Lockdown Maßnahmen zu beobachten. Meine Beobachtungen zielen dabei auch weniger auf ein Fachpublikum, sondern die breite Öffentlichkeit. Insbesondere geht es mir darum zu erklären, warum das Publikum keine vorschnellen Schlüsse aus einzelnen wissenschaftlichen Ergebnissen ziehen soll.
Es ist gar nicht so einfach zu sagen, was als empirisch ‚belastbare Evidenz‘ in Medizin und Epidemologie gilt. In der Regel bevorzugen Mediziner Experimente. Idealerweise haben Experimente mindestens zwei Gruppen: eine Gruppe bekommt ein Medikament z.B. gegen Schmerzen, die andere ein Placebo. Es ist wichtig, dass dies in einem geschlossenen Labor passiert, damit die Außenwelt keine Einwirkung entfalten kann, und dass die Gruppen zufällig zusammengesetzt werden. Der Zufall (sowie eine ausreichend große Stichgrobe) ist entscheidend, weil es sonst sein kann, dass nur bestimmte Menschen, z.B. solche mit hohen Schmerzen, teilnehmen wollen bzw. das Medikament wählen. Dies entspräche aber genau dem umgekehrten Zusammenhang (von der Krankheit auf die Wahl der Mittel).
In einem Experiment kann man dann eine Differenz-in-der-Differenz gemessen: wie verändert sich etwas bei der Gruppe, die ein Medikament bekommt im Verhältnis zur Veränderung der Gruppe, die nur ein Placebo bekommt. Ist der Effekt groß genug und deutlich genug (‚signifikant‘), dann ist das Medikament wirksam. In der Praxis sind Experimente häufig schwierig bis unmöglich bei komplexen Dingen. Z.B. kann man m.E. den Effekt des Maskentragens kaum mit (Feld-)Experimenten ermitteln. Wenn also einiger Mediziner behaupten, dass es keine Evidenz für die Wirksamkeit des Maskentragens gibt, dann haben sie ein sehr restriktives Verständnis darüber, was als Evidenz gilt. Sie akzeptieren nur Experimente (und vielleicht noch Feldexperimente wie Randomized Controlled Trials).
In diesem Fall kann man aber die ganzen Lockdownstudien auch gleich ignorieren. Denn beim Lockdown gehen Experimente nicht, weil Regierungen i.d.R. nicht experimentieren können oder (aus ethischen Gründen) wollen. Zudem sind die Effekte nicht individuell, sondern systemisch, und es gibt keine Kontrolle (bzw. den geschlossenen Raum). Um den Effekt von Lockdownmaßnahmen auf relevante Infektionskennzahlen zu schätzen gibt es v.a. zwei Methoden. Entweder man simuliert diese Effekte mit Computermodellen oder man versucht, ‚echte‘, observierte Daten mittels statistischer Tests zu analysieren. Simulationen können auch auf echte Daten kalibriert sein, aber diese Studien waren v.a. auch zu Beginn der Pandemie wesentlich, weil man noch keine realen Daten zur Verfügung hatte.
In letzter Zeit gibt es jedoch Studien des zweiten Typs. Bei ‘echten’, d.h. observierte Daten gibt es a) große Probleme der Messbarkeit und Vergleichbarkeit über Länder hinweg, b) relativ wenige Fälle, und c) sind diese Fälle nicht zufällig verteilt. Sehen wir uns hier das Beispiel der jüngsten Studie von Bendavid et al.[ https://onlinelibrary.wiley.com/doi/10.1111/eci.13484] an, die angeblich von politischen Entscheidungsträgern systematisch missachtet wird (https://www.youtube.com/watch?v=-bDwvbpnWwI&feature=share&fbclid=IwAR1QrE2wJ0crPP4tnOZZMc_IvHyZFKQe-xYcM4DoBb4v_YNsTTzhOtxboZQ). Die Autoren benutzen reale Daten und stellen die Versuchsanordnung eines Experimentes nach. V.a. unterscheiden die Autoren, Südkorea und Schweden als ‚Kontrollgruppe‘ mit relative schwachen Lockdownmaßnahmen und eine Gruppe aus weiteren acht Ländern (England, Frankreich, Deutschland, Spanien, Iran, Italien, Niederland und USA), welche die ‚harte Medizin‘ von strikten Lockdownmaßnahmen verabreicht bekommen haben. Der Untersuchungszeitraum beschränkt sich auf die erste große Welle der Pandemie im Frühjahr 2020.
Um noch mehr Fälle zu bekommen, schlüsseln die Autoren die Daten regional auf, betrachten also Regionen innerhalb Schwedens, Deutschlands etc. Allerdings erhöht das die ‚echte‘ Fallzahl nicht unbedingt, v.a. dann nicht, wenn die Maßnahmen von vielen oder allen Regionen zeitgleich in einem Land getroffen wurden. Außerdem gibt es auch noch zusätzliche Messbarkeits- und Zurechenbarkeitsprobleme, wenn die Regionen sehr klein werden. Dann kann es beispielsweise sein, dass die Nachbarregionen COVID-Fälle aufnehmen oder abgeben.
Geringe Fallzahlen spielen übrigens auch deswegen eine Rolle, weil kleine ‚Stichproben‘ dazu tendieren, Nulleffekte zu produzieren. Oder auf Deutsch: Man findet kaum gut beobachtbare und inhaltlich interessante Unterschiede, wenn man sehr wenig Fälle bzw. sehr wenig Unterschiede zwischen den Lockdownmaßnahmen dieser Fälle zur Verfügung hat. Der Nulleffekt ist aber das Hauptargument der Autoren in dieser Studie („We fail to find strong effects.“).
Aus meiner Sicht aber ist problematischer, dass die Länder nicht zufällig COVID Maßnahmen treffen, sondern als Reaktion auf die Entwicklung der Fallzahlen. D.h. der kausale Zusammenhang ist erstmal vermutlich eher umgekehrt: Nicht wie wirkt der Lockdown auf die Fallzahlen, sondern wie wirken Fallzahlen auf die Wahrscheinlichkeit, dass eine Regierung in einen harten Lockdown geht. Es würde mich zum Beispiel sehr wundern, wenn Südkorea nicht auch noch einen härteren Lockdownplan in der Schublade gehabt hätte. Aber Südkorea war vermutlich im Frühjahr schnell und fähig genug, die Pandemie mit gezielten Maßnahmen (test and trace) zu stoppen. Daher musste Südkorea auch härtere Maßnahmen gar nicht mehr erwägen.
In Experimenten ist das mit der umgekehrten Kausalität meist kein Problem, weil dort zufällig auf Medikation und Placebo verteilt wird. Hier, mit nichtexperimentellen Daten, ist die Richtung der Kausalität jedoch eine große Crux. Ich selbst arbeite viel zu Armut und Sozialpolitik. Da gibt es genau das Problem, dass Sozialpolitik Armut reduzieren soll, aber nur wirklich Arme die Sozialpolitik bekommen (sollten). Diese beiden gegenläufigen Effekte wirksam auseinander zu dröseln ist sehr schwierig. Manche Studien sind da besser als andere, aber einfach lösen kann das niemand.
Zudem kommt, dass es bei nichtexperimentellen Daten wichtig ist, möglichst vergleichbare Gruppen zu haben. Das ist jedoch bei Ländern extrem schwer. Schweden ist bis auf Stockholm dünn besiedelt, da müsste man jetzt also genau wissen, wie da für Bevölkerung und Besiedlung kontrolliert wurde. Wenn ich die Studie richtig verstehe, dann ist Stockholm eine Region von 21 Regionen (https://en.wikipedia.org/wiki/Counties_of_Sweden) obwohl Stockholm bei weitem die meisten Einwohner hat. Der Ausreißer Stockholm spielt also im Modell kaum keine Rolle (auch wegen der Differenzen-in-Differenzen).
Zudem hat Schweden wenig relevante Außengrenzen und war relativ weit vom ersten Hotspot in Europa (Italien/ Spanien/ Österreich?) entfernt. Südkorea ist sogar noch extremer, weil es eine politische Insel ist: es hat nur eine einzige physische Grenze, und die ist aus politischen Gründen kaum relevant. Viele der in der Presse oft diskutierten ‚Erfolgsfälle‘ in der COVID-Bekämpfung – ob mit oder ohne harten Lockdown – sind Insellagen (Taiwan, Neuseeland, Israel…). Da muss man häufig nur die Flughäfen kontrollieren oder dichtmachen und Grenzschließungen sind dort auch politisch weniger problematisch.
D.h. nicht, dass man aus Schweden und Südkorea nichts lernen kann. Und die Studie ist durchaus gut gemacht und relevant. Aber der Vergleich ist nicht einfach. Etwas besser m.E. wäre z.B. ein Vergleich zwischen Schweiz (weniger harter Lockdown) und Österreich (harter Lockdown). Die beiden Länder waren auch ziemlich gleichzeitig der Infektion ausgesetzt und haben doch unterschiedlich reagiert. Allerdings war der Unterschied vielleicht im Herbst größer als noch im Frühjahr letzten Jahres.
Es gibt auch noch weitere Probleme, wenn man sich die acht ausgewählten Ländern mit hartem Lockdown ansieht. Die Gruppe ist sehr heterogen. Die jeweilige Belastung durch COVID unterschied sich stark von Land zu Land, und die Maßnahmen ebenso. Wenn man aber eine heterogene Gruppe betrachtet, passiert es häufig, dass die Effekte stark verwischen. Auch das timing solcher Maßnahmen ist schwer zu bestimmen. In der Regel werden Lockdownmaßnahmen lange diskutiert. Das macht es schwierig zu verstehen, (ab) wann und ob die Bevölkerung darauf reagiert. Sicher ist, dass dies nicht unbedingt der offizielle Zeitpunkt des Einführens der Maßnahme sein muss.
Ein sehr interessanter Teil der Bendavid Studie ist, dass der Lockdown kontraproduktiv wirken kann. Anekdotisch sieht man das ja sehr eindrücklich zum Beispiel an den Massenkundgebungen der Trumpwählern und von Coronaskeptikern in Europa. Auf die Studie angewendet könnte das erklären, warum manche der Ergebnisse der Effekte positiv sind, also die Infektionsraten noch zu steigern scheint. Das könnte auch erklären, warum der zweite Lockdown scheinbar weniger funktioniert. Die Leute machen nicht mehr mit. Aber, wie gesagt, eine solche Interpretation ist auch mit Vorsicht zu genießen, denn eine höhere Infektionsrate könnte auch bedeuten, dass die Wirkungsrichtung sich in die andere Richtung bewegt, von den Infektionszahlen zu immer strikteren Lockdownmaßnahmen. Der Differenzen-in-Differenzen Ansatz kann dieses Problemen nicht wirklich lösen.
Wie steht die Studie von Bendavid et al. im Verhältnis zu anderen Studie? Ich habe mal bei Google Scholar eingegeben „Effectiveness Lockdown Corona/COVID“ (bzw. die ersten 10 Seiten an Treffern). Je nach zählweise finde ich so zwischen 10 und 15 Studien. Die Auswahl ist sicherlich verbesserungswürdig, aber ich habe nur Studien angesehen, die observierte Daten verwenden. Man kann sich jetzt über jede einzelne Studie streiten, aber die meisten tendieren dazu, dem Lockdown eine gewisse Wirksamkeit zu attestieren. Wenn ich auszähle finde ich neun Studien, die einen Effekt finden, zwei (oder mehrere) gemischte, und eine, die keine Effekte findet.
Autoren | geographische Eingrenzung | Ergebnis |
Medeiros de Figureiro et al. | 2 chinesische Provinzen | “6-8% reduction in relative risk” |
Nazmoon Nabi and Islam | five developing countries | no compelling evidence |
Cocchia | six countries | short lockdown effective |
Bhandary | Nepal | doubling time increased |
Alfano and Ercolano | 109 (47) countries | lockdown measures bring R0 down |
Neidhöfer and Neidhöfer | three countries synthetically matched with OECD sample | early measures effective |
Islam et al. | 149 countries | overall reduction of 13% |
Bonardi et al. | 184 countries | partial lockdown as effective as stricter measures |
Moris and Schizas | Greece | early lockdown was appropriate |
Saijan et al. | 2 Indian states | measures had great (but varied) impact |
Haug et al. | two samples: 79 territories and 226 countries | several measures reduce risk, some are borderline significant. |
Lau et al. | Wuhan | significant increase in doubling time |
Das ist natürlich nur grob (und manche Studien scheinen methodisch deutlich besser als andere), aber die Tabelle zeigt, dass wie immer gilt: eine Studie ist keine Studie! Das heißt nicht, das Bendavid et al. falsch liegen. Vermutlich werden wir in Zukunft noch mehr Studien sehen, welche die Effekte von Lockdownmaßnahmen in Zweifel ziehen. Die Unterschiedlichkeit der Ergebnisse liegt am Untersuchungsgegenstand. Statistische Studien mit Ländervergleichen haben immer strukturelle Schwächen, v.a. bei sehr komplexen sozialenwissenschaftlichen Problemen. Daher müssen alle Arten von Evidenzen (auch Simulationen, Fallstudien etc.) systematisch herangezogen werden, um ein ‚solides Bild‘ zu bekommen.
Eine andere Frage ist natürlich, ob die positiven Effekte groß genug sind, um die stark freiheitsberaubenden und sozial, ökonomisch und psychologisch bedenklichen Maßnahmen rechtfertigen zu können? Auch hier gibt es Studien (z.B. Mol und Karnon [https://doi.org/10.1101/2020.09.14.20194605]), aber hier betreten wir meiner Meinung nach ein Territorium, das wissenschaftlich nicht mehr wirklich wertneutral verhandelt werden kann. Es kommt v.a. darauf an, wie man den Wert menschlichen Lebens und Leidens ansetzt (sowohl auf der Kosten- als auch Nutzenseite von Lockdowns), und das ist auch eine ethische Frage. Da helfen Berechnungen alleine kaum.
Zusammenfassend kann man sagen, dass die Wissenschaft sich in einer Zwickmühle befindet. Einerseits ist es sehr schwierig komplexe Studienergebnisse richtig zu interpretieren und zu diskutieren. Daher sind viele Wissenschaftler*Innen sehr zurückhalten, sich in das Mediengetümmel zu stürzen. Andererseits schwirren wissenschaftliche Studien dann einfach losgelöst im Äther von Youtube, Facebook und anderen Medien und können wie auch immer (voreingenommen) interpretiert werden. Daher werden wir wohl in Zukunft nicht darum herum kommen, mehr Wissenschaftler*Innen und mehr Wissenschaftsjournalist*Innen auszubilden, die systematisch Evidenzen zusammen ziehen und für eine breitere, interessierte Öffentlichkeit aufbereiten können. Ansonsten überlassen wir die Interpretation der Ergebnisse wilden Spekulationen über angebliche, verdeckte Motive.