Why we should use Lotteries in Policymaking

We live in a society which obsesses with measuring, ranking, and benchmarking (see e.g. Steffen Mau’s The Metric Society). Everything needs to be compared, everyone needs to compete. Metrification and competitiveness go hand in hand. And the underwriting normative principle of all of this measuring and competing is meritocracy, the gold standard which seemingly marries efficiency with justice.

Yet, deep down, we all know that success in life depends on many things such as personal background, health, connections, and sheer, damn luck. Our society likes to underestimate those other factors, and overestimate merit and effort. There are both cultural and psychological reasons for this. For societies, meritocracy is an easy and legitimate way to create social order. For individuals’ psyche, meritocracy means that winners can congratulate themselves, and losers can blame themselves. This creates a very stable system.

Several recent books (Markovits, Guinier, Sandel) have called into question this tyranny of meritocracy. Strong meritocracy is a serious blow to social mobility and the social fabric of society in the long run.

However, meritocracy not only blows relatively small individual differences out of proportion to create a cult of winning. Meritocracy can also never be the only normative goal for a society. For instance, as numerous advocates of equality of opportunity have argued, not everyone gets out of the racing blocks at the same time. Members of the elite are in much better position to place their kids in the meritocratic race than parents with less privileged backgrounds. Occasionally and controversially, institutions use countermeasures: affirmative action, minority quotas, seniority principles etc. But these countermeasures never sit easily with the underlying creed of meritocracy.

Meritocracy also makes us measure things that are hard to measure. Ever wondered how to rate who the best painter of all times was, or the best pop/rock/jazz band? Or what to answer what your favourite football/ soccer goal of all times is? Or whether you like skiing or sunbathing more? For many people the answer is tricky, because the problems are multi-dimensional. Skiing and sunbathing are both favourite options, depending on the season. Football knows many different, equally wonderful types of goals. And it is impossible to say that Van Gogh was the better painter than Gauguin.

These are obvious examples, but they also apply to policy problems. Should money be better spent on roads or schools? Should politicians talk more about the environment or more about the pandemic? A ‘rating society’ makes us rate things that cannot easily be rated. This can yield dangerous results under certain circumstances: the meritocratic process is, in the best of all cases, extremely difficult, and the worst cases extremely misleading. Many allocation problems suffer from this. Let me make a simple example: Who should get the annual best paper award at a political science conference? A women who collected thousands of data points, used an intriguing statistical method and found some interesting voting patterns? Or a man who did months of ethnographic field research, spending hundreds of hours listening to voters in the countryside? Even seemingly ‘objective’, ‘rigorous’ and ‘scientific’ procedures often boil down to ‘aesthetic’ preferences of jury members.

In other contexts, complicated benchmarking either means that those with most resources will win (best prepared bid), or those with politically closest ties (nepotism, corruption). FIFA’s way how to decide on who to host Football (Soccer) World Cups is a good example for this dilemma. Yes, we all know that FIFA is marred with corruption scandals. Western critique about FIFA’s corrupt structures are in many ways justified, but usually these critics do not come up with interesting solutions to avoid the problem that money = merits. If it was about monetary merits, the US as the highest bidder should regularly host the World Cup every four years. The outcome would be ironic given that the US is somewhat of a dwarf in sporting success when it comes to male soccer nations.

One could say, of course, who cares about which country will host the World Cup. Unfortunately, most really important policy problems are complex, multi-dimensional and not easy to measure (at least not in an uncontroversial way). Complex problems make it easy for equating merit with money or else favouritism, corruption and patronage creep in.

Undoubtedly, wee need a mechanism to allocate scarce resources. We do not have enough money to give the everyone to equal measure. I think we should use lotteries in such cases more often. Take the FIFA example: A committee could check minimum quality standards to weed out bad bids. In a second stage, the lottery decides who gets to host the tournament. This would make it much more difficult that a) only rich countries win, or b) only the corrupt(ing) countries win. It would also honour the fact that there are usually several, very good bids, all with different merits. It would, finally, acknowledge the fact that a lot of success in life is ultimately due to sheer, damn luck.

What I propose here is not so outlandish as it sounds. Recently, even the World Bank has suggested to use a lottery system when other forms of targeting social transfers fail. Some scholarship grants or working permits such as the U.S. Green Card are given on a random basis. Other policy applications use lotteries to experiment. In 2019, the Nobel Prize in economics was awarded to Esther Duflo and AbhijitBanerjee for their ‘proselytization’ of randomized controlled trials (RCTs). RCTs are nothing else than using a lottery to assign who gets to benefit from a policy or not. The lottery allows us to find out how effective these (relatively simply) policy interventions are. While such experiments have clear limits, they can allow us to get a glimpse at the social mechanics of policy interventions.

What we now need is to take the lottery from merely experimenting to actually allocating scarce resources. To be clear: I am not advocating for applying lotteries everywhere, from all forms of public redistribution of money, to all hiring procedures for new jobs, and to all forms of contracting on random basis. But occasionally throwing up your hands in the air and using a lottery as a fairer, more equitable and more realistic tool of policymaking is definitely a useful antidote against all the competition that pervades our economy, politics and society. Who knows, next time you lose out on a contract, a grant, a job or an award you might have to damn your fate, rather than damning a jury decision you anyways would have thought to be biased.

Leave a comment

Filed under Uncategorized

Wie wirksam sind Lockdown Maßnahmen? Ein grober Überblick über bestehende Studien

Präambel: Ich bin kein Experte auf dem Gebiet der Pandemieforschung. Daher erhebe ich keinerlei Ansprüche, dieses Feld gut zu kennen. Ich kenne mich lediglich im Bereich der Statistik bezüglich von Ländervergleichen aus, wenngleich es auch in diesem Feld ‚größere Kapazitäten‘ als mich gibt. Trotzdem ist vielleicht gerade der fachfremde Blick hilfreich, die Diskussion um die vorhandene quantitative Evidenz zur Wirksamkeit der Lockdown Maßnahmen zu beobachten. Meine Beobachtungen zielen dabei auch weniger auf ein Fachpublikum, sondern die breite Öffentlichkeit. Insbesondere geht es mir darum zu erklären, warum das Publikum keine vorschnellen Schlüsse aus einzelnen wissenschaftlichen Ergebnissen ziehen soll.

Es ist gar nicht so einfach zu sagen, was als empirisch ‚belastbare Evidenz‘ in Medizin und Epidemologie gilt. In der Regel bevorzugen Mediziner Experimente. Idealerweise haben Experimente mindestens zwei Gruppen: eine Gruppe bekommt ein Medikament z.B. gegen Schmerzen, die andere ein Placebo. Es ist wichtig, dass dies in einem geschlossenen Labor passiert, damit die Außenwelt keine Einwirkung entfalten kann, und dass die Gruppen zufällig zusammengesetzt werden. Der Zufall (sowie eine ausreichend große Stichgrobe) ist entscheidend, weil es sonst sein kann, dass nur bestimmte Menschen, z.B. solche mit hohen Schmerzen, teilnehmen wollen bzw. das Medikament wählen. Dies entspräche aber genau dem umgekehrten Zusammenhang (von der Krankheit auf die Wahl der Mittel).

In einem Experiment kann man dann eine Differenz-in-der-Differenz gemessen: wie verändert sich etwas bei der Gruppe, die ein Medikament bekommt im Verhältnis zur Veränderung der Gruppe, die nur ein Placebo bekommt. Ist der Effekt groß genug und deutlich genug (‚signifikant‘), dann ist das Medikament wirksam. In der Praxis sind Experimente häufig schwierig bis unmöglich bei komplexen Dingen. Z.B. kann man m.E. den Effekt des Maskentragens kaum mit (Feld-)Experimenten ermitteln. Wenn also einiger Mediziner behaupten, dass es keine Evidenz für die Wirksamkeit des Maskentragens gibt, dann haben sie ein sehr restriktives Verständnis darüber, was als Evidenz gilt. Sie akzeptieren nur Experimente (und vielleicht noch Feldexperimente wie Randomized Controlled Trials).

In diesem Fall kann man aber die ganzen Lockdownstudien auch gleich ignorieren. Denn beim Lockdown gehen Experimente nicht, weil Regierungen i.d.R. nicht experimentieren können oder (aus ethischen Gründen) wollen. Zudem sind die Effekte nicht individuell, sondern systemisch, und es gibt keine Kontrolle (bzw. den geschlossenen Raum). Um den Effekt von Lockdownmaßnahmen auf relevante Infektionskennzahlen zu schätzen gibt es v.a. zwei Methoden. Entweder man simuliert diese Effekte mit Computermodellen oder man versucht, ‚echte‘, observierte Daten mittels statistischer Tests zu analysieren. Simulationen können auch auf echte Daten kalibriert sein, aber diese Studien waren v.a. auch zu Beginn der Pandemie wesentlich, weil man noch keine realen Daten zur Verfügung hatte.

In letzter Zeit gibt es jedoch Studien des zweiten Typs. Bei ‘echten’, d.h. observierte Daten gibt es a) große Probleme der Messbarkeit und Vergleichbarkeit über Länder hinweg, b) relativ wenige Fälle, und c) sind diese Fälle nicht zufällig verteilt. Sehen wir uns hier das Beispiel der jüngsten Studie von Bendavid et al.[ https://onlinelibrary.wiley.com/doi/10.1111/eci.13484] an, die angeblich von politischen Entscheidungsträgern systematisch missachtet wird (https://www.youtube.com/watch?v=-bDwvbpnWwI&feature=share&fbclid=IwAR1QrE2wJ0crPP4tnOZZMc_IvHyZFKQe-xYcM4DoBb4v_YNsTTzhOtxboZQ). Die Autoren benutzen reale Daten und stellen die Versuchsanordnung eines Experimentes nach. V.a. unterscheiden die Autoren, Südkorea und Schweden als ‚Kontrollgruppe‘ mit relative schwachen Lockdownmaßnahmen und eine Gruppe aus weiteren acht Ländern (England, Frankreich, Deutschland, Spanien, Iran, Italien, Niederland und USA), welche die ‚harte Medizin‘ von strikten Lockdownmaßnahmen verabreicht bekommen haben. Der Untersuchungszeitraum beschränkt sich auf die erste große Welle der Pandemie im Frühjahr 2020.

Um noch mehr Fälle zu bekommen, schlüsseln die Autoren die Daten regional auf, betrachten also Regionen innerhalb Schwedens, Deutschlands etc. Allerdings erhöht das die ‚echte‘ Fallzahl nicht unbedingt, v.a. dann nicht, wenn die Maßnahmen von vielen oder allen Regionen zeitgleich in einem Land getroffen wurden. Außerdem gibt es auch noch zusätzliche Messbarkeits- und Zurechenbarkeitsprobleme, wenn die Regionen sehr klein werden. Dann kann es beispielsweise sein, dass die Nachbarregionen COVID-Fälle aufnehmen oder abgeben.

Geringe Fallzahlen spielen übrigens auch deswegen eine Rolle, weil kleine ‚Stichproben‘ dazu tendieren, Nulleffekte zu produzieren. Oder auf Deutsch: Man findet kaum gut beobachtbare und inhaltlich interessante Unterschiede, wenn man sehr wenig Fälle bzw. sehr wenig Unterschiede zwischen den Lockdownmaßnahmen dieser Fälle zur Verfügung hat. Der Nulleffekt ist aber das Hauptargument der Autoren in dieser Studie („We fail to find strong effects.“).

Aus meiner Sicht aber ist problematischer, dass die Länder nicht zufällig COVID Maßnahmen treffen, sondern als Reaktion auf die Entwicklung der Fallzahlen. D.h. der kausale Zusammenhang ist erstmal vermutlich eher umgekehrt: Nicht wie wirkt der Lockdown auf die Fallzahlen, sondern wie wirken Fallzahlen auf die Wahrscheinlichkeit, dass eine Regierung in einen harten Lockdown geht. Es würde mich zum Beispiel sehr wundern, wenn Südkorea nicht auch noch einen härteren Lockdownplan in der Schublade gehabt hätte. Aber Südkorea war vermutlich im Frühjahr schnell und fähig genug, die Pandemie mit gezielten Maßnahmen (test and trace) zu stoppen. Daher musste Südkorea auch härtere Maßnahmen gar nicht mehr erwägen.

In Experimenten ist das mit der umgekehrten Kausalität meist kein Problem, weil dort zufällig auf Medikation und Placebo verteilt wird. Hier, mit nichtexperimentellen Daten, ist die Richtung der Kausalität jedoch eine große Crux. Ich selbst arbeite viel zu Armut und Sozialpolitik. Da gibt es genau das Problem, dass Sozialpolitik Armut reduzieren soll, aber nur wirklich Arme die Sozialpolitik bekommen (sollten). Diese beiden gegenläufigen Effekte wirksam auseinander zu dröseln ist sehr schwierig. Manche Studien sind da besser als andere, aber einfach lösen kann das niemand.

Zudem kommt, dass es bei nichtexperimentellen Daten wichtig ist, möglichst vergleichbare Gruppen zu haben. Das ist jedoch bei Ländern extrem schwer. Schweden ist bis auf Stockholm dünn besiedelt, da müsste man jetzt also genau wissen, wie da für Bevölkerung und Besiedlung kontrolliert wurde. Wenn ich die Studie richtig verstehe, dann ist Stockholm eine Region von 21 Regionen (https://en.wikipedia.org/wiki/Counties_of_Sweden) obwohl Stockholm bei weitem die meisten Einwohner hat. Der Ausreißer Stockholm spielt also im Modell kaum keine Rolle (auch wegen der Differenzen-in-Differenzen). 

Zudem hat Schweden wenig relevante Außengrenzen und war relativ weit vom ersten Hotspot in Europa (Italien/ Spanien/ Österreich?) entfernt. Südkorea ist sogar noch extremer, weil es eine politische Insel ist: es hat nur eine einzige physische Grenze, und die ist aus politischen Gründen kaum relevant. Viele der in der Presse oft diskutierten ‚Erfolgsfälle‘ in der COVID-Bekämpfung – ob mit oder ohne harten Lockdown – sind Insellagen (Taiwan, Neuseeland, Israel…). Da muss man häufig nur die Flughäfen kontrollieren oder dichtmachen und Grenzschließungen sind dort auch politisch weniger problematisch.

D.h. nicht, dass man aus Schweden und Südkorea nichts lernen kann. Und die Studie ist durchaus gut gemacht und relevant. Aber der Vergleich ist nicht einfach. Etwas besser m.E. wäre z.B. ein Vergleich zwischen Schweiz (weniger harter Lockdown) und Österreich (harter Lockdown). Die beiden Länder waren auch ziemlich gleichzeitig der Infektion ausgesetzt und haben doch unterschiedlich reagiert. Allerdings war der Unterschied vielleicht im Herbst größer als noch im Frühjahr letzten Jahres.

Es gibt auch noch weitere Probleme, wenn man sich die acht ausgewählten Ländern mit hartem Lockdown ansieht. Die Gruppe ist sehr heterogen. Die jeweilige Belastung durch COVID unterschied sich stark von Land zu Land, und die Maßnahmen ebenso. Wenn man aber eine heterogene Gruppe betrachtet, passiert es häufig, dass die Effekte stark verwischen. Auch das timing solcher Maßnahmen ist schwer zu bestimmen. In der Regel werden Lockdownmaßnahmen lange diskutiert. Das macht es schwierig zu verstehen, (ab) wann und ob die Bevölkerung darauf reagiert. Sicher ist, dass dies nicht unbedingt der offizielle Zeitpunkt des Einführens der Maßnahme sein muss.

Ein sehr interessanter Teil der Bendavid Studie ist, dass der Lockdown kontraproduktiv wirken kann. Anekdotisch sieht man das ja sehr eindrücklich zum Beispiel an den Massenkundgebungen der Trumpwählern und von Coronaskeptikern in Europa. Auf die Studie angewendet könnte das erklären, warum manche der Ergebnisse der Effekte positiv sind, also die Infektionsraten noch zu steigern scheint. Das könnte auch erklären, warum der zweite Lockdown scheinbar weniger funktioniert. Die Leute machen nicht mehr mit. Aber, wie gesagt, eine solche Interpretation ist auch mit Vorsicht zu genießen, denn eine höhere Infektionsrate könnte auch bedeuten, dass die Wirkungsrichtung sich in die andere Richtung bewegt, von den Infektionszahlen zu immer strikteren Lockdownmaßnahmen. Der Differenzen-in-Differenzen Ansatz kann dieses Problemen nicht wirklich lösen.

Wie steht die Studie von Bendavid et al. im Verhältnis zu anderen Studie? Ich habe mal bei Google Scholar eingegeben „Effectiveness Lockdown Corona/COVID“ (bzw. die ersten 10 Seiten an Treffern). Je nach zählweise finde ich so zwischen 10 und 15 Studien. Die Auswahl ist sicherlich verbesserungswürdig, aber ich habe nur Studien angesehen, die observierte Daten verwenden. Man kann sich jetzt über jede einzelne Studie streiten, aber die meisten tendieren dazu, dem Lockdown eine gewisse Wirksamkeit zu attestieren. Wenn ich auszähle finde ich neun Studien, die einen Effekt finden, zwei (oder mehrere) gemischte, und eine, die keine Effekte findet.

Autorengeographische EingrenzungErgebnis
Medeiros de Figureiro et al.  2 chinesische Provinzen“6-8% reduction in relative risk”
Nazmoon Nabi and Islamfive developing countriesno compelling evidence
Cocchiasix countriesshort lockdown effective
BhandaryNepaldoubling time increased
Alfano and Ercolano109 (47) countrieslockdown measures bring R0 down
Neidhöfer and Neidhöferthree countries synthetically matched with OECD sampleearly measures effective
Islam et al.149 countriesoverall reduction of 13%
Bonardi et al.184 countriespartial lockdown as effective as stricter measures
Moris and SchizasGreeceearly lockdown was appropriate
Saijan et al.2 Indian statesmeasures had great (but varied) impact
Haug et al.two samples: 79 territories and 226 countriesseveral measures reduce risk, some are borderline significant.
Lau et al.Wuhansignificant increase in doubling time

Das ist natürlich nur grob (und manche Studien scheinen methodisch deutlich besser als andere), aber die Tabelle zeigt, dass wie immer gilt: eine Studie ist keine Studie! Das heißt nicht, das Bendavid et al. falsch liegen. Vermutlich werden wir in Zukunft noch mehr Studien sehen, welche die Effekte von Lockdownmaßnahmen in Zweifel ziehen. Die Unterschiedlichkeit der Ergebnisse liegt am Untersuchungsgegenstand. Statistische Studien mit Ländervergleichen haben immer strukturelle Schwächen, v.a. bei sehr komplexen sozialenwissenschaftlichen Problemen. Daher müssen alle Arten von Evidenzen (auch Simulationen, Fallstudien etc.) systematisch herangezogen werden, um ein ‚solides Bild‘ zu bekommen.

Eine andere Frage ist natürlich, ob die positiven Effekte groß genug sind, um die stark freiheitsberaubenden und sozial, ökonomisch und psychologisch bedenklichen Maßnahmen rechtfertigen zu können? Auch hier gibt es Studien (z.B. Mol und Karnon [https://doi.org/10.1101/2020.09.14.20194605]), aber hier betreten wir meiner Meinung nach ein Territorium, das wissenschaftlich nicht mehr wirklich wertneutral verhandelt werden kann. Es kommt v.a. darauf an, wie man den Wert menschlichen Lebens und Leidens ansetzt (sowohl auf der Kosten- als auch Nutzenseite von Lockdowns), und das ist auch eine ethische Frage. Da helfen Berechnungen alleine kaum.

Zusammenfassend kann man sagen, dass die Wissenschaft sich in einer Zwickmühle befindet. Einerseits ist es sehr schwierig komplexe Studienergebnisse richtig zu interpretieren und zu diskutieren. Daher sind viele Wissenschaftler*Innen sehr zurückhalten, sich in das Mediengetümmel zu stürzen. Andererseits schwirren wissenschaftliche Studien dann einfach losgelöst im Äther von Youtube, Facebook und anderen Medien und können wie auch immer (voreingenommen) interpretiert werden. Daher werden wir wohl in Zukunft nicht darum herum kommen, mehr Wissenschaftler*Innen und mehr Wissenschaftsjournalist*Innen auszubilden, die systematisch Evidenzen zusammen ziehen und für eine breitere, interessierte Öffentlichkeit aufbereiten können. Ansonsten überlassen wir die Interpretation der Ergebnisse wilden Spekulationen über angebliche, verdeckte Motive.

Leave a comment

Filed under Uncategorized

Blog Post on Giving Feedback #TeachingMethods #HigherEd

I wrote a post on the excellent blog of Arbeitskreis Hochschullehre (German Political Science Association). It is in German only, but here is a short summary in bullet points.

  • Two types of feedback: summative (often for grading) or formative (as a learning exercise).
  • Both types of feedback typically given individually
  • Especially for formative feedback it is better to give feedback in the whole group.
  • Feedback in group leads to group learning rather than individual learning.
  • Especially for presentations helpful, but also for term paper.
  • Feedback in group needs to be carefully designed to avoid conflicts.
  • But this is no problem as long as basic etiquette is guaranteed (politeness etc.)
  • Such feedback is also efficient for the course instructor because he or she does not have to repeat similar comments endlessly.

See the blog post here or here for further details.

Leave a comment

Filed under Uncategorized

Feedback produktiv nutzen

Dies ist ein Gastbeitrag von mir, erschienen auf dem hervorragenden Blog des Arbeitskreis Hochschullehre der DVPW. Ich danke Daniel Lambach herzlich für seine Unterstützung.

Feedback an Studierende ist eines der wichtigsten didaktischen Werkzeuge im Unterrichtsbetrieb. Interessanterweise lernt man als Sozialwissenschaftler*in, dass das Konzept des Feedbacks ursprünglich aus der Kybernetik stammt und dann ein essentieller Bestandteil des Lernens in der Systemtheorie und in der Gruppenpädagogik geworden ist. In der Lehrpraxis spielt jedoch der Gruppen- bzw. Systemgedanke häufig eine eher untergeordnete Rolle. Dadurch verschenkt man meines Erachtens aber Potential, Feedback produktiv zu nutzen.

Generell kann Feedback dazu dienen, a) Lerneffekte zu erzielen, oder b) Benotungen zu begründen. Diese Unterscheidung kennt die Pädagogik und Evaluationstheorie als formative oder als summative Form der Evaluierung. Formativ ist Feedback v.a. dann, wenn es im laufenden Verfahren, beispielsweise einer Lehrveranstaltung, eingebaut wird, um dadurch konkrete Lernfortschritte zu erzielen. Summatives Feedback erfolgt meist nach einer erbrachten Leistung im Vergleich zur Zielgröße, beispielsweise des Erwartungshorizontes einer/s Lehrenden. Beide Funktionen werden in der Praxis häufig gemischt, das kann aber auch zu Widersprüchen führen. Beispielsweise spielen bei der (summativen) Benotung von Prüfungsleistungen auch strategische Aspekte eine Rolle: Wie legitimiere ich meine Bewertung, wie minimiere ich negative Reaktionen? Im Vergleich dazu können formative Feedbacks eher frei und offen sein.

Ein weiterer Nachteil von Feedback zur Benotung ist, dass es sehr spät kommt und oft folgenlos ist. Gerade wenn Feedback am Ende des Kurses erfolgt, nehmen es Studierende vielleicht nur noch halbherzig zur Kenntnis. Kurse im nächsten Semester sind anders strukturiert, Feedback verpufft. Noch schlimmer ist es, wenn Feedback zur Benotung emotionale Reaktionen hervorruft, zum Beispiel, wenn Studierende enttäuscht sind. Das kann Lerneffekte blockieren.

Für mich ist jedoch ein letzter Nachteil von Feedback zur Benotung ausschlaggebend: Es wird zumeist individuell gegeben. Peer-to-Peer-Verfahren sind da zum Teil anders, aber auch solche Verfahren stellen nicht notwendigerweise die Gruppe im Gegensatz zum Individuum in den Vordergrund. So gesehen hat Feedback selten systemische Wirkung. Das muss nicht immer schlecht sein: Individuelles Feedback ist natürlich ein Zeichen für individuelle Wertschätzung und daher an einer modernen Massenuniversität auch ein Zeichen der persönlichen Anerkennung. Aber gerade das macht es auch so aufwendig. Die Gruppe profitiert davon in der Regel nicht.

In meiner Lehrpraxis versuche ich daher immer durch Feedback die Lerneffekte für die ganze Gruppe zu erhöhen. Erstens sollte Feedback in den Lehrveranstaltungen möglichst früh erfolgen, zum Beispiel unmittelbar im Anschluss an Präsentationen, oder nach dem Einreichen von schriftlichen Arbeiten. Aber es geht auch noch früher, wenn die/der Adressat*in des Feedbacks die Gruppe und nicht (nur) das Individuum ist. Daher kann es zweitens, wesentlich effizienter sein, Feedback in der Gruppe zu geben. Das führt dazu, dass Feedback nicht nur für die/den jeweilige(n) Leistungserbringer*in lehrreich ist, sondern für alle Kursteilnehmer*innen.

Um ein praktisches Beispiel zu geben: Wenn alle Seminarteilnehmer*innen unmittelbar nach Präsentationen oder Diskussionsleitungen Feedback geben, profitieren alle davon und die Qualität zukünftiger Präsentationen und Diskussionsleitungen wird in der Regel besser. Außerdem entfällt dann häufig auch schon die intensive Einzelberatung vor den Präsentationen sowie das intensive (summative) Einzelfeedback nach den Präsentationen. Als Kursleiter fand ich es immer frustrierend, dieselbe Information jedes Mal wieder geben zu müssen. Durch Feedback in der Gruppe reduziert sich dieser Aufwand erheblich.

Wenn man ein solches Feedback gibt, müssen die Seminarleiter*innen natürlich vorher darüber informieren, in welcher Form Feedback gegeben werden sollte. Der Nachteil des öffentlichen Peer-to-Peer-Verfahrens ist, dass dadurch die Privatsphäre verletzt wird. Daher sollte ein solches Feedback immer konstruktiv sein und v.a. formativen Charakter haben. Zudem sind Etiketten und Regeln sehr wichtig, etwa das ‚Sandwich-Prinzip‘: Lob – Kritik – konstruktive (wohlmeinende) Vorschläge. Dabei beginnt Feedback am besten immer mit einem Lob, bevor Kritik oder Verbesserungsvorschläge gemacht werden. Idealerweise wird das Verfahren schon vorher im Syllabus erklärt und eine Etikett-Liste verteilt. Dieses Verfahren funktioniert meiner Erfahrung nach sehr gut. In keiner meiner Lehrveranstaltungen ist es bisher (meines Wissens nach) zu Konfrontationen oder negativen Auseinandersetzungen aufgrund solcher Gruppen-Feedbacks gekommen.

Auch ein solches Feedback-Verfahren kann Nachteile haben. Beispielsweise gibt es u.U. stärkere Pfadabhängigkeiten. Wenn ein Präsentationsstil oder -element in einer der ersten Sitzungen besonders positiv hervorgehoben wird, kann das dazu führen, dass alle nachfolgenden Präsentationen dieses Verfahren kopieren. Das ist bis zu einem gewissen Maße beabsichtigt, aber es kann auch über das Ziel hinausschießen und die Studierenden davon abhalten, sich eigene Gedanken zu machen. Solche Probleme sind jedoch relativ leicht zu beheben, zum Beispiel, indem man auf Abwechslungsreichtum in Präsentationstechniken hinweist. Auch können Studierende sehr zurückhaltend sein, was Kritik an ihren Kolleg*innen anbetrifft. Aber da kann der oder die Dozierende aktiv gegensteuern und Etikette-Regeln tragen ihr Übriges dazu bei, dass sich Studierende trauen, auch kritisches Peer-to-Peer Feedback zu geben.

Die Idee, Feedback möglichst früh und möglichst in der Gruppe zu geben bzw. zu bekommen, eignet sich auch für schriftliche Arbeiten, wie z.B. Hausarbeiten. Hierbei ist es vorteilhaft, ein Revise & Resubmit einzuführen: Die Arbeiten (oder Skizzen) werden eingereicht und im Kurs diskutiert. Dieses Feedback können die Studierenden dann in der finalen Version der Hausarbeit aufgreifen. Auch hier kann sich der Mehraufwand des (formativen) Feedbacks für Lerneffekte lohnen, indem der Aufwand für summatives (Benotungs-)Feedback reduziert wird und v.a. ein höheres Lernergebnis erzielt wird.

Ein solches Verfahren ist insgesamt natürlich sehr aufwändig, da man als Kursleiter*in alle Arbeiten zweimal lesen und kommentieren muss. Auch die Studierenden sollten idealerweise mehrere oder alle Essays der ersten Runde lesen. Dennoch kann sich bei kleineren und mittelgroßen Kursen dieser Aufwand lohnen. Im Zweifel würde ich lieber andere Teilnoten/Prüfungsleistungen weglassen, um eine Seminararbeit als Revise & Resubmit anlegen zu können.

Daran knüpft sich die Frage, ob sich solche formativen Feedbacks auch für größere Kurse oder sogar Vorlesungen eignen. Prinzipiell geht das, wie MOOCs (Massive Open Online Courses) zeigen. Feedback wird dort Peer-to-Peer z.B. in Forendiskussionen durchgeführt. Supervisiertes Feedback durch die/den Kursleiter*in ist dann natürlich schwierig, wenn die Teilnehmerzahl zu hoch ist. Aber bei entsprechender Anleitung, wie das Verfahren läuft, nach welchen Kriterien evaluiert werden soll und welche Etikett-Regeln gelten, können Feedbacks auch Peer-to-Peer dezentralisiert erfolgen.

Ein weiterer Vorteil von frühzeitigem, detailliertem und gruppenorientiertem Feedback ist, dass diese als Grundlage oder sogar als Ersatz für das Feedback zur finalen Benotung dienen können. Mit der Zeit habe ich gelernt wie man Feedback so schreibt, dass die Studierenden etwas Konstruktives daraus mitnehmen und nicht gleich in eine Abwehrhaltung verfallen, die zu endlosen Nachfragen oder sogar Beschwerden über (Teil-)Noten führen. Beispielsweise sollte Kritik immer mit Textstellen und Beispielen belegt werden. Pauschale Kritik ist für Studierende schwieriger nachzuvollziehen. Am Ende füge ich auch immer konstruktive Vorschläge ein, wie die Arbeit noch verbessert werden könnte. Das ist zwar de facto nicht mehr relevant, weil die Studierenden die Kommentare für diese Arbeit nicht mehr gebrauchen können. Aber sie bekommen eine Idee davon, welche Fehler sie in Zukunft vermeiden können. Zudem endet das Feedback auf eine positive Weise.

Zugegebenermaßen ist das Geben summativen Feedbacks eher eine Kunst als eine Technik. Aber auch für Feedback zur Benotung ist es hilfreich, wenn die Einschätzung auch von anderen Studierenden geteilt wird und die Sandwich-Regeln eingehalten werden. Dies führt zu einer enormen Zeitersparnis und zu einer Entlastung in der Korrespondenz.

Insgesamt ist Feedback zu Lernzwecken daher keineswegs nur ein Mehraufwand für Dozierende. Richtig eingesetzt, kann es für alle Beteiligten produktiv eingesetzt werden. Dieser Beitrag wurde am von lambach in Allgemein veröffentlicht. Schlagworte: Methodensammlung, Politikwissenschaft, Prüfen, Seminar.

Leave a comment

Filed under Uncategorized

Elnathan John talk about satire and bureaucracy @brandtschool

I am excited to host @elnathan_john, acclaimed author and satirist talking about the role of arts and satire in transforming government and especially bureaucracy in a country.

Our students have also prepared a short podcast introducing the author, his work, and especially his book Becoming Nigerian: A Guide. The podcast also reflects on the question how far the Nigerian experience travels to other countries. https://www.dropbox.com/sh/0byc84lmx4m18my/AADiUjJolSPVo_-NTk4lqR5da?dl=0

If you want to participate, please find the details below.

When: Tomorrow, Tuesday 15th of December 2020, at 12pm (CET) sharp. Where: Webex Room

Leave a comment

Filed under Uncategorized

Publication on the Brandt Report in an Age of Populism

Together with Prof. Solveig Richter, University of Leipzig, and Raphael Robiatti, Brandt School, we have edited a publication supported by the Bundeskanzler-Willy-Brandt-Stiftung. We use the 40th anniversary of the so-called Brandt Report as a moment to look at the legacy of the report on policymaking.

I also wrote a short blog post here on some of the conclusions. Apart from the substantive questions about how well the Brandt Report has aged over time, I find it fascinating to observe how little, still, we know about the effects of populism on policymaking. The literature seems much stronger on identifying a populist rhetorical style.

Leave a comment

Filed under Uncategorized

Why is there no Meso-Economics?

This is not a blogpost to bash mainstream economics, but rather to understand why in teaching and, to some extent, in research mainstream economics does systematically filter out important aspects of reality. Economics is reductionist or parsimonious, if you prefer this term, and bases itself on important dichotomies. One such dichotomy is micro- vs. macroeconomics.

One reason why political science often appears less of a science. But this is an observational bias.

Of course, a lot of the best research straddles the two, looking for microfoundations in macroeconomics or for how macroeconomics shapes individual decision-making. In many subfields of economics – industrial economics, labour market economics etc. – meso-level phenomena such as firms, trade unions or market structures play a huge role. At the fringes, economists also work on non-standard collective actors such as non-profit organizations. Yet, all in all, mesoeconomics is a messy field, and is not one which would merit an introductory textbook of note. There is no Mankiw ‘Principles of Mesoeconomics’ for one.

There have been occasional attempts to start a field of mesoeconomics. See here or here, for instance. Nonetheless, the main fields are micro and macro. As a political economist this has always irritated me. During my days as a student of economics in Germany, I learned that economics is about the economy in general, and business administration (BWL) is about enterprises and companies. It could well happen that you heard two, totally contradictory messages on the very same day. For instance, in macroeconomics I learned about the assumption of consumer sovereignty and how this is a necessary ingredient to standard welfare economics, only to move class rooms and listen to all these lectures about marketing and organization in business administration that all aim at, let’s face it, fooling customers to buy stuff they don’t need and fooling workers to trade extrinsic motivation (aka money) for intrinsic motivation (aka self-exploitation).

This is why I think the omission of mesoeconomics is fundamental in several ways. For one, it drives wedges where none should exist. Micro and macro need meso as the grey zone. Omitting the meso-level, also helps school building and useless tribal discussions about which main field is prior to the other (with microeconomics often winning because of the reductionist bias in economics as a field).

More importantly, the neglect of mesoeconomics underplays the role of an important, but often very messy host of issues on the meso-level. More focus on the meso level reveals that the ideal-type market competition rarely happens because firms and other types of collective actors differ tremendously in size, market power, access to politics to name a few. More focus on the meso level reveals that macro questions sometimes boil down to what very large companies in a country do or want. The Swedish model of welfare state capitalism? For decades it was synonymous to the ideas of one Swedish family of industrialists (I am exaggerating of course, but only slightly) Internet commerce? The Big 5 tech companies run up to 75 percent of all their respective businesses.

In terms of economic policymaking, this means, among other things, that we need to take as a rule non-competitive market or at least semi-competitive markets as standard, rather than thinking that the standard is market competition. Empirically, allowing for the meso-level means that very often the law of large numbers does not necessarily apply. Conceptually allowing for the meso-level means that trying to find nomothetic laws reaches its limits. Of course, we can frame issues of limited competition and few economic agents in terms of game theory. But at the extreme, few firms might depend on few individuals, individuals that may or may not behave rational. Political science does try to erase the individual as much as possible, putting ‘variables’ instead of ‘names’ in the lingo of textbooks on social science research methodology. But it would be foolish to say that individuals do not matter when you look at influential philosophers (e.g. Marx) or influential politicians (e.g. Trump).

Therefore, the root of economists’ disregard for the meso-level seems to be the fuzzy, imprecise nature of the meso-level, a level at the vagaries of history and chance. It goes against the notion of economics as an exact science. And this fear, ironically enough, is quite irrational in my view.

Leave a comment

Filed under Uncategorized

ColMex Lecture on Origins of Welfare State

I gave a lecture to students of the Colegio de Mexico @CEIColmex. The slides are in Spanish. Here they are (EuropaContemporanea) for those who are interested. Comments welcome.


Vergeblich versucht der gepanzerte Kanzler, den”Sozialist Jack” in den Kasten niederzudrŸcken. Karikatur aus Punch, 28.9.1878 (Aus K. Walther “Bismarck in der Karikatur”)

(Image Source: GHDI)

Leave a comment

Filed under Uncategorized

Academic Writing Workshop in Myanmar

Luicy Pedroza (twitter @Luicy_Pedroza) and I (@achkem) held two academic writing workshops for students and staff in Myanmar. The slides are available here (Colloquium_Myanmar_2020), in case other people are interested.

Leave a comment

Filed under Uncategorized

Talk on the Future of Work in Middle Income Countries

I attach some preliminary findings of my ‘field research’  on the future of work in middle income countries and its policy implications. They are still very broad and somewhat unspecific, but there are some interesting differences between Malaysia and Indonesia worth teasing out a bit more.

See my slides here: The Future of Work

Leave a comment

Filed under Uncategorized