Künstliche Intelligenz auf Olympiaden-Niveau – Was heißt das für die Physikbildung?

Am 13. August wurden gleich zwei bemerkenswerte Publikationen von Dr. Paul Tschisgale, wissenschaftlicher Mitarbeiter in der IPN-Abteilung Didaktik der Physik, veröffentlicht. In einem Beitrag im renommierten Physical Review Physics Education Research (PRPER) zeigt er gemeinsam mit Kolleg*innen, dass aktuelle KI-Modelle wie GPT-4o und das neue reasoning-optimierte o1-Modell Aufgaben aus der PhysikOlympiade nicht nur sehr gut lösen – sondern dabei im Schnitt sogar besser abschneiden als menschliche Schüler*innen. Die Ergebnisse werfen drängende Fragen zur künftigen Rolle von KI im Zusammenhang mit Schülerwettbewerben wie der PhysikOlympiade, aber auch allgemein in der schulischen Bildung, auf.

Gleichzeitig erschien ein weiterführender Meinungsbeitrag von Tschisgale im Physics Magazine der American Physical Society. Dort diskutiert er, warum es nicht ausreicht, Schüler*innen von KI fernzuhalten – und wie wir stattdessen einen produktiven Umgang mit KI im Physikunterricht fördern können.

Anlässlich dieser beiden Veröffentlichungen haben wir mit Paul Tschisgale über seine Forschung, deren Hintergründe und mögliche Folgen gesprochen. Das Kurzinterview finden Sie unten.

Interview

IPN: Paul, du hast untersucht, wie gut aktuelle KI-Modelle mit Aufgaben der PhysikOlympiade zurechtkommen. Was hat dich an den Ergebnissen am meisten überrascht?

Paul Tschisgale: Vor Beginn der Studie hatte ich bereits erwartet, dass Large Language Models wie GPT‑4o bei PhysikOlympiade-Aufgaben relativ gut abschneiden würden. Überrascht hat mich jedoch, wie leistungsstark sie tatsächlich waren – gerade bei Problemen, die bewusst so gestaltet sind, dass sie selbst besonders leistungsfähige Schüler*innen herausfordern. Besonders deutlich wurde das bei einem der neueren reasoning-optimierten Modelle, dessen Leistung weit über unseren Erwartungen lag. Unerwartet war außerdem, dass verschiedene Prompting-Strategien kaum einen Unterschied machten, obwohl sich diese in anderen Studien oft als entscheidend herausgestellt haben. Und in den Detailanalysen zeigte sich, dass die Modelle bestimmte Aufgabenteile durchgängig falsch lösten – teils gerade solche, die Schüler*innen vergleichsweise leichtfallen.

IPN: Was bedeuten deine Ergebnisse konkret für Schulen und Wettbewerbe – müssen Formate wie die PhysikOlympiade neu gedacht werden?

Paul Tschisgale: Unsere Ergebnisse machen deutlich, dass Schulen und Wettbewerbe wie die PhysikOlympiade vor neuen Herausforderungen durch den Einsatz von KI stehen. Besonders Aufgabenformate, die auf unüberwachten Bearbeitungen basieren – etwa Hausaufgaben oder Hausarbeiten – sind anfällig dafür, dass Schüler*innen KI-Systeme wie ChatGPT unreflektiert nutzen oder deren Erzeugnisse als eigene ausgeben. Ein einfaches Verbot solcher KI-Systeme greift jedoch zu kurz. Stattdessen sollte der Fokus darauf liegen, einen reflektierten und verantwortungsvollen Umgang zu vermitteln. Entscheidend ist, dass Schüler*innen nicht einfach KI-generierte Lösungen übernehmen – wird eine Physikaufgabe lediglich in ein LLM eingegeben und die Antwort unreflektiert abgeschrieben, gehen zum einen zentrale Lernprozesse verloren, und zum anderen stellt die Lösung keine Eigenleistung der Schüler*in dar. Wird KI gezielt eingesetzt, eröffnet sie neue Möglichkeiten des Lernens. So stelle ich mir vor, dass in Zukunft verstärkt auf KI-basierte Feedbacksysteme oder intelligente Tutorensysteme zurückgegriffen wird, die Lernenden individuelles, sofortiges Feedback geben können. Dadurch ließen sich Übungsphasen deutlich bereichern: Schüler*innen erhalten direkt Rückmeldungen zu ihren Lösungswegen, während Lehrkräfte entlastet werden und mehr Raum für gezielte Unterstützung haben.

In der ersten Runde der PhysikOlympiade, die traditionell als Hausaufgabenrunde angelegt ist, droht durch den Einsatz von KI die Vergleichbarkeit der Leistungen verloren zu gehen. Wenn einige Teilnehmende eigenständig arbeiten, andere aber unreflektierte KI-generierte Lösungen einreichen, ist die Integrität des Wettbewerbs gefährdet. Da ein Ziel des Wettbewerbs darin besteht, individuelle Leistungen zu erkennen und wertzuschätzen, ist dies besonders besorgniserregend. Kurzfristig sollten Aufgabenformate helfen, die für aktuelle LLMs schwer zugänglich sind – etwa die Auswertung von Diagrammen, das Extrahieren relevanter Informationen aus Abbildungen, oder eigenständig durchgeführte Experimente. Auf lange Sicht reicht es jedoch nicht aus, nur auf aktuelle Schwächen von LLMs zu setzen, da diese sich rasant weiterentwickeln. Zum Beispiel veröffentlichte OpenAI erst kürzlich GPT-5, das laut OpenAI alle bisherigen Modelle vereint und zugleich übertrifft.

Gefragt ist ein Umdenken hin zu neuen Formaten, die nicht bloß fertige, durch KI generierbare Lösungen abfragen, sondern kontinuierliche Auseinandersetzung mit Physik einfordern. Denkbar wäre ein längerfristiger Online-Kurs mit Übungen, Seminaren und Experimenten, an deren Ende eine Klausur steht, an der man nur bei aktiver Teilnahme am Kursangebot teilnehmen kann. Damit stände die aktive Auseinandersetzung mit Physik im Vordergrund, und es würde nicht nur das reine Einreichen von Lösungen ersetzt, sondern zugleich ein Rahmen geschaffen, in dem KI auch produktiv als formatives Feedback-Tool genutzt werden kann. So gesehen stehen wir erst am Anfang einer Entwicklung, die nicht nur Wettbewerbsformate, sondern auch schulisches Lernen insgesamt nachhaltig prägen wird

IPN: Wie lassen sich die Leistungen von LLMs bei Aufgaben aus der PhysikOlympiade methodisch überhaupt valide mit denen von Schüler*innen vergleichen?

Paul Tschisgale: Wir haben die Vergleichbarkeit dadurch hergestellt, dass wir exakt dieselben Aufgaben genutzt haben, die auch Schüler*innen in früheren PhysikOlympiaden bearbeitet hatten. Da LLMs nicht immer identische Antworten liefern, ließen wir jedes Problem 20‑mal pro Modell und Prompting-Strategie lösen. Ganz entscheidend war: Die KI-Antworten wurden nach genau denselben Bewertungskriterien beurteilt, die auch bei den damaligen Schülerlösungen angewandt wurden. So erhielten wir Punktzahlverteilungen, die sich direkt mit den Ergebnissen der Teilnehmenden vergleichen ließen.
Gleichzeitig muss man einschränken: Teilnehmende des Wettbewerbs arbeiten in den höheren Runden unter Prüfungsbedingungen – mit Zeitdruck, Stress oder Müdigkeit –, während LLMs ihre Antworten quasi unter „Laborbedingungen“ erzeugen. Der Vergleich ist also nicht perfekt, erlaubt aber dennoch eine solide Einschätzung, wie leistungsfähig die Modelle im Verhältnis zu sehr guten Teilnehmenden sind.

IPN: Wie könnte ein sinnvoller, produktiver Umgang mit LLMs im Unterricht aussehen?

Paul Tschisgale: Ein produktiver Umgang mit LLMs im Unterricht könnte darin bestehen, dass Schüler*innen die Lösungen der Modelle zu verschiedenen Problemen kritisch analysieren und mit ihren eigenen vergleichen. So erkennen sie, wann der Einsatz von KI hilfreich sein kann – und ebenso, wo ihre Grenzen liegen. Das macht deutlich, dass menschliches Reflektieren und Überprüfen unverzichtbar bleiben. Gleichzeitig lassen sich LLMs auch als Grundlage für Lernsysteme nutzen, die individuelles, adaptives Feedback geben. Gerade in Übungsphasen kann das Lehrkräfte entlasten, weil Schüler*innen sofort Rückmeldungen erhalten und die Lehrkraft mehr Zeit für gezielte Unterstützung hat. Solche Szenarien zeigen, dass KI nicht nur ein Risiko darstellt, sondern – sinnvoll eingesetzt – das Lernen bereichern kann.

IPN: Was sind aus deiner Sicht die wichtigsten Fähigkeiten, die Schüler*innen im Umgang mit KI lernen sollten – neben den fachlichen Inhalten in Physik?

Paul Tschisgale: Neben den fachlichen Inhalten ist es entscheidend, dass Schüler*innen KI als Werkzeug verstehen und lernen, es reflektiert einzusetzen. Dazu gehört, die Stärken und Schwächen von LLMs zu kennen und einschätzen zu können, wann ihre Nutzung hilfreich ist und wo sie an Grenzen stößt. Im Unterricht sollten sie üben, KI-Antworten kritisch zu prüfen, weiterzuentwickeln, und iterativ mit KI Tools zusammenzuarbeiten. Gerade hier zeigt sich, dass fachliches Verständnis unverzichtbar bleibt: Ohne solides Wissen lässt sich nicht beurteilen, ob eine von der KI erzeugte Lösung sinnvoll ist oder völliger Unsinn. KI kann also wertvolle Denkanstöße und Feedback liefern – die Verantwortung für Bewertung und Verstehen liegt aber immer bei den Lernenden selbst.

IPN: Was ist für dich die zentrale Botschaft, die Bildungsakteur*innen aus deinem Text mitnehmen sollten?

Paul Tschisgale: Die zentrale Botschaft ist für mich, dass KI gekommen ist, um zu bleiben – und dass Tools wie ChatGPT eine wichtige Rolle in der Zukunft unserer Schüler*innen spielen werden. Deshalb sollten sie schon heute lernen, diese Werkzeuge reflektiert und verantwortungsvoll einzusetzen. Es geht nicht darum, gegen KI zu konkurrieren, sondern sie als Partner zu nutzen – immer mit der Klarheit, dass die Verantwortung beim Menschen bleibt, Ergebnisse kritisch zu prüfen und diese auf Basis der eigenen Expertise zu verfeinern. Der Physikunterricht sollte daher weiterhin eine solide fachliche Basis und Problemlösefähigkeiten vermitteln, zugleich aber auch stärker kritisches Denken und den bewussten Umgang mit KI fördern.