KI-Detektor läßt Masterarbeit durchfallen
Kann eine KI-Detektionssoftware tatsächlich feststellen, ob eine Masterarbeit durch einen KI-Chatbot geschrieben wurde?
Nein!
Der Fall:
Eine Studentin reicht an der Universität eine im Detail vorbesprochene Masterarbeit ein – 3 Wochen später wird sie mit einem Täuschungsverdacht und 2 Stellungnahmen ihrer Gutachter konfrontiert, die anhand eine KI-Detektionssoftware KI-generierten Text festgestellt haben wollen.
Damit liegt ein Täuschungsversuch vor – so daß Prüfungsamt der Universität.
Auf eine detaillierte Stellungnahme der Studentin mit zahlreichen Angeboten zum Nachweis ihrer empirischen Studien, der Vorbesprechungen mit den Gutachtern und die Einarbeitung einer länger zurückliegenden Hausarbeit aus 2019, geht das Prüfungsamt nicht ein.
Der Prüfungsausschuß beschließt das Vorliegen eines Täuschungsversuchs mit Hilfe von KI-generierten Texten und läßt die Arbeit durchfallen.
Der Studentin bleibt nur der Widerspruch zu dem ergangenen Bescheid der Universität.
Der Bescheid endet mit den Worten – Zitat:
„….einladen, um Ihnen die Tragweite Ihres Handelns sowie die Konsequenzen im Falle einer wiederholten Täuschung in aller Deutlichkeit vor Augen zu führen“.
Rechtsprechung:
Das VG München hat im Mai einen Beschluß zum Einsatz von KI im Rahmen eines Bewerbungsprozesses für einen Masterstudiengang gefaßt.
Auch hier hatte eine KI-Detektionssoftware eine Indizwirkung, aber das Gericht würdigte und verlangte für seinen Beschluß eine umfangreiche menschliche Überprüfung aller Fakten, eine Vergleichsanalyse mit zahlreichen anderen Bewerbungsessays, und setzte sich im Detail mit den Argumenten des Antragstellers auseinander.
VG München, Beschluss v. 08.05.2024 – M 3 E 24.1136
Einstweiliger Rechtsschutz, Anscheinsbeweis, Zulassung zum Eignungsverfahren im Masterstudium, KI-Einsatz beim Verfassen des vorzulegenden Essays
Wer täuscht also wen?
Welche Bedeutung darf eine KI-Detektionssoftware im Rahmen von Prüfungen eigentlich haben?
Dazu aktuell Doris Weßels – Prof. Dr. bei FH Kiel, Forschungssprecherin Digitalisierung und KI der Fachhochschule Kiel, Leiterin des Virtuellen Kompetenzzentrums “Künstliche Intelligenz und wissenschaftliches Arbeiten” (VK:KIWA):
„Wir benötigen dringend ein besseres Grundverständnis für die Textgenerierung durch große KI-Sprachmodelle in den Führungsebenen der Bildungseinrichtungen, speziell bei den Prüfungsämtern, Justiziariaten und Präsidien. Es scheint immer noch Fälle zu geben, dass sie auf Anbieter von vermeintlich korrekt arbeitenden KI-Detektionssoftware-Lösungen hereinfallen, – so auf Linkedin.
In Studien wird immer wieder auf die Nichtbelastbarkeit der Ergebnisse von KI-Detektoren hingewiesen, so eine Studie aus 2023:
GPT-Detektoren sind gegen nicht-einheimische englische Schriftsteller voreingenommen
Die Studie beschreibt die schnelle Verbreitung von GPT-basierten Modellen wie ChatGPT und hebt sowohl deren Potenzial als auch die Risiken hervor, wie die Verbreitung von KI-generierten Inhalten, die als menschlich geschrieben erscheinen. Pädagogen sind besorgt über den Einsatz von KI in der Arbeit von Studierenden, da Menschen oft Schwierigkeiten haben, KI-generierte Inhalte zu erkennen. Bestehende GPT-Detektoren zeigen Schwächen in ihrer Genauigkeit und Fairness, insbesondere gegenüber nicht-englischen Muttersprachlern, deren Texte fälschlicherweise als KI-generiert eingestuft werden. Studien haben gezeigt, dass literarische Sprache von den Detektoren als „menschlicher“ erkannt wird, was zu einer Diskriminierung von Personen mit weniger komplexem Sprachgebrauch führt. Trotz der existierenden Detektoren können diese durch geschickte Anpassungen der Texte leicht umgangen werden, was ihre Wirksamkeit infrage stellt. Die Studie fordert weitere Forschung zur Verbesserung der Fairness und Zuverlässigkeit dieser Detektoren.
Zitat aus der Diskussion:
Viele Lehrer betrachten die GPT-Erkennung als eine kritische Gegenmaßnahme, um „eine Form des Betrugs des 21. Jahrhunderts“ abzuschrecken, aber die meisten GPT-Detektoren sind nicht transparent. Behauptungen über die “99% Genauigkeit” von GPT-Detektoren werden oft von einem breiteren Publikum für bare Münze genommen, was bestenfalls irreführend ist, angesichts des fehlenden Zugangs zu einem öffentlich zugänglichen Testdatensatz, Informationen über Modelldetails und Details zu Trainingsdaten. Die kommerzielle und geschlossene Natur der meisten GPT-Detektoren führt zusätzliche Herausforderungen und unnötige Hindernisse ein, um ihre Wirksamkeit unabhängig zu überprüfen und zu validieren. …..
Das Design vieler GPT-Detektoren diskriminiert von Natur aus nicht-einheimische Autoren, insbesondere solche, die eingeschränkte sprachliche Vielfalt und Wortwahl aufweisen. Der Kern des Problems liegt in der Abhängigkeit dieser Detektoren auf spezifische statistische Maßnahmen zur Identifizierung von KI-gesteuerten Schriften, Maßnahmen, die auch unbeabsichtigt nicht-einheimische und native schriftliche Proben unterscheiden. Textperrität, eine weit verbreitete statistische Maßnahme in zahlreichen GPT-Detektoren, ist typisch für dieses Problem.8Im Wesentlichen misst die Textperplexie den Grad der „Überraschung“, die ein generatives Sprachmodell erlebt, wenn das nachfolgende Wort in einem Satz vorhergesagt wird. Wenn ein generatives Sprachmodell das nächste Wort leicht vorhersagen kann, ist die Ratlosigkeit gering. Auf der anderen Seite, wenn das nächste Wort schwer vorherzusagen ist, ist die Ratlosigkeit hoch. Konzeptionell erscheint dieser Ansatz effektiv, wenn man bedenkt, dass generative Sprachmodelle wie ChatGPT im Wesentlichen wie eine ausgefeilte Version von Auto-Complete funktionieren, auf der Suche nach dem wahrscheinlichsten Wort, um als nächstes zu schreiben, was oft zu geringer Textperplexie führt. …..
Im konkreten Fall der Studentin wurde die in vielen Medien angepriesene Detektionssoftware „Detectora“ eingesetzt, entwickelt von einem Studenten der FH-Wedel.
Eigene Tests mit der Software waren ernüchternd, ein einziger Rechtschreibfehler war ausreichend, um die Frage Mensch oder KI um 16% Wahrscheinlichkeit in Richtung Mensch zu verschieben.
KI-Detektionssoftware kann ein Indiz sein und bleibt im Ergebnis ebenso undurchsichtig wie die Algorithmen in Sozialen Netzwerken. Kein Prüfer und keine Gutachter kann die eigene Arbeit bei der Bewertung von wissenschaftlichen Arbeiten durch KI ersetzen.