Qualität eines Promptergebnisses checken

Wie prüfe ich systematisch, ob ein KI-Antworttext für eine wissenschaftliche Arbeit taugt? In diesem Beitrag zeige ich einen prüfbaren Minimal- bis Maximal-Pfad – von der 10-Minuten-Checkliste bis zur strengen Prüfung für Haus- und Abschlussarbeiten. Der Leitgedanke: Ich als Forschende*r bzw. Schreibende*r bleibe verantwortlich – KI liefert Vorschläge, ich sichere Qualität.

Hinführung

Große Sprachmodelle (LLMs) können brillant formulieren – und gleichzeitig plausibel Falsches erzeugen (sogenannte Halluzinationen). Das ist kein Ausnahmefehler, sondern systembedingt; darum brauchen wir klare Prüfprozesse und saubere Dokumentation (Ji et al., verlinkt unten). Die folgenden Schritte verbinden Informationskompetenz (CRAAP-Kriterien), wissenschaftsethische Leitlinien (DFG-Kodex) und praxisnahe LLM-Checks aus der aktuellen Forschung. (arXiv)

Minimalpfad (10-Minuten-Check)

Aufgaben-Fit: Erfüllt die Antwort genau meinen Auftrag (Scope, Zielgruppe, Abgabeformat)? Kurz mit 1–2 Sätzen paraphrasieren.
Fakten-Stichprobe (3×): Drei zentrale Behauptungen/Nennwerte herausgreifen und in Primärquellen oder Standardwerken gegenprüfen.
Quellenblick mit CRAAP: Currency, Relevance, Authority, Accuracy, Purpose – reicht die Qualität der herangezogenen oder vorgeschlagenen Quellen? (Meriam Library, CSU Chico). (library.csuchico.edu)
Kohärenz & Lücken: Gibt es Widersprüche, Zirkelschlüsse oder „Sprünge“? Markieren.
Transparenz-Notiz (3 Zeilen): Modell/Version, Datum, Prompt(s) und eigene Prüfungen festhalten – ich bleibe rechenschaftspflichtig (DFG-Kodex; ICMJE/COPE zu Verantwortung & Disclosure). (Deutsche Forschungsgemeinschaft)

Der strenge Prüfpfad (für Haus-/Abschlussarbeiten)

1) Aufgabenklärung & Evaluationskriterien festlegen

Wissenschaftlicher Zweck (Erklären? Vergleichen? Entwerfen?) und Bewertungskriterien (z. B. Richtigkeit, Vollständigkeit, Beleglage, Nachvollziehbarkeit) vorab definieren – ideal schriftlich in der Methodenrubrik.

2) Reproduzierbarkeit & Protokollierung

Dokumentiere: Modellname/Version, Temperatur/Seeds (falls wählbar), Datum/Uhrzeit (Zeitstempel), vollständige Prompts, Zahl der Iterationen, Auswahlkriterien. Das folgt Grundsätzen guter wissenschaftlicher Praxis (DFG-Kodex) und gängigen Publikationsrichtlinien (ICMJE/COPE). (Deutsche Forschungsgemeinschaft)

3) Faktenprüfung in zwei Wellen

Welle A: Quellen-Attribution. Verlangt von der KI exakte Belege (Autor, Jahr, Titel, DOI/URL) und prüfe jede zitierte Quelle auf Existenz und Inhalt (Problem: LLMs erfinden Literatur und Links).
Welle B: Primär-/Sekundärabgleich. Zentrale Aussagen im Original querchecken (Artikel, Monografien, Datenbanken). Nutze die CRAAP-Kriterien als Raster. (library.csuchico.edu)

4) Konsistenz- und Logik-Checks

Selbst-Widerlegung: Bitte das Modell um eine Version „gegen die These“ und vergleiche Argumente.
Stabilitätstest: Gleicher Prompt an anderem Tag/mit leicht veränderter Formulierung – ändert sich die Kernaussage? Große Abweichungen ⇒ Vorsicht.
Einheiten & Zahlen: Rechne Kennzahlen stichprobenartig per Hand/Tool nach (Einheiten, Prozentpunkte, N-Zahlen).
Wichtig zu wissen: LLMs sind Sprachmodelle, die mit Wahrscheinlichkeiten arbeiten. Es klingt paradox, aber genau deshalb kann KI nicht richtig rechnen. Um exakte Ergebnisse (schon bei Grundrechenarten) zu erzielen, geht KI den Umweg über zB Python Codes.

5) Bias-, Perspektiv- und Zweckprüfung

Welche Akteurs-/Regionen-/Sprach-Biases blenden die Antwort? Stimmen Begriffsverwendungen mit dem Fachgebrauch überein? Hier helfen NIST-Risikokategorien (z. B. Validität, Erklärbarkeit, Robustheit) als Denkrahmen. (NIST-Publikationen)

6) Halluzinations-Risiko mindern

Grounding/RAG: Füttere das Modell mit konkreten, kuratierten Textausschnitten und verlange Satz-genaue Belege (Zitat-Snippets).
Reflexions-/Verifier-Prompts: Lasse das Modell eigene Fehler suchen, Kernfakten listen und Beweise „line-by-line“ anführen; Studien zeigen, dass solche Selbstprüfungen Factuality verbessern können. (aclanthology.org)
Ungewissheit sichtbar machen: Bitte explizit um Alternativerklärungen.
Grenzen anerkennen: Absolute Fehlerfreiheit ist unrealistisch – selbst State-of-the-Art-Modelle halluzinieren (aktuelle Übersichten). (arXiv)

7) Ethik, Urheberrecht & Disclosure

Kein „Ghost-Authoring“: KI ist keine Autor*in; Verantwortung bleibt menschlich (COPE).
Transparenzpflicht: Nutzung von LLMs offenlegen (z. B. Methodenteil/Danksagung) – viele Journale/Verbände fordern das (ICMJE u. a.).
Datenschutz: Keine personenbezogenen/geschützten Daten in Prompts ohne Rechtsgrundlage. (publicationethics.org)

Praktische Checkliste (zum Abhaken)

Fit: Aufgabe/Frage exakt getroffen?
Belege: Alle Kernaussagen → echte Quellen? (DOI/Verlag geprüft)
CRAAP: Aktualität, Relevanz, Autorität, Genauigkeit, Zweck klar? (library.csuchico.edu)
Kohärenz: Widersprüche/Logiklücken markiert?
Zahlen: Stichprobenartig nachgerechnet?
Bias: Alternative Perspektiven einbezogen? Rahmen NIST hilfreich? (NIST-Publikationen)
Halluzinationen: Grounding/Reflexion genutzt? Unsicherheiten ausgewiesen? (aclanthology.org)
Dokumentation: Modell/Version/Datum/Prompts/Prüfschritte sauber protokolliert (DFG/ICMJE/COPE). (Deutsche Forschungsgemeinschaft)

Modellvorschlag (für diesen Workflow)

GPT-5 Thinking für strukturierte Qualitäts- und Methodenarbeit (Konzept, Kriterien, Reflexions-Prompts).
GPT-Pro für Presseschau/Faktencheck mit Web-Quellen.
GPT-Standard für Kurz-Edits/Formatierungen.

Forschungstagebuch

Heute habe ich denselben Prompt zweimal gestellt: vormittags und nachmittags. Die zweite Antwort setzte eine andere Definition von „Grounded Theory“ voraus – subtil, aber folgenreich. Erst der Beleg-Abgleich im Originaltext hat die Abweichung sichtbar gemacht. Meine Lehre: Ohne Quellen- und Stabilitätscheck bleibt der beste Stil ein Risiko. (Notiz: Modell/Version/Parameter/Zeitstempel im Protokoll ergänzt.) (library.csuchico.edu)

Leitfragen

Welche 3 Kernaussagen eies KI-Textes prüfe ich heute in Primärquellen?
Wie mache ich Unsicherheit sichtbar (Konfidenz, Alternativen, offene Punkte)?
Wo können Biases liegen – und welche Gegenperspektive teste ich? (NIST-Rahmen zur Orientierung) (NIST-Publikationen)
Ist meine Disclosure zur KI-Nutzung vollständig (Werkzeug, Version, Aufgabe, Prüfpfad)? (ICMJE/COPE) (icmje.org)

Literatur (APA)

A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. (2023). arXiv. https://arxiv.org/abs/2311.05232 (arXiv)
Artificial Intelligence Risk Management Framework (AI RMF 1.0). (2023). National Institute of Standards and Technology. https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-ai-rmf-10 (NIST)
Ethics Guidelines for Trustworthy AI. (2019). High-Level Expert Group on AI, Europäische Kommission. https://www.europarl.europa.eu/cmsdata/196377/AI%20HLEG_Ethics%20Guidelines%20for%20Trustworthy%20AI.pdf (Europäisches Parlament)
Leitlinien zur Sicherung guter wissenschaftlicher Praxis – Kodex. (2019). Deutsche Forschungsgemeinschaft. https://www.dfg.de/de/grundlagen-themen/grundlagen-und-prinzipien-der-foerderung/gwp/kodex (Deutsche Forschungsgemeinschaft)
The CRAAP Test – Currency, Relevance, Authority, Accuracy, Purpose. Meriam Library, California State University, Chico. https://library.csuchico.edu/help/source-or-information-good (library.csuchico.edu)
Towards Mitigating Hallucination in Large Language Models via Self-Reflection. (2023). Findings of EMNLP. https://aclanthology.org/2023.findings-emnlp.123.pdf (aclanthology.org)
Authorship and AI tools – COPE position. (2023/2024). Committee on Publication Ethics. https://publicationethics.org/guidance/cope-position/authorship-and-ai-tools (publicationethics.org)
Up-dated ICMJE Recommendations (January 2024). International Committee of Medical Journal Editors. https://www.icmje.org/news-and-editorials/updated_recommendations_jan2024.html (icmje.org)

Discover more from SocioloVerse.AI

Subscribe to get the latest posts sent to your email.

Qualität eines Promptergebnisses checken

Hinführung

Minimalpfad (10-Minuten-Check)

Der strenge Prüfpfad (für Haus-/Abschlussarbeiten)

Praktische Checkliste (zum Abhaken)

Modellvorschlag (für diesen Workflow)

Forschungstagebuch

Leitfragen

Literatur (APA)

Like this:

Ähnliche Beiträge

Discover more from SocioloVerse.AI

Leave a ReplyCancel reply

Quick Links

Get In Touch

Socials