# KI-Antwortqualität mit einem kleinen Evaluationsset messen
## 1. Echte Prompts sammeln
Wähle Supporttickets, Suchanfragen oder Redaktionsaufgaben aus dem Alltag. Mische einfache, schwere und mehrdeutige Beispiele.
## 2. Erwartete Eigenschaften notieren
Verlange keine identische Antwort. Bewerte Fundierung, Vollständigkeit, Kürze und ehrlichen Umgang mit fehlenden Informationen.
## 3. Jede Änderung vergleichen
Führe dieselben Prompts vor und nach Prompt-, Modell- oder Retrieval-Änderungen aus. Speichere Ergebnisse in einer Tabelle.
## Checklist
- Confirm the input data is safe to process.
- Keep a human review path for uncertain results.
- Measure the workflow before adding more automation.
Ein kleines Evaluationsset beweist keine Perfektion, verhindert aber blinde Qualitätsverluste.
Kommentare
0 Kommentare
Noch keine freigegebenen Kommentare sichtbar. Neue Antworten können moderiert werden.