📝 Evaluation
Warum sollte ich Modelle bewerten?
Lernen Sie Alex kennen, einen Machine-Learning-Ingenieur in einem mittelständischen Unternehmen. Alex weiß, dass es zahlreiche KI-Modelle gibt – GPTs, LLaMA und viele mehr –, aber welches eignet sich am besten für die jeweilige Aufgabe? Sie klingen alle auf dem Papier beeindruckend, aber Alex kann sich nicht einfach auf öffentliche Bestenlisten verlassen. Diese Modelle schneiden je nach Kontext unterschiedlich ab, und einige Modelle wurden möglicherweise auf dem Bewertungsdatensatz trainiert (raffiniert!). Außerdem kann die Art und Weise, wie diese Modelle schreiben, manchmal ... seltsam wirken.
Hier kommt Open WebUI ins Spiel. Es bietet Alex und seinem Team eine einfache Möglichkeit, Modelle basierend auf ihren tatsächlichen Bedürfnissen zu bewerten. Keine komplizierte Mathematik. Kein großer Aufwand. Nur Daumen hoch oder Daumen runter während der Interaktion mit den Modellen.
TL;DR
- Warum Bewertungen wichtig sind: Zu viele Modelle, aber nicht alle passen zu Ihren spezifischen Bedürfnissen. Allgemeine öffentliche Bestenlisten sind nicht immer vertrauenswürdig.
- Wie man es löst: Open WebUI bietet ein integriertes Bewertungssystem. Verwenden Sie Daumen hoch/runter, um Modellantworten zu bewerten.
- Was hinter den Kulissen passiert: Bewertungen passen Ihre personalisierte Bestenliste an, und Momentaufnahmen aus bewerteten Chats werden für zukünftiges Modell-Fine-Tuning verwendet!
- Bewertungsoptionen:
- Arena-Modell: Wählt zufällig Modelle aus, die Sie vergleichen können.
- Normale Interaktion: Chatten Sie einfach wie gewohnt und bewerten Sie die Antworten.
Warum reicht öffentliche Bewertung nicht aus?
- Öffentliche Bestenlisten sind nicht auf Ihren spezifischen Anwendungsfall zugeschnitten.
- Einige Modelle werden auf Bewertungsdatensätzen trainiert, was die Fairness der Ergebnisse beeinträchtigt.
- Ein Modell mag insgesamt gut abschneiden, aber sein Kommunikationsstil oder seine Antworten passen einfach nicht zur gewünschten „Vibe“.
Die Lösung: Personalisierte Bewertung mit Open WebUI
Open WebUI verfügt über eine integrierte Bewertungsfunktion, mit der Sie und Ihr Team das am besten geeignete Modell für Ihre spezifischen Bedürfnisse entdecken können – alles während der Interaktion mit den Modellen.
Wie funktioniert das? Ganz einfach!
- Während Chats, hinterlassen Sie einen Daumen hoch, wenn Ihnen eine Antwort gefällt, oder einen Daumen runter, wenn nicht. Wenn die Nachricht eine Geschwisternachricht hat (wie eine neu generierte Antwort oder Teil eines Side-by-Side-Modellvergleichs), tragen Sie zu Ihrer persönlichen Bestenliste bei.
- Bestenlisten sind im Admin-Bereich leicht zugänglich und helfen Ihnen zu verfolgen, welche Modelle laut Ihrem Team am besten abschneiden.
Ein cooles Feature? Immer wenn Sie eine Antwort bewerten, macht das System eine Momentaufnahme dieses Gesprächs, die später zur Verfeinerung von Modellen oder sogar zum Training zukünftiger Modelle verwendet wird. (Beachten Sie, dass dies noch in der Entwicklung ist!)
Zwei Wege zur Bewertung eines KI-Modells
Open WebUI bietet zwei unkomplizierte Ansätze zur Bewertung von KI-Modellen.
1. Arena-Modell
Das Arena-Modell wählt zufällig aus einem Pool verfügbarer Modelle aus und stellt sicher, dass die Bewertung fair und unvoreingenommen ist. Dies hilft, einen potenziellen Fehler beim manuellen Vergleich zu beseitigen: ökologische Validität – Sicherstellen, dass Sie einem Modell nicht wissentlich oder unwissentlich den Vorzug geben.
So verwenden Sie es
- Wählen Sie ein Modell aus dem Arena-Modell-Selektor.
- Verwenden Sie es wie gewohnt, aber jetzt sind Sie im „Arena-Modus“.
Damit Ihr Feedback die Bestenliste beeinflusst, benötigen Sie eine sogenannte Geschwisternachricht. Was ist eine Geschwisternachricht? Eine Geschwisternachricht ist einfach jede alternative Antwort, die von derselben Abfrage generiert wurde (denken Sie an Nachrichten-Neugenerierungen oder mehrere Modelle, die Antworten nebeneinander generieren). Auf diese Weise vergleichen Sie Antworten direkt miteinander.
- Bewertungstipp: Wenn Sie eine Antwort mit Daumen hoch bewerten, erhält die andere automatisch einen Daumen runter. Seien Sie also achtsam und voten Sie nur die Nachricht hoch, von der Sie glauben, dass sie wirklich die beste ist!
- Sobald Sie die Antworten bewertet haben, können Sie die Bestenliste einsehen, um zu sehen, wie die Modelle abschneiden.
Hier ist ein kleiner Einblick, wie die Arena-Modell-Oberfläche funktioniert

Benötigen Sie mehr Tiefe? Sie können sogar ein Setup im Stil der Chatbot Arena replizieren!

2. Normale Interaktion
Sie müssen nicht in den „Arena-Modus“ wechseln, wenn Sie nicht möchten. Sie können Open WebUI normal verwenden und die KI-Modellantworten bewerten, wie Sie es im alltäglichen Betrieb tun würden. Geben Sie einfach Daumen hoch/runter für die Modellantworten, wann immer Ihnen danach ist. Wenn Sie jedoch möchten, dass Ihr Feedback zur Rangfolge auf der Bestenliste verwendet wird, müssen Sie das Modell wechseln und mit einem anderen interagieren. Dies stellt sicher, dass es eine Geschwisterantwort zum Vergleichen gibt – nur Vergleiche zwischen zwei verschiedenen Modellen beeinflussen die Rangfolge.
Hier ist zum Beispiel, wie Sie während einer normalen Interaktion bewerten können

Und hier ist ein Beispiel für die Einrichtung eines Multi-Modell-Vergleichs, ähnlich einer Arena

Bestenliste
Sehen Sie sich nach der Bewertung die Bestenliste im Admin-Panel an. Hier sehen Sie visuell, wie die Modelle abschneiden, sortiert nach einem Elo-Bewertungssystem (denken Sie an Schach-Rankings!). Sie erhalten eine echte Übersicht darüber, welche Modelle bei den Bewertungen wirklich herausragen.
Dies ist ein Beispiel für das Layout einer Bestenliste

Themenbasierte Neu-Rangfolge
Wenn Sie Chats bewerten, können Sie sie nach Themen kennzeichnen, um detailliertere Einblicke zu erhalten. Dies ist besonders nützlich, wenn Sie in verschiedenen Bereichen wie Kundenservice, kreatives Schreiben, technischer Support usw. tätig sind.
Automatische Kennzeichnung
Open WebUI versucht, Chats automatisch zu kennzeichnen, basierend auf dem Thema des Gesprächs. Je nach verwendetem Modell kann die automatische Kennzeichnungsfunktion jedoch manchmal fehlschlagen oder das Gespräch falsch interpretieren. Wenn dies geschieht, ist es am besten, Ihre Chats manuell zu kennzeichnen, um sicherzustellen, dass das Feedback korrekt ist.
- Manuelles Kennzeichnen: Wenn Sie eine Antwort bewerten, haben Sie die Möglichkeit, basierend auf dem Kontext des Gesprächs eigene Tags hinzuzufügen.
Überspringen Sie dies nicht! Das Kennzeichnen ist sehr mächtig, da es Ihnen ermöglicht, Modelle basierend auf spezifischen Themen neu zu rangieren. Zum Beispiel möchten Sie vielleicht sehen, welches Modell am besten für die Beantwortung von Supportfragen oder allgemeinen Kundenanfragen geeignet ist.
Hier ist ein Beispiel, wie die Neu-Rangfolge aussieht

Nebenbemerkung: Chat-Momentaufnahmen für Modell-Fine-Tuning
Immer wenn Sie die Antwort eines Modells bewerten, macht Open WebUI eine Momentaufnahme dieses Chats. Diese Momentaufnahmen können später verwendet werden, um Ihre eigenen Modelle zu verfeinern – so fließen Ihre Bewertungen in die kontinuierliche Verbesserung der KI ein.
(Bleiben Sie dran für weitere Updates zu dieser Funktion, sie wird aktiv entwickelt!)
Zusammenfassung
Kurz gesagt hat das Bewertungssystem von Open WebUI zwei klare Ziele
- Helfen Sie Ihnen, Modelle einfach zu vergleichen.
- Finden Sie letztendlich das Modell, das am besten zu Ihren individuellen Bedürfnissen passt.
Im Kern geht es dem System darum, die Bewertung von KI-Modellen für jeden Benutzer einfach, transparent und anpassbar zu gestalten. Ob über das Arena-Modell oder die normale Chat-Interaktion, Sie haben die volle Kontrolle darüber, welches KI-Modell für Ihren spezifischen Anwendungsfall am besten geeignet ist!
Wie immer bleiben alle Ihre Daten sicher auf Ihrer Instanz, und nichts wird geteilt, es sei denn, Sie stimmen ausdrücklich einer gemeinsamen Nutzung zu. Ihre Privatsphäre und Datenautonomie haben stets Priorität.