Zum Hauptinhalt springen

🦙Starten mit Llama.cpp

Übersicht

Open WebUI macht es einfach und flexibel, einen lokalen Llama.cpp-Server zu verbinden und zu verwalten, um effiziente, quantisierte Sprachmodelle auszuführen. Egal, ob Sie Llama.cpp selbst kompiliert haben oder vort kompilierte Binärdateien verwenden, diese Anleitung führt Sie durch den Prozess:

  • Richten Sie Ihren Llama.cpp-Server ein
  • Laden Sie große Modelle lokal
  • Integrieren Sie es mit Open WebUI für eine nahtlose Schnittstelle

Lassen Sie uns loslegen!


Schritt 1: Llama.cpp installieren

Um Modelle mit Llama.cpp auszuführen, benötigen Sie zuerst den Llama.cpp-Server, der lokal installiert ist.

Sie können entweder

Stellen Sie nach der Installation sicher, dass llama-server in Ihrem lokalen Systempfad verfügbar ist, oder notieren Sie sich seinen Speicherort.


Schritt 2: Ein unterstütztes Modell herunterladen

Sie können verschiedene GGUF-formatierte quantisierte LLMs mit Llama.cpp laden und ausführen. Ein beeindruckendes Beispiel ist das DeepSeek-R1 1.58-Bit-Modell, das von UnslothAI optimiert wurde. Um diese Version herunterzuladen

  1. Besuchen Sie das Unsloth DeepSeek-R1 Repository auf Hugging Face
  2. Laden Sie die 1.58-Bit quantisierte Version herunter – ca. 131 GB.

Alternativ können Sie Python verwenden, um programmatisch herunterzuladen

# pip install huggingface_hub hf_transfer

from huggingface_hub import snapshot_download

snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"], # Download only 1.58-bit variant
)

Dies lädt die Modelldateien in ein Verzeichnis wie dieses herunter

DeepSeek-R1-GGUF/
└── DeepSeek-R1-UD-IQ1_S/
├── DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf
├── DeepSeek-R1-UD-IQ1_S-00002-of-00003.gguf
└── DeepSeek-R1-UD-IQ1_S-00003-of-00003.gguf

📍 Merken Sie sich den vollständigen Pfad zur ersten GGUF-Datei – Sie benötigen ihn in Schritt 3.


Schritt 3: Das Modell mit Llama.cpp serven

Starten Sie den Model-Server mit dem llama-server-Binärprogramm. Navigieren Sie zu Ihrem llama.cpp-Ordner (z. B. build/bin) und führen Sie aus

./llama-server \
--model /your/full/path/to/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
--port 10000 \
--ctx-size 1024 \
--n-gpu-layers 40

🛠️ Passen Sie die Parameter an Ihre Maschine an

  • --model: Pfad zu Ihrer .gguf-Modelldatei
  • --port: 10000 (oder wählen Sie einen anderen offenen Port)
  • --ctx-size: Token-Kontextlänge (kann erhöht werden, wenn RAM vorhanden ist)
  • --n-gpu-layers: Auf die GPU ausgelagerte Schichten für schnellere Leistung

Sobald der Server läuft, stellt er eine lokale, OpenAI-kompatible API unter

http://127.0.0.1:10000

Schritt 4: Llama.cpp mit Open WebUI verbinden

Um Ihr lokal laufendes Modell direkt von Open WebUI aus zu steuern und abzufragen

  1. Öffnen Sie Open WebUI in Ihrem Browser
  2. Gehen Sie zu ⚙️ Admin-Einstellungen → Verbindungen → OpenAI-Verbindungen
  3. Klicken Sie auf ➕ Verbindung hinzufügen und geben Sie ein
  • URL: http://127.0.0.1:10000/v1
    (Oder verwenden Sie http://host.docker.internal:10000/v1, wenn Sie WebUI in Docker ausführen)
  • API-Schlüssel: none (leer lassen)

💡 Sobald Sie gespeichert haben, wird Open WebUI Ihren lokalen Llama.cpp-Server als Backend verwenden!

Llama.cpp Connection in Open WebUI


Schneller Tipp: Probieren Sie das Modell über die Chat-Oberfläche aus

Sobald Sie verbunden sind, wählen Sie das Modell aus dem Open WebUI-Chat-Menü aus und beginnen Sie mit der Interaktion!

Model Chat Preview


Sie sind bereit!

Sobald konfiguriert, macht es Open WebUI einfach,

  • Lokale Modelle, die von Llama.cpp serviert werden, zu verwalten und zwischen ihnen zu wechseln
  • Die OpenAI-kompatible API ohne benötigten Schlüssel zu nutzen
  • Massive Modelle wie DeepSeek-R1 auszuprobieren – direkt von Ihrem Rechner aus!

🚀 Viel Spaß beim Experimentieren und Erstellen!