Skip to content

PrivateGPT: Offline GPT-4, das sicher und privat ist

Updated on

Im Bereich der künstlichen Intelligenz (KI) und der natürlichen Sprachverarbeitung (NLP) steht Datenschutz oft im Mittelpunkt der Diskussionen, insbesondere bei sensiblen Daten. PrivateGPT, eine bahnbrechende Entwicklung in diesem Bereich, geht dieses Problem direkt an. Es wurde entwickelt, um lokal ohne Internetverbindung ausgeführt zu werden und gewährleistet so einen vollständigen Datenschutz, indem es verhindert, dass Daten die Ausführungsumgebung verlassen.

Was ist PrivateGPT?

PrivateGPT ist ein innovatives Tool, das die leistungsstarken Sprachverständnisfähigkeiten von GPT-4 mit strengen Datenschutzmaßnahmen verbindet. Mit der Kraft von LangChain, GPT4All, LlamaCpp, Chroma und SentenceTransformers erlaubt es PrivateGPT den Benutzern, vollständig lokal mit GPT-4 zu interagieren. Lassen Sie uns in die Details der Einrichtung von PrivateGPT und die effiziente Nutzung eintauchen.

Einrichtung von PrivateGPT: Schritt für Schritt

Die Einrichtung von PrivateGPT umfasst hauptsächlich zwei Schritte: die Installation der erforderlichen Komponenten und die Konfiguration der Umgebung. Stellen Sie sicher, dass Python 3.10 oder eine neuere Version auf Ihrem Rechner installiert ist, um zu beginnen.

Schritt 1: Abhängigkeiten installieren

pip3 install -r requirements.txt

Schritt 2: Laden Sie das Language Learning Model (LLM) herunter und platzieren Sie es in Ihrem ausgewählten Verzeichnis. Das Standardmodell ist ggml-gpt4all-j-v1.3-groovy.bin. Es kann jedoch jedes GPT4All-J-kompatible Modell verwendet werden.

Schritt 3: Umbenennen Sie example.env in .env und bearbeiten Sie die Umgebungsvariablen:

  • MODEL_TYPE: Geben Sie entweder LlamaCpp oder GPT4All an.
  • PERSIST_DIRECTORY: Legen Sie den Ordner für Ihren Vektor-Speicher fest.
  • MODEL_PATH: Geben Sie den Pfad zu Ihrem LLM an.
  • MODEL_N_CTX: Legen Sie die maximale Token-Begrenzung für das LLM-Modell fest.
  • EMBEDDINGS_MODEL_NAME: Geben Sie den Namen des SentenceTransformers-Embeddings-Modells an.
  • TARGET_SOURCE_CHUNKS: Legen Sie die Anzahl der Chunks fest, die verwendet werden, um eine Frage zu beantworten.

Mit der eingerichteten Umgebung können wir jetzt mit der Datenverarbeitung beginnen.

Verarbeiten von Daten mit PrivateGPT

PrivateGPT unterstützt verschiedene Dateiformate wie CSV, Word-Dokumente, HTML-Dateien und viele mehr. So können Sie Ihre eigenen Daten einlesen:

Schritt 1: Platzieren Sie Ihre Dateien im Verzeichnis source_documents.

Schritt 2: Führen Sie das Skript ingest.py aus, um alle Daten zu verarbeiten.

python ingest.py

Das Skript erstellt eine lokale Embeddings-Datenbank im Ordner db. Die Verarbeitung dauert etwa 20-30 Sekunden pro Dokument, abhängig von der Größe des Dokuments.

Interaktion mit PrivateGPT

Lassen Sie uns nun darüber sprechen, wie Sie lokal Fragen zu Ihren Dokumenten stellen können, indem Sie PrivateGPT verwenden:

Schritt 1: Führen Sie das Skript privateGPT.py aus:

python privateGPT.py

Schritt 2: Geben Sie Ihre Frage ein, wenn Sie dazu aufgefordert werden.

Innerhalb von 20-30 Sekunden, je nach Geschwindigkeit Ihres Rechners, generiert PrivateGPT eine Antwort mit Hilfe des GPT-4-Modells und gibt die Quellen an, die aus Ihren Dokumenten zur Erstellung der Antwort verwendet wurden.

Die Leistungsfähigkeit von PrivateGPT nutzen: Die zugrunde liegende Technik

Die datenschutzorientierte lokale Funktionsweise von PrivateGPT basiert auf einer Kombination aus leistungsstarken Tools. ingest.py verwendet LangChain-Tools, um Dokumente zu analysieren und lokale Embeddings mit HuggingFaceEmbeddings zu erstellen (ein Teil von SentenceTransformers). Die resultierenden Embeddings werden in einer lokalen Vektordatenbank mit dem Chroma-Vektorspeicher abgelegt.

privateGPT.py verwendet ein lokales LLM - entweder GPT4All-J oder LlamaCpp - um Benutzeranfragen zu verstehen und passende Antworten zu generieren. Der lokale Vektorspeicher wird verwendet, um Kontext für diese Antworten zu extrahieren. Es wird eine Ähnlichkeitssuche genutzt, um den entsprechenden Kontext aus den eingelesenen Dokumenten zu finden.

Systemanforderungen und Fehlerbehebung

Die Systemvoraussetzungen für PrivateGPT umfassen Python 3.10 oder eine neuere Version. Falls während des Pip-Installationsprozesses ein C++-Compilerfehler auftritt, werden Installationsanweisungen für Windows 10/11 und Mac mit Intel-Prozessor bereitgestellt.

Den PrivateGPT-GitHub finden Sie hier (opens in a new tab).

Fazit

PrivateGPT ist ein beeindruckendes Beispiel für die Verbindung leistungsstarker KI-Sprachmodelle wie GPT-4 und strenger Datenschutzprotokolle. Es bietet eine sichere Umgebung, um mit Dokumenten zu interagieren und stellt sicher, dass keine Daten nach außen geteilt werden. Egal ob Sie KI-Enthusiast oder ein datenschutzorientierter Benutzer sind, PrivateGPT eröffnet neue Möglichkeiten für datenschutzorientierte KI-Anwendungen.