Welche Daten wurden verwendet, um ChatGPT zu trainieren?

ChatGPT wurde mit einer Vielzahl von Internettexten trainiert. OpenAI hat jedoch nicht öffentlich die Details der einzelnen verwendeten Datensätze offengelegt. Sie können Ihr eigenes ChatGPT-Modell mit benutzerdefinierten Daten trainieren, um es an Ihre spezifischen Anforderungen anzupassen.

Wie man ChatGPT für geschäftliche und persönliche Zwecke trainiert

Q: Kann man ChatGPT mit PDFs trainieren?

Ja, man kann ChatGPT mit PDFs trainieren. Sie können Python-Bibliotheken wie PyPDF2 verwenden, um die PDF-Dateien zu analysieren und die Daten dem Modell zuzuführen.

Name: Olaf Källström

Updated on 17.8.2023

Künstliche Intelligenz (KI) hat zahlreiche Branchen revolutioniert, und auch im Bereich der Kommunikation ist das nicht anders. Unter den verschiedenen verfügbaren KI-Modellen sticht ChatGPT, entwickelt von OpenAI, aufgrund seiner beeindruckenden Sprachverständnisfähigkeiten hervor. Diese Anleitung soll ein umfassendes Verständnis dafür vermitteln, wie man ChatGPT effektiv mit benutzerdefinierten Daten auf MacOS trainiert.

Den eigenen KI-gesteuerten Chatbot zu erstellen war noch nie einfacher. Mit OpenAI's ChatGPT können Sie ein Sprachmodell mit benutzerdefinierten Daten trainieren, die auf Ihre spezifischen Bedürfnisse zugeschnitten sind. Am Ende dieser Anleitung werden Sie über das nötige Fachwissen verfügen, um Ihren Chatbot einzurichten, Ihre Daten vorzubereiten und ihn zu optimieren.

Methode 1: Verwenden Sie Online-Tools, um ChatGPT zu trainieren

Verwendung von CustomGPT.ai zum Training von ChatGPT

CustomGPT.ai ist eine Online-Plattform, die den Prozess des Trainierens von ChatGPT mit eigenen Daten vereinfacht. Sie eliminiert die Notwendigkeit von Coding oder Datenbankarbeit und ist somit auch für Benutzer ohne technischen Hintergrund zugänglich. Hier sind die Schritte zur Verwendung von CustomGPT.ai:

Besuchen Sie CustomGPT.ai (opens in a new tab) und erstellen Sie ein neues Projekt. Sie können es nach Ihren Wünschen benennen.
Geben Sie die Sitemap-URL Ihrer Website ein. Die Plattform wird dann alle Seiten Ihrer Sitemap zum Crawlen in die Warteschlange stellen.
Warten Sie, bis das System alle Seiten gecrawlt hat. Dieser Vorgang kann, abhängig von der Anzahl der Seiten auf Ihrer Website, bis zu einer Stunde dauern.
Sobald der Crawling-Prozess abgeschlossen ist, können Sie Ihren individualisierten Chatbot erstellen. Der Chatbot hat alle Seiten gelesen, den Inhalt verstanden und ist bereit, mit denjenigen zu interagieren, die ihn nutzen.

Verwendung von ChatGPT School zum Training von ChatGPT

ChatGPT School ist eine weitere Plattform, die es ermöglicht, ChatGPT mit eigenen Daten zu trainieren. Sie ist besonders nützlich für Bildungsinhalte wie Online-Kurse. Hier ist, wie man es verwendet:

Besuchen Sie ChatGPT School (opens in a new tab) und erstellen Sie ein neues Projekt.
Wie bei CustomGPT.ai müssen Sie die Sitemap-URL Ihrer Website eingeben. Die Plattform wird dann alle Seiten Ihrer Sitemap zum Crawlen in die Warteschlange stellen.
Warten Sie, bis das System alle Seiten gecrawlt hat. Dieser Vorgang kann, abhängig von der Anzahl der Seiten auf Ihrer Website, bis zu einer Stunde dauern.
Sobald der Crawling-Prozess abgeschlossen ist, können Sie Ihren individualisierten Chatbot erstellen. Der Chatbot hat alle Seiten gelesen, den Inhalt verstanden und ist bereit, mit denjenigen zu interagieren, die ihn nutzen.

Methode 2: Erstellen Sie Ihre eigene maßgeschneiderte LLM, um ChatGPT zu trainieren

Bereiten Sie die Umgebung zum Training von ChatGPT vor

Schritt 1: Installieren Sie Python

Python 3.0+ wird benötigt, um zu starten. Bevor Sie mit der Installation beginnen, empfiehlt es sich zu überprüfen, ob Sie bereits Python3 installiert haben. Dies können Sie tun, indem Sie den folgenden Befehl in Ihrem Terminal ausführen:

python3 --version

Wenn Sie die Version nach Ausführung des Befehls sehen, bedeutet dies, dass Sie bereits Python3 installiert haben und Sie können diesen Schritt überspringen. Wenn Sie einen "Befehl nicht gefunden" Fehler sehen, fahren Sie mit der Installation fort.

Gehen Sie zu folgendem Link und laden Sie den Python-Installer herunter: https://www.python.org/downloads/ (opens in a new tab)

Sobald die Installation abgeschlossen ist, führen Sie den oben genannten Befehl erneut aus und es sollte die Version von Python ausgeben.

Schritt 2: Pip aktualisieren

Python wird mit pip vorinstalliert geliefert, aber falls Sie eine alte Installation verwenden, ist es immer eine gute Idee, pip auf die neueste Version zu aktualisieren. Pip ist ein Paketmanager für Python, ähnlich wie Composer für PHP. Sie können es mit einem sehr einfachen Befehl aktualisieren:

python3 -m pip install -U pip

Wenn Sie bereits pip installiert haben, erhalten Sie eine Warnung wie z.B. "Requirement already satisfied: pip in [Standort-hier]". Wenn Sie nicht die neueste Version von pip haben, wird diese installiert. Sie können nun überprüfen, ob es richtig installiert ist oder nicht, indem Sie den folgenden Befehl ausführen:

pip3 --version

Es wird Ihnen die Version und den Speicherort des Pakets anzeigen.

Installieren Sie Bibliotheken zum Training von ChatGPT

Bevor Sie mit dem eigentlichen Trainingsprozess beginnen können, müssen Sie einige Bibliotheken installieren. Öffnen Sie die Terminalanwendung auf Ihrem Mac und führen Sie die folgenden Befehle nacheinander aus:

Der erste Befehl installiert die OpenAI-Bibliothek:

pip3 install openai

Als nächstes installieren Sie GPT Index, der auch als LlamaIndex bezeichnet wird. Es ermöglicht es dem LLM, eine Verbindung zu den externen Daten herzustellen, die unsere Wissensbasis sind.

Weitere Details darüber, wie LlamaIndex funktioniert und wie Sie ihn verwenden können, finden Sie in unseren entsprechenden Artikeln zu LlamaIndex.

pip3 install gpt_index

Sobald dies erledigt ist, führen Sie den folgenden Befehl aus:

pip3 install PyPDF2

Es handelt sich um eine auf Python basierende PDF-Analysebibliothek und wird benötigt, wenn Sie dem Modell PDF-Dateien zuführen möchten.

Abschließend führen Sie Folgendes aus:

pip3 install gradio

Dadurch wird eine einfache Benutzeroberfläche zur Interaktion mit KI Chatgpt erstellt.

Erhalten Sie den OpenAI-Schlüssel für das ChatGPT-Training

Bevor wir uns in das Skript stürzen, holen wir uns den API-Schlüssel von OpenAI. Besuchen Sie die OpenAI API (opens in a new tab). Wenn Sie noch nicht angemeldet sind, werden Sie dazu aufgefordert. Klicken Sie dann auf "Create new secret key", um einen Schlüssel für unser Skript zu generieren.

Beachten Sie, dass Sie den Schlüssel, sobald er generiert wurde, nicht mehr sehen können. Sie müssen den Schlüssel in einem sicheren Ort kopieren und speichern, um später darauf zugreifen zu können.

Daten für das ChatGPT-Training vorbereiten

Erstellen Sie ein neues Verzeichnis mit dem Namen 'docs' an einem beliebigen Ort und legen Sie PDF-, TXT- oder CSV-Dateien darin ab. Sie können auch mehrere Dateien hinzufügen, aber bedenken Sie, dass je mehr Daten Sie hinzufügen, desto mehr Tokens verwendet werden. Kostenlose Konten erhalten Tokens im Wert von 18 $.

Erstellen Sie ein Skript, um ChatGPT zu trainieren

Jetzt, da alles bereit ist, ist unser nächster Schritt, ein Python-Skript zu erstellen, um den Chatbot mit benutzerdefinierten Daten zu trainieren. Es wird Dateien aus dem 'docs'-Verzeichnis verwenden, das wir oben erstellt haben, und eine JSON-Datei generieren.

Sie können jeden Texteditor verwenden, um diese Datei zu erstellen. MacOS wird mit TextEdit geliefert, Sie können dies verwenden, oder wenn Sie Visual Studio Code verwenden, ist es noch besser.

Erstellen Sie eine neue Seite und kopieren Sie den folgenden Code:

from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper
from langchain import OpenAI
import gradio as gr
import sys
import os
 
os.environ["OPENAI_API_KEY"] = ''
 
def construct_index(directory_path):
    max_input_size = 4096
    num_outputs = 512
    max_chunk_overlap = 20
    chunk_size_limit = 600
 
    prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)
 
    llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs))
 
    documents = SimpleDirectoryReader(directory_path).load_data()
 
    index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)
 
    index.save_to_disk('index.json')
 
    return index
 
def chatbot(input_text):
    index = GPTSimpleVectorIndex.load_from_disk('index.json')
    response = index.query(input_text, response_mode="compact")
    return response.response
 
iface = gr.Interface(fn=chatbot,
                     inputs=gr.inputs.Textbox(lines=7, label="Geben Sie Ihren Text ein"),
                     outputs="text",
                     title="Mein KI-Chatbot")
 
index = construct_index("docs")
iface.launch(share=True)

Nach dem Kopieren müssen Sie Ihren OpenAI-Schlüssel zum Code hinzufügen, bevor Sie ihn speichern. Beachten Sie die OPEN_API_KEY-Variable im Code? Kopieren Sie Ihren OpenAI-Schlüssel, den wir in Schritt 5 extrahiert haben, zwischen die einfachen Anführungszeichen, wie zum Beispiel:

os.environ["OPENAI_API_KEY"] = 'your-key-goes-here'

Speichern Sie die Datei dann mit der Erweiterung app.py am gleichen Ort, an dem Sie Ihr 'docs'-Verzeichnis haben.

Das Skript ausführen

Jetzt, da alles bereit ist, können wir endlich das Skript ausführen und die Magie sehen.

Navigieren Sie zum Ort, an dem Sie app.py und das 'docs'-Verzeichnis haben. Öffnen Sie das Terminal und führen Sie den folgenden Befehl aus:

cd /path/to/your/directory

Führen Sie anschließend die Python-Datei aus:

python3 app.py

Dies wird Ihren benutzerdefinierten Chatbot trainieren. Dies kann je nach Menge der eingespeisten Daten einige Zeit in Anspruch nehmen. Sobald dies abgeschlossen ist, wird ein Link ausgegeben, über den Sie die Antworten mit einer einfachen Benutzeroberfläche testen können.

Wie Sie sehen können, wird eine lokale URL ausgegeben: http://127.0.0.1:7860

Sie können dies in jedem Browser öffnen und Ihren benutzerdefinierten trainierten Chatbot testen. Beachten Sie, dass die oben genannte Portnummer für Sie möglicherweise unterschiedlich ist.

Sie können Fragen auf der linken Seite stellen und sie werden in der rechten Spalte beantwortet. Beachten Sie, dass Fragen Tokens kosten, sodass je mehr Fragen Sie stellen, desto mehr Tokens von Ihrem OpenAI-Konto verwendet werden. Das Training verwendet auch Tokens, je nachdem, wie viele Daten Sie ihm zuführen.

Um mit mehr oder anderen Daten zu trainieren, können Sie mit CTRL + C schließen, Dateien ändern und die Python-Datei erneut ausführen.

📚

Fazit

Das Training von ChatGPT mit benutzerdefinierten Daten ermöglicht es Ihnen, einen auf Ihre spezifischen Bedürfnisse zugeschnittenen Chatbot zu erstellen. Egal, ob Sie Python-Bibliotheken auf MacOS verwenden, Online-Plattformen wie CustomGPT.ai und ChatGPT School nutzen oder einer Community wie der ChatGPT AI Automation Group beitreten - es gibt zahlreiche Möglichkeiten, um die Funktionen Ihres Chatbots anzupassen und zu erweitern. Indem Sie den in diesem Leitfaden bereitgestellten detaillierten Schritten und Beispielen folgen, sind Sie auf dem besten Weg, einen leistungsstarken KI-unterstützten Chatbot zu erstellen.

Häufig gestellte Fragen

Kann ich mein eigenes ChatGPT-Modell trainieren?

Ja, Sie können Ihr eigenes ChatGPT-Modell trainieren. Dieser Leitfaden zeigt detaillierte Schritte, wie Sie dies mit Python-Bibliotheken auf MacOS tun können. Sie können auch Online-Plattformen wie CustomGPT.ai und ChatGPT School verwenden, um den Prozess zu vereinfachen.

Kann ich ChatGPT mit PDF-Dateien trainieren?

Ja, ChatGPT kann mit PDF-Dateien trainiert werden. Sie können Python-Bibliotheken wie PyPDF2 verwenden, um die PDF-Dateien zu analysieren und die Daten dem Modell zuzuführen.

Welche Daten wurden zur Schulung des ChatGPT verwendet?

ChatGPT wurde mit einer Vielzahl von Internet-Texten trainiert. OpenAI hat jedoch die Details der einzelnen verwendeten Datensätze nicht öffentlich bekannt gegeben. Sie können Ihr eigenes ChatGPT-Modell mit benutzerdefinierten Daten trainieren, um es an Ihre spezifischen Bedürfnisse anzupassen.

Kann man einen Chatbot trainieren?

Ja, Sie können einen Chatbot trainieren. Dieser Leitfaden bietet detaillierte Schritte zum Trainieren eines Chatbots mit ChatGPT und benutzerdefinierten Daten. Der Prozess umfasst das Einrichten Ihrer Umgebung, das Vorbereiten Ihrer Daten und das Ausführen eines Python-Skripts, um den Chatbot zu trainieren.

📚