PrivateGPT: GPT-4 Offline que é seguro e privado

Name: Viktor Zinchenko

Updated on 19/08/2023

No mundo da inteligência artificial (IA) e do processamento de linguagem natural (PLN), a privacidade muitas vezes surge como uma preocupação fundamental, especialmente ao lidar com dados sensíveis. PrivateGPT, um desenvolvimento inovador nessa esfera, aborda esse problema de frente. Projetado para funcionar localmente sem conexão com a internet, ele garante total privacidade ao impedir que dados saiam do seu ambiente de execução.

O que é PrivateGPT?

PrivateGPT é uma ferramenta inovadora que combina as poderosas capacidades de entendimento de linguagem do GPT-4 com medidas rigorosas de privacidade. Aproveitando a força da LangChain, GPT4All, LlamaCpp, Chroma e SentenceTransformers, o PrivateGPT permite que os usuários interajam com o GPT-4 totalmente localmente. Vamos mergulhar nos detalhes da configuração do PrivateGPT e como usá-lo de forma eficiente.

Configurando o PrivateGPT: Passo a Passo

A configuração do PrivateGPT envolve principalmente duas etapas: instalar requisitos e configurar o ambiente. Para começar, certifique-se de que o Python 3.10 ou superior esteja instalado em sua máquina.

Passo 1: Instalar dependências

pip3 install -r requirements.txt

Passo 2: Baixe e coloque o Modelo de Aprendizagem de Idiomas (LLM) no seu diretório escolhido. O modelo padrão é ggml-gpt4all-j-v1.3-groovy.bin. No entanto, qualquer modelo compatível com GPT4All-J pode ser usado.

Passo 3: Renomeie example.env para .env e edite as variáveis de ambiente:

MODEL_TYPE: Especifique LlamaCpp ou GPT4All.
PERSIST_DIRECTORY: Defina a pasta para o seu banco de vetores.
MODEL_PATH: Forneça o caminho para o seu LLM.
MODEL_N_CTX: Determine o limite máximo de tokens para o modelo LLM.
EMBEDDINGS_MODEL_NAME: Especifique o nome do modelo de incorporações SentenceTransformers.
TARGET_SOURCE_CHUNKS: Determine o número de partes que serão usadas para responder a uma pergunta.

Com o ambiente configurado, agora podemos prosseguir para ingerir os dados.

Ingerindo Dados com o PrivateGPT

O PrivateGPT suporta vários tipos de arquivos que vão desde CSV, Documentos do Word até arquivos HTML e muitos outros. Veja como você pode ingerir seus próprios dados:

Passo 1: Coloque seus arquivos no diretório source_documents

Passo 2: Execute o script ingest.py para processar todos os dados

python ingest.py

O script cria um banco de dados de incorporações local na pasta db. Isso leva cerca de 20 a 30 segundos por documento, dependendo do tamanho do documento.

Interagindo com o PrivateGPT

Agora, vamos mergulhar em como você pode fazer perguntas aos seus documentos, localmente, usando o PrivateGPT: Passo 1: Execute o script privateGPT.py:

python privateGPT.py

Passo 2: Quando solicitado, insira sua consulta.

Em 20-30 segundos, dependendo da velocidade da sua máquina, o PrivateGPT gera uma resposta usando o modelo GPT-4 e fornece as fontes usadas a partir de seus documentos para criar a resposta.

Desbloqueando o Poder do PrivateGPT: A Mecânica Subjacente

A operação local de preservação de privacidade do PrivateGPT é sustentada por uma mistura de ferramentas potentes. ingest.py aproveita ferramentas LangChain para analisar documentos, criando incorporações locais usando HuggingFaceEmbeddings (parte do SentenceTransformers). As incorporações resultantes são armazenadas em um banco de dados vetorial local com armazenamento de vetor Chroma.

privateGPT.py usa um LLM local - GPT4All-J ou LlamaCpp - para compreender as consultas do usuário e fabricar respostas adequadas. O armazenamento de vetor local é usado para extrair contexto para essas respostas, aproveitando uma pesquisa de similaridade para encontrar o contexto correspondente nos documentos ingeridos.

Requisitos de Sistema e Solução de Problemas

Os pré-requisitos do sistema do PrivateGPT incluem Python 3.10 ou posterior. Durante o processo de instalação do pip, se ocorrer um erro do compilador C++, instruções de instalação são fornecidas para Windows 10/11 e Mac rodando Intel.

Você pode acessar o GitHub do PrivateGPT aqui (opens in a new tab).

Conclusão

PrivateGPT é um exemplo da fusão de modelos poderosos de linguagem de IA, como o GPT-4, e protocolos rígidos de privacidade de dados. Oferece um ambiente seguro para usuários interagirem com seus documentos, garantindo que nenhum dado seja compartilhado externamente. Seja você um entusiasta da IA ou um usuário focado em privacidade, o PrivateGPT abre novas possibilidades para aplicativos de IA que preservam a privacidade.