Skip to content

ChatGPT como um Sumarizador PDF Efetivo: Um Guia Detalhado

Updated on

A Inteligência Artificial está rapidamente fazendo incursões em inúmeros domínios, com Processamento de Linguagem sendo uma aplicação notável. Um exemplo intrigante de tal aplicação é usar ChatGPT para resumir arquivos PDF. 'PDF GPT' é um projeto fascinante que capitalizou essa tecnologia. Mas o que torna o ChatGPT um potente sumarizador PDF, e que recursos ele oferece? Este artigo elucida o processo em profundidade.

Revelando o Problema e as Soluções Atuais

Lidar com volumes massivos de dados textuais, especialmente aqueles em formato PDF, frequentemente encontra um par de bloqueios substanciais. Em primeiro lugar, plataformas como a OpenAI possuem um limite de token de 4K, o que implica que elas não podem aceitar um arquivo PDF inteiro como entrada. Em segundo lugar, a IA ocasionalmente pode retornar respostas não relacionadas à consulta devido a embeddings inferiores.

Soluções atuais para esse dilema incluem serviços como o ChatPDF (opens in a new tab), BeSpacific (opens in a new tab) e FileChat (opens in a new tab). No entanto, esses serviços muitas vezes lutam com a manutenção de conteúdo de qualidade e caem na armadilha do problema de 'alucinação' - gerando conteúdo que carece de precisão ou relevância. Para abordar esses problemas, propõe-se aprimorar os embeddings usando a família de algoritmos do Universal Sentence Encoder.

Explorando a Solução: As Intricacias do PDF GPT

PDF GPT apresenta uma solução inovadora permitindo que você interaja com um arquivo PDF enviado usando as capacidades do GPT. Ele manobra habilidosamente em torno do problema de texto vasto e do limite de token de 4K, segmentando o documento em pedaços menores e empregando um codificador robusto de Deep Averaging Network para gerar embeddings.

Este aplicativo primeiro realiza uma busca semântica no conteúdo do seu PDF e, em seguida, alimenta os embeddings mais relevantes para a OpenAI. Ele usa lógica personalizada para gerar respostas precisas. Destaca-se neste ferramenta que ela pode citar o número da página onde a informação está localizada, adicionando credibilidade às respostas e auxiliando na identificação rápida de informações essenciais.

Por exemplo, considere a pergunta "Qual é o limite de aluguel de quarto?" feita a partir de um PDF contendo uma apólice de seguro. A IA poderia responder: "O aluguel de quartos está sujeito a um máximo de INR 5.000 por dia, conforme especificado na Apólice Arogya Sanjeevani [página nº 1]."

PDF GPT também estende sua funcionalidade para produção, facilitada pelo langchain-serve, que ativa APIs em produção. Ele oferece uma demo (opens in a new tab) e o código-fonte está disponível abertamente em Hugging Face (opens in a new tab).

Profundando no Playground Local e Implantação na Nuvem

PDF GPT é equipado com um playground local, que pode ser ativado usando o langchain-serve. Este playground local pode ser iniciado executando o comando:

lc-serve deploy local api

Em outro terminal, você pode executar:

python app.py

Isso inicia um playground gradio local. Você pode, então, abrir http://localhost: 7860 em seu navegador e começar a interagir com o aplicativo.

A implantação na nuvem também é facilitada tornando o aplicativo pronto para produção e implantando-o no Jina Cloud com o seguinte comando:


bash
lc-serve deploy jcloud api

A interação via cURL também é possível modificando a URL para o seu endpoint, um exemplo do qual é fornecido no README original do GitHub.

Alavancando o Docker e Executando no Localhost

O projeto fornece comandos do Docker Compose para serem usados com o Docker Compose. Por exemplo, executar a aplicação com o Docker Compose envolve este comando:

docker-compose -f docker-compose.yaml up

A imagem pode ser obtida executando:

docker pull registry.hf.space/bhaskartripathi-pdfchatter:latest

Para uso local, o Universal Sentence Encoder precisa ser baixado para a pasta raiz do projeto. É crucial evitar o download do encoder de 915 MB em tempo de execução cada vez que a aplicação é executada.

Se você tiver baixado localmente, substitua a linha no arquivo API:

self.use = hub.load('https://tfhub.dev/google/universal-sentence-encoder/4')

por:

self.use = hub.load('./Universal Sentence Encoder/')

Para executar PDF-GPT, digite o seguinte comando:

docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/bhaskartripathi-pdfchatter:latest python app.py

Ampliando a sua contribuição para o PDF GPT

O criador do projeto convida contribuidores da comunidade de código aberto. Há um convite permanente para assumir itens atrasados e manter a aplicação de forma colaborativa.

Conclusão

ChatGPT, como um resumo de PDF, particularmente por meio do uso de PDF GPT, representa um salto significativo no processamento de documentos com alimentação de AI. Ao aprimorar incorporações, gerar respostas concisas e manipular eficientemente grandes PDFs, PDF GPT está preparando o terreno para um futuro inteligente e eficiente de inteligência artificial na sumarização de documentos.