Skip to content

Ecoute: Uma ferramenta de transcrição de comunicação em tempo real alimentada por OpenAI GPT-3.5

Updated on

Desvendando a Magia por Trás da Ecoute

Ecoute é mais do que apenas uma ferramenta de transcrição ao vivo. Ela transcreve em tempo real tanto a entrada do microfone do usuário quanto a saída dos alto-falantes, tornando ambas as partes de uma conversa prontamente acessíveis. Além disso, a Ecoute utiliza a GPT-3.5 da OpenAI para gerar respostas contextualmente relevantes com base na transcrição ao vivo da conversa, recurso inovador que a diferencia de outras soluções similares.

Por exemplo, imagine que você está tendo uma discussão técnica complexa com um colega. Ecoute transcreve seu diálogo e fornece respostas potenciais para facilitar sua conversa. Esse recurso pode aumentar significativamente a eficiência, especialmente em debates complexos onde a elaboração de respostas adequadas pode exigir mais tempo e esforço.

Visite a página do GitHub da Escote aqui (opens in a new tab).

Configuração do Ecoute: Os Pré-requisitos

Antes de configurar o Ecoute em sua máquina local, você deve garantir os seguintes pré-requisitos:

  • Python >=3.8.0
  • Uma chave de API da OpenAI
  • Sistema operacional Windows (não testado em outros)
  • FFmpeg

Se o FFmpeg ainda não estiver instalado em seu sistema, você pode instalá-lo usando o Chocolatey, um gerenciador de pacotes para o Windows.

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
choco install ffmpeg

Lembre-se de executar esses comandos em uma janela do PowerShell com privilégios de administrador.

Navegando pelo Processo de Instalação do Ecoute

Depois que os pré-requisitos forem atendidos, siga estas etapas para instalar e executar a Ecoute:

  1. Clone o repositório usando o comando: git clone https://github.com/SevaSk/ecoute
  2. Navegue até a pasta ecoute com: cd ecoute
  3. Instale os pacotes necessários via: pip install -r requirements.txt

Em seguida, você precisará criar um arquivo keys.py no diretório Ecoute e adicionar sua chave de API da OpenAI. Aqui estão dois métodos para realizar isso:

Método 1: Utilize o Prompt de Comando

Execute o seguinte comando, lembrando de substituir "API KEY" pela sua chave real da API OpenAI:

python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY=\"API KEY\"')"

Método 2: Criar manualmente o arquivo

Abra um editor de texto e insira o seguinte conteúdo:

OPENAI_API_KEY="API KEY"

Substitua "API KEY" pela sua chave real da API OpenAI. Salve esse arquivo como keys.py dentro do diretório Ecoute.

Iniciar Ecoute

Você pode iniciar o Ecoute executando o script principal: python main.py.

Para uma versão mais rápida e aprimorada que suporta a maioria das linguagens, use: python main.py --api

Este comando usará a API Whisper para transcrições, oferecendo velocidade e precisão aprimoradas. Observe que pode levar alguns segundos para o sistema se aquecer antes que a transcrição se torne em tempo real.

Considerações Importantes: Limitações e Perspectivas Futuras

Embora o Ecoute ofereça transcrição em tempo real e sugestões de resposta, é importante observar certas limitações:

  • Microfone e Alto-falante Padrão: O Ecoute ouve apenas o microfone e o alto-falante padrão em seu sistema. Para usar um microfone ou alto-falante diferente, defina-o como dispositivo padrão nas configurações do seu sistema.
  • Modelo Whisper: Sem a flag --api, o Ecoute utiliza a versão 'tiny' do modelo Whisper ASR devido ao seu baixo consumo de recursos e tempos de resposta rápidos. No entanto, esse modelo pode não transcrever certos tipos de discurso com tanta precisão quanto os modelos maiores.
  • Linguagem: Sem a flag --api, o modelo Whisper usado é definido para Inglês. Pode não transcrever com precisão línguas ou dialetos não ingleses.

Esforços ativos estão em andamento para resolver essas limitações e adicionar suporte para várias linguagens nas versões futuras.

Conclusão

O Ecoute é uma ferramenta inovadora com potencial para revolucionar a comunicação. Sua característica de transcrição ao vivo combinada com sugestão de resposta torna-se um recurso valioso para comunicação pessoal e profissional. Apesar de suas limitações, o projeto Ecoute é um passo emocionante para a frente, sugerindo as possibilidades ilimitadas que a IA oferece para o futuro da comunicação.