Skip to content

Ecoute: OpenAI GPT-3.5 기반의 실시간 의사소통 전사 도구

Updated on

Ecoute의 기술

Ecoute는 단순한 생중계 전사 도구가 아닙니다. 사용자의 마이크 입력과 스피커 출력 모두를 실시간으로 전사하여 대화의 두 가지 측면을 모두 쉽게 접근할 수 있게 해줍니다. 또한 Ecoute는 대화를 실시간 전사하여 적합한 응답을 생성하는 데 OpenAI의 GPT-3.5 기술을 사용합니다. 이는 선도적인 기능으로, 복잡한 기술적인 토론을 하는 경우 적절한 응답을 작성하는 데 추가 시간과 노력이 필요한 경우에 효율성을 크게 높일 수 있습니다.

Escote GitHub 페이지(https://github.com/SevaSk/ecoute)를 (opens in a new tab) 방문해 보세요.

Ecoute 설정: 사전 요구 사항

로컬 머신에서 Ecoute를 설정하기 전에 다음 전제 조건을 충족시켜야 합니다.

  • Python >=3.8.0
  • OpenAI API 키
  • Windows 운영 체제 (기타 운영 체제에서 테스트하지 않음)
  • FFmpeg

FFmpeg가 시스템에 이미 설치되어 있지 않은 경우, Windows용 패키지 관리자인 Chocolatey를 사용하여 설치할 수 있습니다.

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
choco install ffmpeg

반드시 관리자 권한으로 PowerShell 창에서 이러한 명령을 실행해야 합니다.

Ecoute 설치 프로세스

사전 요구 사항이 충족되면, Ecoute를 설치하고 실행하기 위해 다음 단계를 따르세요.

  1. 명령을 사용하여 저장소를 복제하세요. git clone https://github.com/SevaSk/ecoute
  2. ecoute 폴더로 이동하세요. cd ecoute
  3. 필요한 패키지를 설치하려면 다음을 입력하세요. pip install -r requirements.txt

다음으로, Ecoute 디렉터리에 keys.py 파일을 만들고 OpenAI API 키를 추가해야 합니다. 이를 수행하는 두 가지 방법이 있습니다.

방법 1: 명령 프롬프트 사용다음 명령어를 실행하되, "API KEY"를 실제 OpenAI API 키로 교체해주세요:

python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY=\"API KEY\"')"

방법 2: 파일 수동으로 생성

텍스트 편집기를 열고 다음 내용을 입력하세요:

OPENAI_API_KEY="API KEY"

"API KEY"를 실제 OpenAI API 키로 교체하세요. 이 파일을 Ecoute 디렉토리 내에 keys.py로 저장하세요.

Ecoute 실행하기

'main.py' 스크립트를 실행하여 Ecoute를 실행할 수 있습니다: python main.py.

대부분의 언어를 지원하는 더욱 빠르고 향상된 버전을 사용하려면: python main.py --api

이 명령은 Whisper API를 사용하여 전사를 제공하며, 더욱 향상된 속도와 정확성이 제공됩니다. 전사가 실시간이 되기 전 시스템이 준비되는 데 몇 초가 걸릴 수 있음에 유의하세요.

고려사항: 한계와 전망

Ecoute는 실시간 전사와 응답 제안을 제공하지만, 다음과 같은 한계가 있습니다:

  • 기본 마이크 및 스피커: Ecoute는 시스템의 기본 마이크 및 스피커만 인식합니다. 다른 마이크 또는 스피커를 사용하려면 시스템 설정에서 기본 장치로 설정하세요.
  • Whisper 모델: --api 플래그가 없는 경우, Ecoute는 자원 소비가 적고 빠른 응답 시간을 제공하는 Whisper ASR 모델의 '작은' 버전을 사용합니다. 그러나 이 모델은 더 큰 모델보다 정확하게 특정 유형의 발화를 전사하지 못할 수 있습니다.
  • 언어: --api 플래그가 없는 경우, 사용되는 Whisper 모델은 영어로 설정됩니다. 비영어권 언어나 다이얼렉트의 경우 정확하게 전사하지 못할 수 있습니다.

이러한 한계를 극복하고 다국어 지원을 추가하는 노력이 계속되고 있으며, 향후 버전에서 이 한계를 극복할 전망입니다.

결론

Ecoute는 의사 소통 방식에 혁신을 일으킬 수 있는 혁신적인 도구입니다. 실시간 전사와 응답 제안 기능으로 인해 개인 및 전문적인 의사 소통에 있어서 매우 중요한 자산입니다. 한계가 있지만, Ecoute 프로젝트는 AI가 의사 소통의 미래에 대한 무한한 가능성을 제시하며, 매우 흥미로운 발전을 이루고 있습니다.