Skip to content
설문 리뷰: OpenAI GPT-4.5 출시 탐구

설문 리뷰: OpenAI GPT-4.5 출시 탐구

Updated on

OpenAI의 GPT-4.5 출시 버전 '오리온'을 탐구하는 설문 리뷰로, 기술 사양, 벤치마크 성능, 비교 분석 등을 다룹니다.

소개

인공지능 연구 및 배포 분야의 선두주자인 OpenAI는 2025년 2월 GPT-4.5를 출시했습니다. 코드네임은 오리온(Orion)으로, 대규모 언어 모델(LLM)의 발전을 이어가기 위한 지속적인 노력의 일환입니다. 2025년 2월 27일 발표된 이번 출시는 지금까지의 모델 중 가장 크고 깊은 지식을 갖춘 모델로, 사용자 상호작용 개선 및 오류 감소를 목표로 하고 있습니다. 본 리뷰는 자세한 기술 사양, 벤치마크 성능, 기존 모델 및 경쟁업체와의 비교를 통해 기술 애호가들과 전문가들을 위한 포괄적인 개요를 제공합니다.

배경 및 출시 맥락

GPT-4.5의 출시는 AI 분야가 빠르게 발전하는 가운데 이루어졌으며, Anthropic 및 DeepSeek 같이 추론 능력과 효율성을 향상시키려는 경쟁자들이 활발히 움직이고 있습니다. OpenAI는 이번 발표를 TechCrunch (opens in a new tab)WIRED (opens in a new tab) 등 여러 기술 뉴스 매체를 통해 공개하고, 월 200달러의 ChatGPT 프로 구독자를 대상으로 연구용 프리뷰 형태로 제공된다고 밝혔으며, 이후 기타 유료 구독에도 점차 적용할 예정입니다. 이는 OpenAI가 보다 넓은 배포 전에 사용자 피드백을 먼저 받으려는 전략을 반영한 것으로, josuenunez_ai (opens in a new tab)의 X 포스팅에서도 언급되었듯이 평가받고 있습니다.

기술 사양

GPT-4.5는 OpenAI 사상 최대의 모델로 표현되었지만, GPT-4(Wikipedia (opens in a new tab))와 같은 기존 모델 출시 때와 같이 파라미터 수나 훈련 데이터셋 크기와 같은 구체적인 사항은 공개되지 않았습니다. 주요 기술적 특징은 다음과 같습니다.

  • 컨텍스트 윈도우: josuenunez_ai (opens in a new tab)의 X 포스트에 따르면 큰 폭으로 확장된 128,000 토큰을 지원하여, 긴 대화 및 문서를 더욱 잘 처리할 수 있으며 GPT-4를 크게 능가합니다.
  • 계산 효율성: Iamtoxix (opens in a new tab)의 X 포스트에 따르면 GPT-4 대비 10배 이상의 효율성 향상이 있어, 모델의 크기에도 불구하고 리소스를 매우 효율적으로 사용합니다.
  • 비 프런티어 모델 (Non-Frontier Model): OpenAI는 GPT-4.5가 AI의 역량 및 잠재적 위험 측면에서 새로운 한계를 넘어서는 프런티어 모델이 아님을 TechCrunch (opens in a new tab)에서 명시하였습니다.

이러한 기술적 정보의 제한적 공개는 일반적이지만, 일부 X 포스트(daniel_nguyenx (opens in a new tab))는 이 모델의 멀티모달 능력 등을 언급하고 있으나, 이는 추측성으로 아직 명확히 확인되지 않았습니다.

벤치마크 성능

각종 기술 플랫폼에서 보고된 벤치마크 결과를 통해 GPT-4.5의 성능을 확인할 수 있습니다.

  • SimpleQA 정확도 및 환각(Hallucination): GPT-4.5의 SimpleQA 테스트 결과 37.1%의 환각오류를 보였으며, GPT-4o(59.8%), o3-mini(80.3%) 대비 훨씬 개선된 모습입니다(MIT Technology Review (opens in a new tab)).
  • 수학과 과학 분야: GPT-4o 대비 수학 27.4%, 과학 17.8% 향상이 있으며(Vellum (opens in a new tab)), 사실적 추론 능력이 개선되었습니다.
  • 코딩 및 다국어 과제: SWE-Lancer Diamond 테스트에서 o3-mini(23.3%)보다 높은 32.6%로 우수한 코딩 성능을 보였고, 다국어 테스트에서도 3.6%의 점진적 향상이 확인되었습니다(Vellum (opens in a new tab)).
  • 사용자 선호도: 사용자는 일상, 전문 분야 및 창의적 작업(시, ASCII 아트 등)에 GPT-4.5를 선호했습니다(ZDNET (opens in a new tab)).

그러나 GPT-4.5는 일부 전문적인 추론 과제에서는 o3-mini보다 성능이 떨어졌습니다(WIRED (opens in a new tab)). 이는 다목적 모델과 전문적인 추론 모델 간의 트레이드오프를 의미할 수 있습니다.

이전 모델과의 비교

  • GPT-4: 깊은 세계 지식, 높은 정서 지능 및 매우 넓은 컨텍스트 윈도우(128k)로 GPT-4의 8k 또는 32k를 뛰어넘는 성능을 제공합니다.
  • GPT-4o: GPT-4o는 멀티모달 기능을 중점으로 두는 반면, GPT-4.5는 텍스트 기반 상호작용 강화 및 지식 향상에 초점을 둡니다.
  • 이유 모델(o1, o3-mini): GPT-4.5는 전문적인 수학/과학 과제에서 다소 부족함에도 불구하고 다목적 사용 환경에서 또렷한 장점이 있습니다.

경쟁 모델과의 비교

  • Anthropic의 Claude 3.5 Sonnet: 복잡한 문제 해결에서 강력하나 GPT-4.5의 일반 목적 활용 가능성이 더 높아 보입니다.
  • Google의 Gemini 1.5 Pro: 비디오 이해 기능은 뛰어나나, 텍스트 집중 작업에서는 GPT-4.5가 우위를 점할 가능성이 있습니다.

가격 및 접근성

API 비용은 매우 높아, 입력 토큰 백만당 $75, 출력 토큰 백만당 $150로 이전 모델보다 훨씬 비싸 질문점이 되고 있습니다.

결론

GPT-4.5는 강력한 지식, 환각 감소 및 뛰어난 대화 능력으로 뛰어난 다목적 모델이지만 고비용 문제가 있어, 장기적 타당성은 앞으로 더 평가될 필요가 있습니다.

📚