InstructGPT: ChatGPT 뒤에 숨겨진 힘
Updated on
인공 지능이 인간 피드백에 따라 명확한 지시에 따르도록 안내될 수 있는 세상을 상상해보았던 적이 있나요? 그렇다면 InstructGPT 덕분에 당신의 상상이 현실이 되었습니다. OpenAI에서 개발한 이 모델은 ChatGPT의 동생 모델로서 (또한 GPT-3.5로도 알려져 있음) 언어 모델과 사용자를 조율하여 대규모 언어 모델 (LLM)에서 종종 볼 수 있는 거짓, 독성 또는 쓸모없는 출력과 같은 일반적인 한계를 극복합니다. 그렇다면 InstructGPT는 어떻게 이런 성과를 이루는 걸까요? 멋진 내부 작동 방식을 자세히 살펴보겠습니다.
InstructGPT 분해하기
InstructGPT는 사용자와 일치하도록 하는 세 단계 과정을 적용합니다: 지도형 미세 조정(SFT), 보상 모델(RM) 훈련, 근접 정책 최적화(PPO)를 통한 강화 학습. 최초에는 이 말이 어려울 수 있지만, 이 세 단계를 개별적으로 다루는 과정에서 이해하실 수 있을 겁니다.
단계 1: 지도형 미세 조정(SFT)
InstructGPT의 핵심은 시작점으로 사용되는 미리 학습된 언어 모델인 GPT-3입니다. 이 혁신적인 과정의 첫 번째 단계는 데모 데이터 수집과 지도형 정책 교육입니다. 간단히 말해, 인간 리벨러는 입력 프롬프트 분포에서 원하는 동작을 데모로 제공합니다. 그런 다음, GPT-3는 이 데이터를 이용해 지도형 학습을 통해 더욱 사람 반응을 모방할 수 있도록 미세 조정됩니다.
단계 2: 보상 모델(RM) 훈련
미세 조정된 GPT-3 모델을 사용하여 프로세스는 두 번째 단계인 보상 모델 훈련으로 진행됩니다. 여기서는 비교 데이터가 수집되며, 라벨러는 각 주어진 입력에 대한 우선적인 출력을 지정합니다. 보상 모델을 훈련하여 인간 우선 출력을 예측하도록 하여 모델의 고품질 반응 이해력을 더욱 개선합니다.
단계 3: 근접 정책 최적화(PPO)를 통한 강화 학습
마지막으로, 미세 조정된 정책은 근접 정책 최적화(PPO)라는 접근법을 사용하여 보상 모델에 대한 최적화를 수행합니다. 이것은 보상 모델의 출력이 스칼라 보상으로 사용되는 강화 학습 기술입니다. PPO는 InstructGPT가 이전 학습 내용을 기반으로 출력을 최적화하도록하는 데 도움이 됩니다.
반복력의 힘
InstructGPT를 정말 특별하게 만드는 것은 반복력의 힘입니다. 보상 모델 훈련 및 강화 학습인 단계 2, 3은 연속적으로 반복될 수 있습니다. 보다 많은 비교 데이터가 수집되면 새로운 보상 모델이 훈련되고, 이어서 새로운 정책이 최적화됩니다. 이 지속적인 반복은 InstructGPT를 매우 유연하고 적응력 강한 모델로 만들어, 새로운 데이터를 항상 학습하고 개선합니다.
데이터셋 생성: InstructGPT의 연료
InstructGPT는 대개 OpenAI API에 제출된 텍스트 프롬프트로 구성된 프롬프트 데이터세트로 구동됩니다. 이 프롬프트 데이터는 주로 생성 용도에 속하며, 모델이 학습할 수 있는 다양한 시나리오를 제공합니다.
이 반복적인 피드백 기반 학습 과정은 InstructGPT가 시간이 지남에 따라 반응을 단계적으로 개선하고 항상 인간 기대치에 맞추도록 출력을 조정하는 독특한 능력을 부여합니다. 그리고 AI 분야에서의 흥미로운 발전이지만, 이는 전문가 그룹으로 구성된 팀의 상당한 노력의 결과이기도 합니다. 약 40명의 계약자 그룹이 데모 및 비교 데이터를 작성하고 모델의 성능을 평가하는 데 참여했습니다.
그러므로 이제 InstructGPT의 내부 작동 방식과 반복적인 교육 과정에 대해 약간 알게 되었습니다. 다음 섹션에서는 이 모델의 성능과 이전 모델인 GPT-3와의 비교에 대해 살펴볼 것입니다.
InstructGPT 대 GPT-3: 비교 분석
InstructGPT의 신기술을 깊이 이해하려면 이전 모델인 GPT-3와의 성능을 비교해야 합니다. InstructGPT와 GPT-3를 몇 가지 핵심 영역에서 비교해보겠습니다.
개선된 문맥 이해력
InstructGPT에서 가장 큰 개선 사항 중 하나는 문맥 이해력입니다. GPT-3와 비교하여 InstructGPT는 "두 단락 이하로 답변을 작성하십시오"와 같이 명시적으로 정의된 제약 조건에 더 잘 부합하는 출력을 제공합니다.
개InstructGPT는 GPT-3보다 더 신뢰성이 높고 제어하기 쉬운 것으로 나타났습니다. 닫힌 도메인 작업에서 '환각'이라고 일반적으로 지칭되는 의도한 지시에서 벗어날 가능성 및 잘못된 사실을 생성하는 것을 줄였습니다.
더 나은 진실성 및 독성 제어
InstructGPT는 진실성 및 독성의 영역에서도 개선점을 보였습니다. TruthfulQA 데이터 세트에서 평가에 따르면 InstructGPT 모델은 GPT-3 모델보다 더 진실성이 높습니다. 또한 안전하고 존중적인 출력을 생성하도록 지시된 경우, Perspective API에 따라 InstructGPT 모델은 GPT-3보다 독성이 적은 출력을 생성합니다.
하지만 모든 것이 순조롭지는 않습니다. InstructGPT는 여전히 실수를 합니다. 예를 들어, 잘못된 전제를 참으로 가정하거나 답변을 과도하게 경계하는 경우가 있습니다. 이러한 작은 결함은 AI가 크게 발전하였지만 무결함이 아니며 지속적인 개선이 필요함을 상기시킵니다.
결론적으로 InstructGPT가 GPT-3보다 많은 장점을 가지고 있으나, 이는 AI 모델을 개선하는 인간의 피드백의 힘의 증거입니다. 반복적인 인간 피드백 기반의 프로세스는 InstructGPT를 다용도적이고 동적인 모델로 만들며, AI의 미래를 혁신할 것으로 약속합니다.
FAQ
이제 InstructGPT에 대한 일반적인 질문에 대해 알아보겠습니다.
InstructGPT는 무엇인가요?
InstructGPT는 OpenAI에서 개발한 AI 모델입니다. 지시를 따르는 능력을 향상시키기 위해 감독 학습 (SFT), 보상 모델 (RM) 훈련 및 투성계 정책 최적화 (PPO)를 통한 강화 학습을 포함하는 독특한 3단계 과정을 사용합니다.
InstructGPT는 GPT-3와 어떻게 다른가요?
InstructGPT는 몇 가지 영역에서 GPT-3보다 상당한 개선을 보입니다. 이들은 더 나은 문맥 이해, 개선된 신뢰성 및 제어, 향상된 진실성 및 독성 제어 등이 포함됩니다.
InstructGPT는 실수를 할까요?
네, InstructGPT도 다른 AI 모델과 마찬가지로 완벽하지는 않으며 실수를 할 수 있습니다. 그러나 이 모델은 이러한 실수로부터 배우고 시간이 지남에 따라 성능을 지속적으로 개선하도록 설계되어 있습니다.