InstructGPT: El poder oculto detrás de ChatGPT

Name: Kana Mikami

Updated on 6/6/2023

¿Alguna vez has imaginado un mundo donde la inteligencia artificial pueda ser guiada por comentarios humanos para seguir instrucciones con precisión? Si lo has hecho, tu imaginación se ha convertido en realidad, gracias a InstructGPT. Desarrollado por OpenAI, este modelo hermano de ChatGPT (también conocido como GPT-3.5) alinea los modelos de lenguaje con los usuarios para superar algunas de las limitaciones comunes que a menudo vemos en los modelos de lenguaje grandes (LLMs), como salidas falsas, tóxicas o no útiles. Pero, ¿cómo logra InstructGPT esta hazaña? Sumergámonos más profundamente en sus fascinantes mecanismos internos.

Analizando InstructGPT

InstructGPT utiliza un proceso de tres pasos para alinearse con los usuarios: ajuste fino supervisado (SFT), entrenamiento del modelo de recompensa (RM) y aprendizaje por refuerzo a través de la optimización de la política proximal (PPO). Esto puede sonar un poco complicado al principio, pero acompáñame mientras profundizamos en cada uno de estos pasos.

Paso 1: Ajuste fino supervisado (SFT)

En el corazón de InstructGPT hay un modelo de lenguaje pre-entrenado, GPT-3, que se utiliza como punto de partida. El primer paso en este revolucionario proceso implica la recopilación de datos de demostración y el entrenamiento de una política supervisada. En términos simples, los etiquetadores humanos proporcionan demostraciones del comportamiento deseado en la distribución de las sugerencias de entrada. Luego, GPT-3 se ajusta finamente utilizando estos datos mediante el aprendizaje supervisado, lo que lo hace mejor equipado para imitar las respuestas humanas.

Paso 2: Entrenamiento del modelo de recompensa (RM)

Con el modelo GPT-3 ajustado, el proceso pasa al segundo paso: el entrenamiento del modelo de recompensa. Aquí, se recopilan datos de comparación y los etiquetadores indican su salida preferida para cada entrada dada. Luego, se entrena un modelo de recompensa para predecir esta salida preferida por los humanos, refinando aún más la comprensión del modelo de las respuestas de alta calidad.

Paso 3: Aprendizaje por refuerzo a través de la optimización de la política proximal (PPO)

Por último, la política ajustada se optimiza contra el modelo de recompensa utilizando un enfoque conocido como Optimización de Política Proximal (PPO). Esta es una técnica de aprendizaje por refuerzo donde la salida del modelo de recompensa se utiliza como recompensa escalar. PPO permite que InstructGPT optimice sus salidas en función del aprendizaje previo, mejorando constantemente con el tiempo.

El poder de la iteración

Lo que hace que InstructGPT sea realmente notable es su proceso iterativo. Los pasos 2 y 3 - el entrenamiento del modelo de recompensa y el aprendizaje por refuerzo - se pueden repetir continuamente. A medida que se recopilan más datos de comparación, se entrena un nuevo modelo de recompensa y, posteriormente, se optimiza una nueva política. Esta iteración continua hace que InstructGPT sea increíblemente versátil y adaptable, siempre aprendiendo y mejorando a partir de nuevos datos.

Generación de conjuntos de datos: el combustible para InstructGPT

InstructGPT funciona con un conjunto de datos de sugerencias, compuesto principalmente por sugerencias de texto enviadas a la API de OpenAI. Estas sugerencias se encuentran en gran medida en casos de uso generativos, proporcionando una amplia gama de escenarios para que el modelo aprenda.

Este proceso de aprendizaje iterativo basado en comentarios da a InstructGPT una habilidad única para mejorar sus respuestas con el tiempo, alinear continuamente su salida con las expectativas humanas. Y aunque es un avance emocionante en el campo de la IA, también es el resultado de un esfuerzo considerable de un equipo de profesionales dedicados. Un grupo de aproximadamente 40 contratistas se reclutó para crear datos de demostración y comparación, así como para evaluar el rendimiento del modelo.

Así que ahora sabes un poco sobre los mecanismos internos de InstructGPT y su proceso de entrenamiento iterativo. En la siguiente sección, veremos cómo se desempeña este modelo y cómo se compara con su predecesor, GPT-3.

InstructGPT Vs. GPT-3: Un análisis comparativo

Para apreciar realmente el genio de InstructGPT, es esencial comparar su rendimiento con el de su predecesor, GPT-3. Veamos cómo se compara InstructGPT con GPT-3 en varias áreas clave.

Mejora en la comprensión contextual

Una de las mejoras más significativas en InstructGPT es su comprensión contextual. En comparación con GPT-3, InstructGPT proporciona salidas que son más contextualmente apropiadas, adhiriéndose mejor a las restricciones explícitas definidas en la instrucción, como "Escriba su respuesta en dos párrafos o menos".

Mayor confiabilidad y control.InstructGPT ha demostrado ser más confiable y más fácil de controlar que GPT-3. Tiene una probabilidad reducida de desviarse de la instrucción prevista o generar hechos falsos, comúnmente conocidos como "alucinaciones" en tareas de dominio cerrado.

Mejor control de la veracidad y la toxicidad

InstructGPT también ha mostrado mejoras en las áreas de veracidad y toxicidad. Según evaluaciones en el conjunto de datos TruthfulQA, los modelos InstructGPT son más veraces que sus contrapartes de GPT-3. Además, cuando se instruye para producir resultados seguros y respetuosos, los modelos InstructGPT generan menos resultados tóxicos que GPT-3, según la API Perspective.

Sin embargo, no todo es fácil. InstructGPT aún comete errores. Por ejemplo, puede asumir incorrectamente que una premisa falsa es verdadera o excederse en sus respuestas. Estos pequeños problemas nos recuerdan que, aunque la IA ha recorrido un largo camino, no es perfecta y la mejora continua es clave.

En conclusión, si bien está claro que InstructGPT tiene numerosas ventajas sobre GPT-3, su desarrollo es un testimonio del poder del feedback humano en la mejora de los modelos de IA. Su proceso iterativo impulsado por feedback humano lo convierte en un modelo versátil y dinámico que promete revolucionar el futuro de la IA.

Preguntas frecuentes

Ahora, respondamos algunas preguntas frecuentes sobre InstructGPT:

¿Qué es InstructGPT?

InstructGPT es un modelo de IA desarrollado por OpenAI. Utiliza un proceso único de tres pasos, que incluye ajuste fino supervisado (SFT), entrenamiento del modelo de recompensa (RM) y aprendizaje por refuerzo mediante la optimización de la política proximal (PPO), para mejorar su capacidad para seguir instrucciones.

¿Cómo difiere InstructGPT de GPT-3?

InstructGPT muestra mejoras significativas sobre GPT-3 en varias áreas. Estas incluyen una mejor comprensión contextual, mejor confiabilidad y control y un mejor control de la veracidad y la toxicidad.

¿Comete errores InstructGPT?

Sí, InstructGPT, como cualquier modelo de IA, no es perfecto y puede cometer errores. Sin embargo, está diseñado para aprender de estos errores y mejorar continuamente su rendimiento con el tiempo.