OpenAI, una de las empresas líderes en inteligencia artificial, ha anunciado el lanzamiento de su último modelo de aprendizaje profundo, GPT-4. Este modelo multimodal, capaz de procesar tanto imágenes como texto y generar salidas de texto, ha sido diseñado para escalar el aprendizaje profundo a niveles nunca antes vistos.
GPT-4, un modelo con rendimiento humano en pruebas profesionales y académicas
Aunque GPT-4 no es tan capaz como los humanos en muchos escenarios del mundo real, ha demostrado un rendimiento a nivel humano en diversas pruebas profesionales y académicas. Por ejemplo, ha obtenido una puntuación en el examen de abogacía simulado que se encuentra en el 10% superior de los participantes, mientras que su predecesor, GPT-3.5, obtuvo una puntuación en el 10% inferior.
OpenAI ha trabajado durante seis meses en la alineación iterativa de GPT-4, utilizando lecciones de su programa de pruebas adversariales y ChatGPT, lo que ha dado como resultado los mejores resultados hasta la fecha en cuanto a veracidad, manejabilidad y capacidad para no salirse de los límites.
Una nueva era en el aprendizaje profundo
Durante los últimos dos años, OpenAI ha reconstruido todo su sistema de aprendizaje profundo y, en colaboración con Azure, ha diseñado un superordenador desde cero para su carga de trabajo. Hace un año, entrenaron a GPT-3.5 como una primera «prueba» del sistema. Encontraron y corrigieron algunos errores y mejoraron sus fundamentos teóricos. Como resultado, la ejecución de entrenamiento de GPT-4 fue (al menos para ellos) excepcionalmente estable, convirtiéndose en su primer modelo grande cuyo rendimiento de entrenamiento pudieron predecir con precisión de antemano.
OpenAI se centra en la escalabilidad fiable y tiene como objetivo perfeccionar su metodología para ayudarles a predecir y prepararse para futuras capacidades cada vez más avanzadas, algo que consideran crítico para la seguridad.
Capacidades de GPT-4
En una conversación casual, la distinción entre GPT-3.5 y GPT-4 puede ser sutil. La diferencia se hace evidente cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más fiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5.
Para entender la diferencia entre los dos modelos, se realizaron pruebas en una variedad de benchmarks, incluyendo la simulación de exámenes diseñados originalmente para humanos. Se utilizaron las pruebas más recientes disponibles públicamente (en el caso de los Juegos Olímpicos y las preguntas de respuesta libre de AP) o se compraron ediciones de práctica de 2022-2023. No se realizó ningún entrenamiento específico para estas pruebas. Una minoría de los problemas en los exámenes fueron vistos por el modelo durante el entrenamiento, pero se cree que los resultados son representativos.
Además, OpenAI ha evaluado GPT-4 en benchmarks tradicionales diseñados para el aprendizaje automático.
Exámenes simulados | GPT-4 | GPT-4 (sin visión) | GPT-3.5 |
---|---|---|---|
Examen de abogacía uniforme (MBE+MEE+MPT) | 298/400 | 298/400 | 213/400 |
LSAT | 163 | 161 | 149 |
SAT Lectura y Escritura Basada en Evidencia | 710/800 | 710/800 | 670/800 |
SAT Matemáticas | 700/800 | 690/800 | 590/800 |
Examen cuantitativo de posgrado (GRE) | 163/170 | 157/170 | 147/170 |
Examen verbal de posgrado (GRE) | 169/170 | 165/170 | 154/170 |
Escritura de posgrado (GRE) | 4/6 | 4/6 | 4/6 |
Examen semifinal de USABO 2020 | 87/150 | 87/150 | 43/150 |
Examen de sección local de USNCO 2022 | 36/60 | 38/60 | 24/60 |
Programa de autoevaluación de conocimientos médicos | 75% | 75% | 53% |
Clasificación de Codeforces | 392 | 392 | 260 |
Historia del arte de AP | 5 | 5 | 5 |
Biología de AP | 5 | 5 | 4 |
Cálculo BC de AP | 4 | 4 | 1 |
Disponibilidad de GPT-4
OpenAI ha anunciado que la capacidad de entrada de texto de GPT-4 estará disponible a través de ChatGPT y la API (con una lista de espera). Para preparar la capacidad de entrada de imágenes para una mayor disponibilidad, están colaborando estrechamente con un único socio para empezar. También han abierto el código fuente de OpenAI Evals, su marco de evaluación automatizada del rendimiento del modelo de IA, para permitir que cualquiera informe de las deficiencias en sus modelos y guíe futuras mejoras.0
El Resumen
- ¿Qué es GPT 4 y cuál es su capacidad en comparación con los humanos en escenarios del mundo real? GPT-4 es un modelo multimodal creado por OpenAI para escalar el aprendizaje profundo. Acepta entradas de texto e imagen y emite salidas de texto. Aunque es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios benchmarks profesionales y académicos. Por ejemplo, pasa un examen de barra simulado con una puntuación alrededor del 10% superior de los examinados; en contraste, la puntuación de GPT-3.5 fue alrededor del 10% inferior. En una conversación casual, la distinción entre GPT-3.5 y GPT-4 puede ser sutil, pero la diferencia se hace evidente cuando la complejidad de la tarea alcanza un umbral suficiente. GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5. En resumen, GPT-4 es un modelo de inteligencia artificial avanzado que tiene un rendimiento a nivel humano en ciertos benchmarks, pero aún no es tan capaz como los humanos en muchos escenarios del mundo real.
- ¿Cuánto tiempo se tardó en alinear GPT 4 y qué resultados se obtuvieron en cuanto a factibilidad, maniobrabilidad y negativa a salirse de los límites? Se tardó 6 meses en alinear GPT-4 utilizando lecciones de un programa de pruebas adversarias y ChatGPT. Como resultado, se obtuvieron los mejores resultados hasta ahora en cuanto a factibilidad, maniobrabilidad y negativa a salirse de los límites, aunque aún no son perfectos. Además, se reconstruyó todo el sistema de aprendizaje profundo en los últimos dos años y se diseñó una supercomputadora desde cero en colaboración con Azure para el trabajo de OpenAI. Hace un año, se entrenó GPT-3.5 como una primera «prueba» del sistema, se encontraron y corrigieron errores y se mejoraron las bases teóricas. El entrenamiento de GPT-4 fue excepcionalmente estable y se convirtió en el primer modelo grande cuyo rendimiento de entrenamiento se pudo predecir con precisión de antemano. En resumen, se tardó 6 meses en alinear GPT-4 y se obtuvieron resultados muy positivos en cuanto a factibilidad, maniobrabilidad y negativa a salirse de los límites.
- ¿Qué es OpenAI Evals y por qué se está abriendo al público? OpenAI Evals es un marco de evaluación automatizado del rendimiento de modelos de inteligencia artificial. Se está abriendo al público para permitir que cualquier persona informe sobre las deficiencias en los modelos de OpenAI y así ayudar a guiar futuras mejoras. Esto es parte de los esfuerzos de OpenAI para escalar el aprendizaje profundo y mejorar el rendimiento de sus modelos, como el reciente lanzamiento de GPT-4, un modelo multimodal que exhibe un rendimiento a nivel humano en varias pruebas profesionales y académicas. OpenAI ha pasado seis meses alineando GPT-4 utilizando lecciones de su programa de pruebas adversariales y ChatGPT, lo que ha resultado en sus mejores resultados hasta la fecha en factibilidad, manejabilidad y capacidad de permanecer dentro de los límites establecidos.
- [con]Neurona #18 - 24 de junio de 2023
- Snowflake en conversaciones avanzadas para adquirir la startup de búsqueda de inteligencia artificial Neeva - 18 de mayo de 2023
- La importancia de la anotación de la tonalidad de piel en la visión por computadora - 16 de mayo de 2023