Revisamos las distintas tablas de rendimiento presentadas por Facebook sobre su nuevo modelo de lenguaje llamado LLaMA. Al igual que otros modelos de lenguaje grande, LLaMA funciona tomando una secuencia de palabras como entrada y predice la siguiente palabra para generar texto de forma recursiva. Para entrenar el modelo, eligieron texto de los 20 idiomas con más hablantes, enfocándonos en aquellos con alfabetos latino y cirílico.
Rendimiento Exact Match
Esta métrica es tan simple como parece. Para cada par de pregunta+respuesta, si los caracteres de la predicción del modelo coinciden exactamente con los caracteres de (una de) las respuestas verdaderas, EM = 1; de lo contrario, EM = 0. Esta es una métrica estricta de todo o nada; estar equivocado por un solo carácter da como resultado una puntuación de 0. Al evaluar contra un ejemplo negativo, si el modelo predice cualquier texto, automáticamente recibe un 0 para ése ejemplo.
Los datos de LLaMA son realmente buenos, no solo en el Modelo mayor (65B).
Modelo | 0-shot | 1-shot | 5-shot | 64-shot |
---|---|---|---|---|
GPT-3 175B | 14.6 | 23.0 | – | 29.9 |
Gopher 280B | 10.1 | – | 24.5 | 28.2 |
Chinchilla 70B | 16.6 | – | 31.5 | 35.5 |
PaLM 8B | 8.4 | 10.6 | – | 14.6 |
PaLM 62B | 18.1 | 26.5 | – | 27.6 |
LLaMA 7B | 16.8 | 18.7 | 22.0 | 26.1 |
LLaMA 13B | 20.1 | 23.4 | 28.1 | 31.9 |
LLaMA 33B | 24.9 | 28.3 | 32.9 | 36.0 |
LLaMA 65B | 23.8 | 31.0 | 35.0 | 39.9 |
En la tabla se muestran los resultados de desempeño en términos de «Exact match performance» (rendimiento de coincidencia exacta) en el conjunto de datos Natural Questions en diferentes escenarios de prueba (0-shot, 1-shot, 5-shot y 64-shot).
Si analizamos solo los mejores modelos en términos de su desempeño en el conjunto de datos Natural Questions, podemos ver que LLaMA-65B es el modelo con mejor desempeño en la mayoría de los escenarios de prueba, obteniendo el puntaje más alto en 3 de los 4 escenarios de prueba. Chinchilla-70B también tiene un desempeño muy fuerte en el escenario de 64-shot, obteniendo el segundo puntaje más alto.
En el escenario de 0-shot, GPT-3-175B es el modelo con mejor desempeño, pero su desempeño se queda detrás de los modelos LLaMA y Chinchilla en los otros tres escenarios de prueba.
Pruebas con texto en Inglés
Modelo | Tamaño | RACE-middle | RACE-high |
---|---|---|---|
GPT-3 | 175B | 58.4 | 45.5 |
PaLM | 8B | 57.9 | 42.3 |
PaLM | 62B | 64.3 | 47.5 |
PaLM | 540B | 68.1 | 49.1 |
LLaMA | 7B | 61.1 | 46.9 |
LLaMA | 13B | 61.6 | 47.2 |
LLaMA | 33B | 64.1 | 48.3 |
LLaMA | 65B | 67.9 | 51.6 |
En general, los resultados muestran que los modelos LLaMA tienen un mejor rendimiento en la tarea de comprensión de lectura en RACE-middle y RACE-high en comparación con los modelos PaLM y GPT-3, especialmente en el caso de los modelos LLaMA más grandes (33B y 65B).
Aunque GPT-3 tiene un tamaño mucho mayor que todos los modelos LLaMA, su rendimiento en la tarea de comprensión de lectura es inferior en comparación con LLaMA.
Es importante tener en cuenta que estos resultados se refieren a la precisión en el entrenamiento «zero-shot», lo que significa que los modelos no han sido finamente ajustados para esta tarea específica. Los resultados pueden variar para otras tareas y configuraciones.
Tareas de comprensión del lenguaje
Modelo | Tamaño | Humanidades | STEM | Ciencias Sociales | Otros | Promedio |
---|---|---|---|---|---|---|
GPT-NeoX 20B | 20B | 29.8 | 34.9 | 33.7 | 37.7 | 33.6 |
GPT-3 175B | 175B | 40.8 | 36.7 | 50.4 | 48.8 | 43.9 |
Gopher 280B | 280B | 56.2 | 47.4 | 71.9 | 66.1 | 60.0 |
Chinchilla 70B | 70B | 63.6 | 54.9 | 79.3 | 73.9 | 67.5 |
PaLM 8B | 8B | 25.6 | 23.8 | 24.1 | 27.8 | 25.4 |
PaLM 62B | 62B | 59.5 | 41.9 | 62.7 | 55.8 | 53.7 |
PaLM 540B | 540B | 77.0 | 55.6 | 81.0 | 69.6 | 69.3 |
LLaMA 7B | 7B | 34.0 | 30.5 | 38.3 | 38.1 | 35.1 |
LLaMA 13B | 13B | 45.0 | 35.8 | 53.8 | 53.3 | |
LLaMA 33B | 33B | 55.8 | 46.0 | 66.7 | 63.4 | 57.8 |
LLaMA 65B | 65B | 61.8 | 51.7 | 72.9 | 67.4 | 63.4 |
La tabla muestra los resultados de diferentes modelos de lenguaje en términos de su capacidad para realizar tareas de comprensión del lenguaje natural en varias áreas temáticas, como humanidades, STEM, ciencias sociales y otros.
Se puede observar que, en general, los modelos más grandes como Gopher y Chinchilla obtienen mejores resultados que los modelos más pequeños como PaLM y GPT-NeoX 20B. Específicamente, Chinchilla es el modelo con mejor rendimiento en todas las áreas temáticas, seguido de cerca por Gopher y LLaMA 65B.
Entre los modelos PaLM, se puede observar una mejora en el rendimiento a medida que el tamaño del modelo aumenta, con PaLM 540B siendo el mejor modelo de la serie en términos de promedio.
En comparación con los otros modelos, GPT-3 se encuentra en un rango medio en términos de rendimiento, con un rendimiento relativamente mejor en las áreas temáticas de ciencias sociales y otros.
- Lee el papel
- [con]Neurona #26 - 18 de diciembre de 2023
- [con]Neurona #25 - 10 de diciembre de 2023
- [con]Neurona #24 - 2 de diciembre de 2023