Herramientas, Modelos

Analizando LLaMA el modelo LLM de Facebook

By Sara Francisco

Revisamos las distintas tablas de rendimiento presentadas por Facebook sobre su nuevo modelo de lenguaje llamado LLaMA. Al igual que otros modelos de lenguaje grande, LLaMA funciona tomando una secuencia de palabras como entrada y predice la siguiente palabra para generar texto de forma recursiva. Para entrenar el modelo, eligieron texto de los 20 idiomas con más hablantes, enfocándonos en aquellos con alfabetos latino y cirílico.

Rendimiento Exact Match

Esta métrica es tan simple como parece. Para cada par de pregunta+respuesta, si los caracteres de la predicción del modelo coinciden exactamente con los caracteres de (una de) las respuestas verdaderas, EM = 1; de lo contrario, EM = 0. Esta es una métrica estricta de todo o nada; estar equivocado por un solo carácter da como resultado una puntuación de 0. Al evaluar contra un ejemplo negativo, si el modelo predice cualquier texto, automáticamente recibe un 0 para ése ejemplo.

Los datos de LLaMA son realmente buenos, no solo en el Modelo mayor (65B).

Modelo0-shot1-shot5-shot64-shot
GPT-3 175B14.623.029.9
Gopher 280B10.124.528.2
Chinchilla 70B16.631.535.5
PaLM 8B8.410.614.6
PaLM 62B18.126.527.6
LLaMA 7B16.818.722.026.1
LLaMA 13B20.123.428.131.9
LLaMA 33B24.928.332.936.0
LLaMA 65B23.831.035.039.9
NaturalQuestions. Exact match performance.

En la tabla se muestran los resultados de desempeño en términos de «Exact match performance» (rendimiento de coincidencia exacta) en el conjunto de datos Natural Questions en diferentes escenarios de prueba (0-shot, 1-shot, 5-shot y 64-shot).

Si analizamos solo los mejores modelos en términos de su desempeño en el conjunto de datos Natural Questions, podemos ver que LLaMA-65B es el modelo con mejor desempeño en la mayoría de los escenarios de prueba, obteniendo el puntaje más alto en 3 de los 4 escenarios de prueba. Chinchilla-70B también tiene un desempeño muy fuerte en el escenario de 64-shot, obteniendo el segundo puntaje más alto.

En el escenario de 0-shot, GPT-3-175B es el modelo con mejor desempeño, pero su desempeño se queda detrás de los modelos LLaMA y Chinchilla en los otros tres escenarios de prueba.

Pruebas con texto en Inglés

ModeloTamañoRACE-middleRACE-high
GPT-3175B58.445.5
PaLM8B57.942.3
PaLM62B64.347.5
PaLM540B68.149.1
LLaMA7B61.146.9
LLaMA13B61.647.2
LLaMA33B64.148.3
LLaMA65B67.951.6
Reading Comprehension. Zero-shot accuracy.

En general, los resultados muestran que los modelos LLaMA tienen un mejor rendimiento en la tarea de comprensión de lectura en RACE-middle y RACE-high en comparación con los modelos PaLM y GPT-3, especialmente en el caso de los modelos LLaMA más grandes (33B y 65B).

Aunque GPT-3 tiene un tamaño mucho mayor que todos los modelos LLaMA, su rendimiento en la tarea de comprensión de lectura es inferior en comparación con LLaMA.

Es importante tener en cuenta que estos resultados se refieren a la precisión en el entrenamiento «zero-shot», lo que significa que los modelos no han sido finamente ajustados para esta tarea específica. Los resultados pueden variar para otras tareas y configuraciones.

Tareas de comprensión del lenguaje

ModeloTamañoHumanidadesSTEMCiencias SocialesOtrosPromedio
GPT-NeoX 20B20B29.834.933.737.733.6
GPT-3 175B175B40.836.750.448.843.9
Gopher 280B280B56.247.471.966.160.0
Chinchilla 70B70B63.654.979.373.967.5
PaLM 8B8B25.623.824.127.825.4
PaLM 62B62B59.541.962.755.853.7
PaLM 540B540B77.055.681.069.669.3
LLaMA 7B7B34.030.538.338.135.1
LLaMA 13B13B45.035.853.853.3
LLaMA 33B33B55.846.066.763.457.8
LLaMA 65B65B61.851.772.967.463.4
Massive Multitask Language Understanding (MMLU). Five-shot accuracy

La tabla muestra los resultados de diferentes modelos de lenguaje en términos de su capacidad para realizar tareas de comprensión del lenguaje natural en varias áreas temáticas, como humanidades, STEM, ciencias sociales y otros.

Se puede observar que, en general, los modelos más grandes como Gopher y Chinchilla obtienen mejores resultados que los modelos más pequeños como PaLM y GPT-NeoX 20B. Específicamente, Chinchilla es el modelo con mejor rendimiento en todas las áreas temáticas, seguido de cerca por Gopher y LLaMA 65B.

Entre los modelos PaLM, se puede observar una mejora en el rendimiento a medida que el tamaño del modelo aumenta, con PaLM 540B siendo el mejor modelo de la serie en términos de promedio.

En comparación con los otros modelos, GPT-3 se encuentra en un rango medio en términos de rendimiento, con un rendimiento relativamente mejor en las áreas temáticas de ciencias sociales y otros.

- Lee el papel   

- Leer la tarjeta modelo - Solicitar acceso a LLaMA

Sara Francisco
Últimas entradas de Sara Francisco (ver todo)

Deja un comentario