Herramientas, Noticias

Cerebras-GPT: nuevas oportunidades para el desarrollo de LLM abiertos

By Sofia Ortiz

La inteligencia artificial tiene un gran potencial para transformar la economía mundial, y esto sucederá sin el acceso no está cerrado. Los últimos modelos de lenguaje grandes (LLMs, por sus siglas en inglés) – incluyendo el GPT 4 de OpenAI– se han lanzado sin información sobre su arquitectura, los datos de entrenamiento, la infraestructura utilizada o los hiperparámetros. Cada vez más empresas desarrollan grandes modelos utilizando conjuntos de datos cerrados y ofreciendo sus resultados sólo a través de acceso API.

Para que los LLM sean una tecnología abierta y accesible, Cerebras cree que es importante tener acceso a modelos de última generación que sean abiertos, replicables y libres de regalías tanto para aplicaciones comerciales como de investigación. Con este fin, han entrenado una familia de modelos de transformador utilizando los últimos métodos y conjuntos de datos abiertos que llamamos Cerebras-GPT. Estos modelos son la primera familia de modelos de GPT entrenados utilizando la fórmula Chinchilla y distribuidos a través de la licencia Apache 2.0.

Cerebras-GPT se compone de siete modelos con 111 millones, 256 millones, 590 millones, 1,3 mil millones, 2,7 mil millones, 6,7 mil millones y 13 mil millones de parámetros, todos entrenados utilizando 20 tokens por parámetro. Al utilizar los tokens de entrenamiento óptimos para cada tamaño de modelo, Cerebras-GPT logra la pérdida más baja por unidad de informática para todos los tamaños de modelo.

Entrenar un gran modelo de lenguaje puede ser un proceso costoso y que lleva mucho tiempo. Se requiere una cantidad significativa de recursos informáticos y experiencia para optimizar el rendimiento del modelo. Una forma de abordar este desafío es entrenar una familia de modelos de diferentes tamaños, lo que puede ayudar a establecer una ley de escala que describa la relación entre la computación de entrenamiento y el rendimiento del modelo.

Las leyes de escala son vitales para el desarrollo de LLM, ya que permiten a los investigadores predecir la pérdida esperada de un modelo antes de entrenarla, evitando así la costosa búsqueda de hiperparámetros.

Cerebras, cree que democratizar los grandes modelos requiere tanto solucionar el desafío de la infraestructura de entrenamiento como abrir más modelos a la comunidad. Con este fin, han diseñado el Cerebras Wafer-Scale Cluster con funciones básicas de escalabilidad, y están compartiendo abiertamente la familia Cerebras-GPT de modelos generativos grandes. Esperan que, como la primera serie pública de modelos GPT grandes con una eficiencia de entrenamiento de última generación, Cerebras-GPT sirva como una receta para el entrenamiento eficiente y como una referencia para una mayor investigación comunitaria en este espacio.

Además, están poniendo tanto la infraestructura como los modelos a disposición en la nube a través del Cerebras AI Model Studio. Creen que es a través de una mejor infraestructura de entrenamiento y un mayor intercambio comunitario que se puede avanzar en la industria de la inteligencia artificial generativa a gran escala.

Todo esto se ha realizado utilizando el superordenador Andrómeda.

Andrómeda

Andromeda, un superordenador de inteligencia artificial con 13,5 millones de núcleos. Este súper equipo, que consta de 16 sistemas Cerebras CS-2, tiene una capacidad de cálculo de más de 1 exaflops de informática de inteligencia artificial y 120 petaflops de cómputo denso a precisión de medio bit de 16 bits. Además, Andrómeda es el único súper ordenador de Inteligencia Artificial que ha demostrado una escalabilidad lineal cercana a la perfección en trabajos de procesamiento de lenguaje natural utilizando la simple paralelización de datos.

Según los expertos en inteligencia artificial, Andromeda redefine los límites de la capacidad de cómputo. “Con una capacidad de cálculo 87 veces superior a la de un solo sistema CS-2, Andromeda establece una nueva norma en el rendimiento del acelerador de inteligencia artificial”, en palabras de Rick Stevens, director asociado del laboratorio en el Argonne National Laboratory.

No sólo empresas, sino también universidades e instituciones académicas están aprovechando la oportunidad de utilizar Andrómeda para sus investigaciones. «Es algo extraordinario que Cerebras brinde a los estudiantes de doctorado acceso gratuito a un cluster tan grande. Andromeda ofrece 13,5 millones de núcleos de IA y una escalabilidad lineal cercana a la perfección en los mayores modelos de lenguaje, sin los problemas de la programación distribuida y paralela».

Otra empresa que se beneficia del potencial de Andrómeda es JasperAI, que utiliza modelos de lenguaje naturales para escribir publicidad, libros y contenido atractivo.

AMD, por su parte, está invirtiendo en tecnología que allana el camino para la IA omnipresente, desbloqueando nuevas eficiencias y habilidades de agilidad para las empresas.

Sofia Ortiz

Deja un comentario