Herramientas, Modelos, Noticias

Point-E: la propuesta de OpenAI para modelos 3D

By Sara Francisco

¿Te has preguntado cómo podrías generar objetos 3D solo con una sola GPU en solo unos minutos?

El equipo de investigadores de OpenAI ha explorado un método alternativo que puede lograrlo. Aunque la generación de objetos 3D ha avanzado mucho en los últimos años, los métodos más recientes suelen requerir varias horas de GPU para producir solo una muestra. Esto contrasta con los modelos de imágenes generativas de última generación, que producen muestras en segundos o minutos.

El método propuesto por los investigadores consiste en generar primero una sola vista sintética utilizando un modelo de difusión de texto a imagen y luego produciendo una nube de puntos 3D con un segundo modelo de difusión que condiciona la imagen generada. Aunque aún no alcanza el nivel de calidad del estado del arte en términos de calidad de la muestra, es uno o dos órdenes de magnitud más rápido para muestrear, lo que ofrece una compensación práctica en algunos casos de uso.

Este método puede ser una solución útil en situaciones donde la velocidad de generación de muestras es importante, aunque todavía hay margen de mejora en términos de calidad. ¿Qué más podríamos hacer con una herramienta tan rápida y poderosa para generar objetos 3D? Solo el tiempo lo dirá.

La Propuesta de Point-E

Hay varios trabajos anteriores que han explorado modelos generativos basados en nubes de puntos 3D. Por ejemplo, Achlioptas (2017) entrenaron autocodificadores de nubes de puntos y ajustaron priores generativos en las representaciones latentes resultantes. Mo (2019) utilizaron una VAE (un modelo de variational autoencoder) para generar nubes de puntos a partir de representaciones gráficas jerárquicas de objetos 3D. Yang (2019) entrenaron un modelo de flujo de dos etapas para la generación de nubes de puntos: primero, un modelo de flujo previo produce un vector latente y luego un segundo modelo de flujo muestrea puntos condicionados al vector latente.

Otros trabajos han explorado métodos de difusión de nubes de puntos. Por ejemplo, Luo & Hu (2021) y Ca. (2020) ambos entrenaron modelos de dos etapas donde la segunda etapa es un modelo de difusión sobre puntos individuales en una nube de puntos, mientras que la primera etapa es un modelo de flujo latente o un GAN latente, respectivamente. Zeng (2022) entrenaron un VAE jerárquico de dos etapas en nubes de puntos con priores de difusión en ambas etapas.

En comparación con estos métodos anteriores, el método propuesto en este trabajo es más simple y utiliza una arquitectura de modelo basada en Transformer, lo que significa que incorpora menos estructura 3D específica. Además, a diferencia de otros trabajos, los modelos de OpenAI también producen canales RGB junto con nubes de puntos.

Point-E es de Código Abierto

Resumiendo lo anterior, este trabajo propone un método alternativo para la generación de objetos 3D que es uno o dos órdenes de magnitud más rápido para muestrear que los métodos de última generación, aunque todavía hay margen de mejora en términos de calidad de la muestra.

Este método puede ser útil en situaciones donde la velocidad de generación de muestras es importante, y es interesante ver cómo se desarrollará en el futuro.

  • Esta disponible como Open Source en GIthub
  • Puedes descargar las imágenes semilla y las nubes de puntos correspondientes a las imágenes del banner de papel aquí .
  • Puedes descargar las imágenes de semillas utilizadas para las evaluaciones de COCO CLIP R-Precision aquí .

Sara Francisco
Últimas entradas de Sara Francisco (ver todo)

Deja un comentario