Herramientas, Paper

Introducción a BioGPT, un modelo de lenguaje generativo pre-entrenado para la biomedicina

By Jose A. Prieto

BioGPT es un modelo de lenguaje generativo pre-entrenado desarrollado por Microsoft Research AI4Science, Peking University y Microsoft Research, que se enfoca en la generación y minería de texto biomédico. Este modelo es una alternativa a otros modelos de lenguaje pre-entrenados en el dominio biomédico, como BioBERT y PubMedBERT, que carecen de la capacidad de generación.

BioGPT es un modelo de Transformer pre-entrenado en una gran cantidad de literatura biomédica. Los autores evaluaron BioGPT en seis tareas de NLP biomédico y demostraron que su modelo superó a los modelos previos en la mayoría de las tareas.


En particular, obtuvieron una puntuación F1 del 44,98%, 38,42% y 40,76% en las tareas de extracción de relaciones BC5CDR, KD-DTI y DDI, respectivamente. Además, lograron una precisión del 78,2% en PubMedQA y el modelo BioGPT-Large logró una precisión del 81,0% en la misma tarea.

Ventaja de BioGPT en la literatura biomédica

El estudio de caso sobre la generación de texto demuestra la ventaja de BioGPT en la literatura biomédica para generar descripciones fluidas para términos biomédicos. Los autores discuten la importancia de los modelos de lenguaje pre-entrenados y su aplicación en el dominio biomédico.

Los modelos de lenguaje pre-entrenados se han demostrado como un patrón exitoso en el aprendizaje profundo. Se pre-entrenan en grandes cantidades de datos sin etiquetar mediante tareas de auto-supervisión cuidadosamente diseñadas y luego se transfieren a tareas secundarias mediante el ajuste fino en ellas.

BERT

BERT es un modelo de lenguaje contextualizado bidireccional basado en Transformer pre-entrenado en grandes corpus de texto en inglés, como Wikipedia y BooksCorpus. Se pre-entrena a través de tareas de auto-supervisión diseñadas cuidadosamente: la tarea de modelado de lenguaje enmascarado (MLM) y la tarea de predicción de la siguiente oración (NSP). BERT ha tenido un gran éxito en varias tareas de comprensión del lenguaje natural.

GPT

GPT es un modelo propuesto para tareas de generación de lenguaje a través del entrenamiento previo del modelo decodificador Transformer en un corpus de texto en una tarea clásica de modelado de lenguaje casual. GPT-2 y GPT-3 con un tamaño de modelo más grande han demostrado un desempeño notable en varias tareas secundarias, incluyendo tareas de clasificación.

Modelos de lenguaje pre-entrenados en el dominio biomédico

Al aplicarse a un dominio específico, como la biomedicina, los modelos BERT pre-entrenados en el dominio general pueden mejorar si se pre-entrenan en datos de texto del dominio. Algunos autores han continuado el entrenamiento previo en la literatura biomédica, mientras que otros han pre-entrenado desde cero en datos específicos del dominio. Este artículo hace referencia a una serie de trabajos relacionados con el procesamiento de lenguaje natural en el dominio biomédico.

Se mencionan varios corpus y tareas de benchmarking en el dominio biomédico, incluyendo BC5CDR, KD-DTI, tarea de extracción de relaciones end-to-end, tarea de respuesta a preguntas de PubMedQA, entre otros y a se mencionan varios modelos de lenguaje pre-entrenados en el dominio biomédico, incluyendo SciBERT, BioELECTRa, BioLinkBERT, BioGPT, BioGPT-Large, entre otros.

Esquema del trabajo del marco BioGPT
Esquema del trabajo del marco BioGPT

Técnicas de extracción de relaciones

Se describen varias técnicas de extracción de relaciones en documentos, incluyendo técnicas basadas en secuencia-a-secuencia, técnicas basadas en atención global y local, y técnicas basadas en la generación end-to-end de lenguaje. Este artículo hace referencia a una serie de trabajos relacionados con el procesamiento de lenguaje natural, enfocados en la extracción conjunta de entidades y relaciones.

Se describen varios modelos de extracción conjunta de entidades y relaciones en texto, incluyendo GraphRel, TPLinker, Partition-Filter Network, Minimize Exposure Bias, Set Prediction Networks, Reinforced Mnemonic Reader, entre otros.

Método de pre-entrenamiento

Los autores describen su método de pre-entrenamiento de BioGPT, que incluye la perspectiva del conjunto de datos, el vocabulario y el modelo. Para el conjunto de datos, los autores recopilaron todos los elementos de PubMed actualizados antes de 2021 y los filtraron para quedarse solo con aquellos con títulos y resúmenes. Utilizaron estos 15 millones de elementos como su conjunto de datos de pre-entrenamiento.

En lugar de utilizar el vocabulario de GPT-2, los autores aprendieron el vocabulario en su corpus del dominio. Utilizaron codificación de parejas de bytes (BPE) para segmentar las palabras en el corpus en pedazos de palabras y aprender el vocabulario.

La arquitectura de BioGPT es un decodificador Transformer, adoptado de GPT-2. BioGPT tiene 24 capas, un tamaño oculto de 1024 y 16 cabezas de atención, resultando en 347 millones de parámetros en total.

BioGPT se entrena mediante la tarea estándar de modelado de lenguaje, como en GPT-2. En este artículo, los autores describen tres tareas en NLP: extracción de relaciones, respuesta a preguntas y clasificación de documentos. Los autores describen tres formas de representar tripletas de relaciones (sujeto-verbo-objeto, sujeto-es-relación-de-objeto y relación-entre-sujeto-y-objeto-es-relación-nombre). La tarea de respuesta a preguntas y su método para formatear la entrada y la salida. La tarea de clasificación de documentos y su método para formatear la salida.

Fine-tuning basado en promt

Se describe en el documento cómo utilizar la entrada y la salida formateadas para fine-tuning y inferencia con BioGPT. Utilizan principalmente soft-prompts en el fine-tuning, que utiliza tokens virtuales continuos como promt para dirigir el modelo de lenguaje pre-entrenado. El desempeño de BioGPT en tareas de extracción de relaciones. Comparan su rendimiento con otros métodos de extracción de relaciones basados en secuencia a secuencia y un método de extracción de relaciones basado en tuberías. Utilizan dos conjuntos de datos, BC5CDR y KD-DTI, para evaluar el rendimiento de BioGPT.

BioGPT logra el mejor resultado (44.98%) en BC5CDR entre todos los métodos comparados. Los autores encuentran que los métodos basados en tuberías tienen una disminución significativa cuando se utiliza una herramienta de reconocimiento de entidades nombradas (NER) de código abierto en lugar de información NER verdadera. Además, BioGPT supera a REBEL y seq2rel.

En KD-DTI, BioGPT logra un mejor rendimiento que REBEL y seq2rel, con una mejora del 4.57% y una mejora del 2.74%, respectivamente.

Resultados en tareas de extracción de interacciones de drogas, respuesta a preguntas y clasificación de documentos

Evalúan el rendimiento de BioGPT en tareas de extracción de interacciones de drogas, respuesta a preguntas y clasificación de documentos en el domino biomédico. Para cada tarea, comparan el rendimiento de BioGPT con otros modelos existentes. En la tarea de extracción de interacciones de drogas (DDI), BioGPT logra una precisión de 40.76% y supera a GPT-2 medium.

En este sentido Presentan un modelo de lenguaje llamado BioGPT, un modelo de Transformer pre-entrenado en el dominio biomédico. BioGPT logra resultados sobresalientes en cuatro tareas de benchmarking en el dominio biomédico: BC5CDR, KD-DTI, tarea de extracción de relaciones end-to-end y tarea de respuesta a preguntas de PubMedQA.

BC5CDR: BioGPT logra una precisión del 16.08% y un aumento del 12.49%.
PubMedQA: BioGPT logra una precisión de 78.2%, lo que representa una mejora del 6% sobre el mejor rendimiento anterior.
Clasificación de documentos (HoC): BioGPT logra una precisión de F1 de 83.0%, lo que representa una mejora significativa sobre los modelos existentes.

BioGPT es un modelo efectivo para la generación de descripciones de nombres de medicamentos y supera a GPT-2 en esta tarea. BioGPT genera descripciones más específicas y profesionales que GPT-2 en nombres comunes y desconocidos, y es capaz de generar descripciones claras en términos relacionados con COVID-19.

BioGPT genera descripciones más precisas y profesionales que GPT-2 en nombres comunes y desconocidos, mientras que GPT-2 falla en generar descripciones informativas en nombres muy desconocidos y específicos de un dominio. Los autores proporcionaron ejemplos de texto generado por ambos modelos para nombres de medicamentos comunes y desconocidos, incluyendo Bicalutamide, Janus kinase 3 (JAK-3), Apricitabine, Xylazine y Psoralen.

Contribuciones de BioGPT

En definitiva se propone BioGPT como un modelo que puede ser utilizado para la generación y minería de texto en literatura biomédica. Además, estudiaron el diseño de la tarea y la secuencia objetivo cuando se aplica BioGPT a tareas secundarias y encontraron que las secuencias objetivo con semántica de lenguaje natural son mejores que los promtps estructurados explorados en trabajos previos. Los autores escalaron su modelo a un tamaño más grande, creando BioGPT-Large basado en la arquitectura GPT-2 XL con 1.5B parámetros de modelo. Evaluaron su rendimiento en la tarea PubMedQA y lograron una precisión del 81%, estableciendo un nuevo rendimiento de vanguardia en la tarea.

Referencias

Deja un comentario