La conversión de texto a SQL es una tecnología que permite a los usuarios hacer preguntas complejas a las bases de datos sin tener que aprender el lenguaje de programación SQL. Aunque esta tecnología ha despertado el interés de académicos y líderes empresariales, todavía existen limitaciones importantes que deben ser abordadas para mejorar su efectividad en el mundo real.
¿Qué es la conversión de texto a SQL?
La conversión de texto a SQL se enfoca en convertir el lenguaje natural en consultas SQL. Esto permite que los usuarios puedan hacer preguntas complejas a las bases de datos sin tener que aprender el lenguaje de programación SQL. En lugar de eso, pueden simplemente escribir una pregunta en lenguaje natural y el sistema se encargará de traducirla a una consulta SQL.
Limitaciones actuales de la tecnología de texto a SQL
A pesar de los avances recientes en la tecnología de texto a SQL, todavía existen limitaciones importantes que deben ser abordadas. Los modelos modernos de texto a SQL aún necesitan ayuda para extrapolar a escenarios más complejos y realistas que incluyen material ruidoso y grandes volúmenes de bases de datos. Además, los benchmarks actuales no consideran el rendimiento de ejecución de SQL, lo cual es muy importante en aplicaciones del mundo real, especialmente en el caso de grandes bases de datos.
El nuevo benchmark de texto a SQL: BIRD
Para abordar estas limitaciones, investigadores de varias universidades han creado un nuevo benchmark de texto a SQL llamado BIRD. Este benchmark se asemeja más a las circunstancias reales y reduce la brecha entre las condiciones experimentales y del mundo real.
BIRD contiene un total de 95 grandes bases de datos que suman un tamaño de 33.4 GB y 12,751 instancias complicadas de búsqueda de información que cubren 37 disciplinas profesionales diferentes. Además, se han recopilado 80 bases de datos relacionales de código abierto para el entrenamiento de la tecnología y se han seleccionado a mano otras 15 bases de datos relacionales para la evaluación.
Evaluación de los modelos de texto a SQL
Los modelos modernos de texto a SQL son evaluados utilizando dos metodologías ampliamente utilizadas: el aprendizaje en contexto utilizando modelos de lenguaje grandes (LLMs) y el ajuste fino con T5. Los hallazgos experimentales muestran que los modelos actuales necesitan ayuda para generalizar de manera efectiva. En particular, en los conjuntos de desarrollo y prueba, el modelo SOTA de Spider, que simplemente se basa en el esquema de la base de datos, solo logra una precisión de ejecución del 25.88% y el 28.95%, respectivamente. En comparación con el rendimiento humano, que también se proporciona en este benchmark, el rendimiento aún necesita mejorar.
Reflexionando
La conversión de texto a SQL es una tecnología prometedora que puede permitir que los analistas de datos novatos extraigan información necesaria de manera automática utilizando lenguaje natural de bases de datos relacionales prevalentes. Sin embargo, todavía existen limitaciones importantes que deben ser abordadas, como la capacidad de los modelos actuales para generalizar de manera efectiva y el rendimiento de ejecución de SQL en aplicaciones del mundo real. El nuevo benchmark de texto a SQL llamado BIRD se asemeja más a las circunstancias reales y reduce la brecha entre las condiciones experimentales y del mundo real. Se necesitan más estudios para abordar las limitaciones actuales de la tecnología de texto a SQL y mejorar su efectividad en el mundo real.
Referencias.-
- Consulta Paper y la web del Proyecto en Github
- [con]Neurona #26 - 18 de diciembre de 2023
- [con]Neurona #25 - 10 de diciembre de 2023
- [con]Neurona #24 - 2 de diciembre de 2023