En este artículo presentamos una herramienta innovadora que combina el uso de Deep Learning con la cámara web para permitir al usuario escribir y dibujar con la mano de manera natural y precisa. La herramienta utiliza un modelo de aprendizaje profundo para predecir la intención del usuario, ya sea para realizar un trazo o simplemente mover la mano, lo que permite una experiencia de usuario fluida y sin interrupciones.
La herramienta se compone de dos pasos: detección de la posición de la mano y predicción del dibujo. La detección de la posición de la mano se realiza mediante la caja de herramientas de MediaPipe. La predicción del dibujo se realiza mediante una arquitectura LSTM bidireccional que utiliza una secuencia de puntos 2D como entrada y produce una clasificación binaria «lápiz hacia arriba» o «lápiz hacia abajo» como salida.
El conjunto de datos utilizado para entrenar el modelo fue creado por el autor y consta de unas 50 muestras. La aplicación es completamente del lado del cliente y se implementó mediante la conversión del modelo PyTorch a ONNX y el uso de ONNX Runtime.
Referencias
Un ejemplo de funcionamiento lo puedes ver en https://loicmagne.github.io/air-drawing/ deberás dar acceso a la cámara para poder probarlo.
Todavía queda mucho por mejorar, pero es una idea interesante y un buen inicio. El código lo podemos revisar en Github.
- [con]Neurona #26 - 18 de diciembre de 2023
- [con]Neurona #25 - 10 de diciembre de 2023
- [con]Neurona #24 - 2 de diciembre de 2023