Implementación de Visión por Computadora para la identificación de Lengua de Señas Mexicana

Armando Salazar | Miércoles, 04 de Septiembre de 2024

Introducción

Recientemente, participé en un proyecto innovador que resultó en la publicación del artículo "Real-Time Machine Learning for Accurate Mexican Sign Language Identification: A Distal Phalanges Approach". Este trabajo representa un avance significativo en la aplicación de la visión por computadora y el aprendizaje automático para mejorar la accesibilidad y la comunicación mediante la identificación precisa de la lengua de señas mexicana.

Descripción del Artículo

El artículo explora un enfoque basado en falanges distales para la identificación de la lengua de señas mexicana en tiempo real. Utilizando técnicas avanzadas de visión por computadora, se desarrolló un sistema capaz de reconocer señas específicas con alta precisión. La clave de este enfoque es la atención detallada a los movimientos de las falanges distales, que son fundamentales para diferenciar entre las múltiples señas.

El sistema se basa en una combinación de herramientas como OpenCV y MediaPipe, implementadas en Python. OpenCV se utilizó para el procesamiento inicial de las imágenes, incluyendo la segmentación y el seguimiento de las manos, mientras que MediaPipe proporcionó modelos preentrenados para la detección de puntos clave en las manos, facilitando la extracción de características precisas de las falanges.

Mi Contribución

Mi contribución, en conjunto con el Dr. Gerardo García, fue la conceptualización del trabajo y el análisis del conjunto de datos utilizando algoritmos de visión por computadora. Utilizamos Python como lenguaje base para integrar OpenCV y MediaPipe, logrando una pipeline de procesamiento eficiente que permitió la identificación en tiempo real.

El desafío principal fue asegurar que los algoritmos pudieran operar en tiempo real sin comprometer la precisión. Para ello, optimizamos el flujo de procesamiento de imágenes, minimizando el retraso y ajustando los parámetros de los modelos de MediaPipe para obtener un balance óptimo entre velocidad y precisión.

Además, diseñamos un conjunto de pruebas para evaluar el rendimiento del sistema en diferentes condiciones, como variaciones en la iluminación y diferentes posturas de las manos. Esto ayudó a refinar los algoritmos y a garantizar que el sistema fuera robusto en escenarios del mundo real.

Lecciones Aprendidas

Este proyecto me permitió profundizar en la aplicación de la visión por computadora para la accesibilidad. Aprendí cómo optimizar algoritmos para su ejecución en tiempo real y la importancia de una segmentación precisa en el reconocimiento de señas. Además, adquirí experiencia en la integración de diversas bibliotecas y herramientas en Python, lo que amplió mi habilidad para abordar problemas complejos en el ámbito de la visión por computadora.

Conclusión

Participar en este artículo fue una experiencia enriquecedora que me permitió contribuir a una solución tecnológica que puede tener un impacto positivo en la comunidad sorda. Si estás interesado en aprender más sobre este enfoque innovador y las técnicas utilizadas, te invito a leer el artículo completo aquí.