🎃 ¡Rebajas de Halloween! ¡Office 2021 para siempre por sólo 29,11€/PC! [ Saber más ]
Todas las herramientas de videollamadas con múltiples participantes tienen la funcionalidad de centrar la imagen en la persona que está hablando.
Eso está genial si el habla es la forma de comunicación. Sin embargo, el lenguaje de signos no activa esos algoritmos, lo que supone un problema para las personas que se comunican así.
Por suerte, una investigación de Google podría cambiar eso. La compañía ha creado un motor de detección de lenguaje de señas en tiempo real que puede saber cuándo alguien está haciendo signos (en lugar de sólo moverse) y cuándo ha terminado.
Aunque esto es algo trivial para los humanos, es más difícil para un sistema de videollamadas que solo retransmite imágenes y sonido.
Un nuevo artículo de los investigadores de Google muestra cómo se puede hacer con eficiencia y con muy poca latencia.
El sistema primero pasa el video a través de un modelo llamado PoseNet, que estima las posiciones del cuerpo y las extremidades en cada cuadro. Esta información visual simplificada (esencialmente una figura con palos) se envía a un modelo entrenado con datos de poses de personas que usan el lenguaje de signos.
Este proceso consigue un 80 por ciento de precisión en la predicción de si una persona está usando lenguajes de signos, y con alguna optimización adicional obtiene hasta un 91,5 por ciento de precisión.
Este sistema también puede utilizarse con herramientas de videoconferencia existentes mediante un pequeño truco.
Utiliza una fuente de audio virtual para generar un tono de 20 kHz, que está fuera del rango de audición humana, pero que es detectado por los micrófonos de los ordenadores. Esta señal se genera siempre que la persona está haciendo señas, haciendo que los algoritmos de detección del habla piensen que está hablando en voz alta.