Apple patenta un sistema para que Siri pueda leer los labios

🎃 ¡Rebajas de Halloween! ¡Office 2021 para siempre por sólo 29,11€/PC! [ Saber más ]

Una patente de Apple muestra que la empresa está considerando activamente desarrollar un sistema de lectura de labios.

La solicitud de patente se presentó originalmente en enero de este año y describe un sistema para determinar si los «datos de movimiento» coinciden con una palabra o frase. Los diagramas mencionan específicamente a Siri con comandos de voz sencillos como «Oye Siri», «saltar» o «siguiente canción», y cómo todas esas entradas pueden mejorarse gracias a un algoritmo que analiza las partes de la boca de los usuarios.

Apple explica que hay problemas obvios con los sistemas de reconocimiento de voz como Siri. Las voces pueden distorsionarse por el ruido de fondo, y los sensores que monitorizan perpetuamente las voces de las personas gastan una buena cantidad de batería y potencia de procesamiento.

Un sistema así no utilizaría necesariamente la cámara del dispositivo. En su lugar, el software de reconocimiento de voz utilizaría uno de los sensores de movimiento del teléfono para grabar la boca, el cuello o la cabeza y determinar si alguno de esos movimientos podría indicar habla humana.

Estos sensores podrían ser un acelerómetro o un giroscopio acoplados, que Apple señala en su patente que es mucho menos probable que se corrompan por estímulos no deseados que un micrófono. No tiene por qué ser sólo un teléfono, ya que la patente describe cómo ese tipo de tecnología de detección de movimiento podría integrarse en los AirPods o incluso una vaga referencia a «gafas inteligentes», que luego enviarían esos datos al iPhone del usuario.

Según el documento, los dispositivos podrían detectar sutiles músculos faciales, vibraciones o movimientos de la cabeza.

Se supone que Siri ya reconoce la voz de los usuarios principales de un iPhone, pero las recientes funciones de accesibilidad de Apple han ampliado esa capacidad de captura de voz. Una nueva función de iOS 17 puede grabar los perfiles de voz de los usuarios, que luego utiliza un sistema de voz a texto para copiar esas entonaciones y patrones de voz.

Apple habla de un «primer modelo lingüístico» que habría que entrenar con conjuntos de datos de muestra. No está claro si esto requeriría algún modelo de aprendizaje automático, pero tendría sentido entrenar un modelo de IA para reconocer movimientos faciales a partir de un vasto conjunto de datos.

Por supuesto, Apple registra muchas patentes, algunas un poco más extrañas que otras y no todas se convierten en productos.

Dejar un comentario

Tu dirección de e-mail nunca será publicada Los campos requeridos están marcados*

Esta web usa cookies para elaborar información estadística y mostrar publicidad personalizada.

Saber más