Apple entrena a Siri para entender mejor a personas que tartamudean
Apple está investigando formas de mejorar su asistente de voz Siri para los usuarios con patrones de habla atípicos, según la compañía al Wall Street Journal.
Apple está aprovechando su biblioteca de podcasts para obtener muestras de habla con las que entrenar a Siri para que se adapte a los usuarios que tartamudean al halar.
La compañía está investigando cómo detectar automáticamente si alguien tartamudea, y ha construido un banco de 28.000 grabaciones de audio de podcasts que presentan tartamudez, según un informe de Apple.
La capacidad de detectar automáticamente los eventos de tartamudez en el habla podría ayudar a los patólogos del habla a realizar un seguimiento de la fluidez de un individuo en el tiempo o ayudar a mejorar los sistemas de reconocimiento del habla para las personas con patrones de habla atípicos.
A pesar del creciente interés en esta área, los conjuntos de datos públicos existentes son demasiado pequeños para construir sistemas de detección de disfluencia generalizables y carecen de suficientes anotaciones.
En este trabajo, presentamos los Eventos de Tartamudez en Podcasts (SEP-28k), un conjunto de datos que contiene más de 28k clips etiquetados con cinco tipos de eventos, incluyendo bloqueos, prolongaciones, repeticiones de sonido, repeticiones de palabras e interjecciones
El audio proviene de podcasts públicos que consisten en su mayoría en personas que tartamudean entrevistando a otras personas que tartamudean. Comparamos un conjunto de modelos acústicos con SEP-28k y el conjunto de datos público FluencyBank y destacamos cómo el simple hecho de aumentar la cantidad de datos de entrenamiento mejora el rendimiento relativo de la detección en un 28% y un 24% de F1 en cada uno de ellos. Las anotaciones de más de 32.000 clips de ambos conjuntos de datos se harán públicas.
Por ahora, Apple confía en su función de mantener pulsado el botón lateral como la forma de interactuar con Siri sin que el asistente de voz interrumpa a los usuarios con patrones de habla más lentos de lo normal.
Sin embargo, tener que pulsar un botón no siempre es cómodo, sobre todo si queremos interactuar con Siri a través del HomePod o en el coche mediante CarPlay.
Para los usuarios que tartamudean, la versión actual de Siri suele interpretar las pausas en el habla como el final de un comando de voz.
Con esta investigación, Apple podría incluir la tartamudez en los patrones de habla reconocidos por Siri.