🎃 ¡Rebajas de Halloween! ¡Office 2021 para siempre por sólo 29,11€/PC! [ Saber más ]
Google ha publicado un artículo en su blog en el que explica cómo funciona por detrás la nueva app Recorder de los smartphones Pixel.
Esta app no solamente permite guardar grabaciones de voz sino que transcribe automáticamente la voz e interpreta ciertos sonidos. Por el momento, solo está disponible en inglés pero suponemos que en algún momento llegará también a nuestro idioma.
En su publicación, Google explica que la app Recorder contiene una gran cantidad de código que es capaz de escuchar, entender, transcribir e incluso clasificar la voz y otros sonidos registrados por la app de grabación.
Una de las cosas que llama la atención cuando realizas una grabación es que, además de la forma de onda de la voz, se muestran diferentes colores y categorías sobre la pantalla a la vez que aparece la transcripción de voz.
La app ha sido entrenada para entender distintas categorías de sonido como música, voz, silbidos, ladridos de perro y otros sonidos comunes. Cada categoría de sonido se representa visualmente con un color que permite identificar rápidamente lo que se escucha sin tener que escuchar el sonido. Esto facilita las búsquedas sin tener que escuchar el audio.
La app identifica la categoría del sonido cada 50 ms pero, para no estar constantemente cambiando, Google ha desarrollado un sistema de filtrado que tiene en cuenta muestras de sonido más largas para no estar saltando de una categoría a otra por error.
Durante la grabación, la app identifica las palabras mediante un algoritmo de machine learning que se ejecuta en el el propio teléfono. Esto significa que no se transmite ningún dato a los servidores de Google, ya que el procesador es capaz de contrastar el sonido con un diccionario local para interpretar las palabras.
Este modelo es tan avanzado que es capaz de identificar los roles gramaticales de las palabras, ayudando así a una mejor transcripción. Estas palabras se guardan junto con la posición en la línea temporal y es posible incluso pulsar sobre una palabra para ir al momento exacto en el que se pronuncia.