Todos los secretos de la inteligencia artificial tras el “Oye Siri”

Todos los secretos de la inteligencia artificial tras el “Oye Siri”

Oye Siri, ¿por qué eres tan fantástica?

Compartir

Apple acaba de dejarnos con la boca abierta con la publicación en su Machine Learning Journal explicando cómo funciona la activación de voz de Siri, vamos, el clásico “Oye Siri”. Lo que sucede tras esas dos mágicas palabras es algo sencillamente fascinante.

Apple explica que los micrófonos iPhone y el Apple Watch transforman nuestra voz en una cadena de ondas con un ratio de 16.000 ondulaciones por segundo antes de que el detector decida que intentas invocar a Siri con tu voz:

Un análisis del espectro convierte la muestra de ondas en una secuencia que describe el espectro de sonido a aproximadamente 0,01 segundos. Aproximadamente con 0,2 segundos de audio son suficientes para que la red neural convierta esos patrones en una distribución probable con una serie de parámetros de sonidos, concretamente aquellos usados en la frase “Oye Siri” + un silencio + la orden.

Además, cuenta con una variable para decidir si estas invocando a Siri o no:

Contamos con cierta flexibilidad para facilitar la activación de Siri en situaciones complicadas donde es fácil que haya activaciones falsas. Hay un límite normal y otro más bajo para activar Siri, que normalmente desecha la activación. Si una frase entra entre los límites inferiores y normales, el sistema entra en una fase sensible porque teme haber perdido una invocación, de forma que si el usuario repite la frase, incluso con el mismo ruido de fondo y volumen, Siri se activa. Este segundo mecanismo mejora la usabilidad de Siri de forma significativa sin necesidad de que la falsa alarma aumente significativamente.

Sabemos que “Oye Siri” confía en el co-procesador de los iPhone para escuchar la palabra de activación sin necesidad de interacción física ni disminuir la vida de la batería. Sin embargo, “oye Siri” funciona de forma diferente en el Apple Watch, ya que requiere la pantalla encendida. Eso sí, como mucho usa el 5% de procesamiento

El detector de “oye Siri” solo funciona cuando el coprocesador de movimiento del reloj detecta un gesto de muñeca, lo que enciende la pantalla. En ese punto, WatchOS está listo para operar, preparar la pantalla, etc. “Oye Siri” solo usa un 5% de capacidad de procesamiento. Es un desafío empezar la captura de audio a tiempo para coger la frase de activación, así que concedemos permisos para iniciar el detector lo antes posible.

¿Por qué escogió la frase “Oye Siri” como activación?

Esa es una buena pregunta, y es que quizás podría haber optado por otra más larga. En Apple lo explican así:

Antes de que existiera la función de “Hey Siri”, una pequeña porción de los usuarios que usaban Siri empezaban sus frases así al presionar el botón Home. Así que empezamos con “Hey Siri” en el entrenamiento inicial en inglés. Usamos otros ejemplos también, pero este nos daba más precisión. Asimismo, tuvimos cuidado con la pronunciación de Siri, para que no se confundiera con otras palabras similares.

Imaginamos que en castellano, muchas personas también usaban “Oye” como coletilla inicial, así que la elección fue sencilla.

Via | 9to5Mac