Cerrar panel

Cerrar panel

Cerrar panel

Cerrar panel

Asistentes de voz: ¿de quiénes son las voces que escuchamos en Siri y Alexa?

Expertos en telecomunicaciones, ingeniería industrial e informática desarrollan la inteligencia artificial que pone voz a Google Assistant, Siri o Bixby. Las técnicas más comunes para la generación de respuestas se basan en plantillas en las que se inserta algún parámetro que puede variar.

asistentes_de_voz_sonido_recurso_bbva

Tener un asistente de voz en casa o en la oficina cada vez es más habitual. Están incorporados en móviles, altavoces inteligentes y otros dispositivos como televisores o videoconsolas. Las voces de Siri, Alexa o Google Assistant son escuchadas a diario por millones de usuarios. Pese a ello, son auténticas desconocidas para muchos de quienes acostumbran a interactuar con ellas. ¿Quiénes hacen posible que estos asistentes hablen? ¿Cómo se crean las voces artificiales? ¿De qué forma se componen los mensajes?

La forma más avanzada de ‘enseñar a hablar’ a un asistente de voz se basa en inteligencia artificial. Así lo explica Fernando Cerezal, ingeniero de innovación en el Tec Lab de BBVA Next Technologies, la empresa especializada en ingeniería de ‘software’ de BBVA: “Consiste en que una persona lea un texto dado, con toda la variabilidad de palabras que sea razonable y después se le pide a una inteligencia artificial, dándole el texto original con las marcas sobre prosodia [la rama de la gramática encargada de la acentuación y la pronunciación] y la voz grabada, que imite a esa voz”. De esta forma, se consigue que la inteligencia artificial “hable” igual que la persona y que sea capaz de leer cualquier texto aunque sea diferente al escrito con el que ha sido entrenada.

Es decir, el timbre, la entonación y la intensidad de la voz de estos asistentes son generados por una inteligencia artificial, que trata de imitar a una persona que ha pronunciado cosas similares con anterioridad. Este proceso se repite para cada idioma. Cerezal subraya que hay mucha información sobre la pronunciación y la prosodia que no está en el texto. “Como ejemplo sencillo, en inglés hay muchas palabras que escribiéndose muy parecido se pronuncian de forma muy distinta. También es importante la entonación ‘cantarina’, que en idiomas como el chino cambia el significado de la expresión”, afirma.

Los asistentes pueden desempeñar múltiples tareas: desde comprobar los eventos del calendario, consultar información, buscar recetas o controlar la televisión a regular la luz o la temperatura de una habitación, realizar compras o poner la música más acorde para leer o estar en una fiesta. En el caso del asistente virtual propio de BBVA, que hace dos años se convertía en una de las primeras entidades bancarias en incorporar este tipo de consultas, su función es ayudar a los clientes a entender y gestionar mejor su economía. La configuración de cuentas y tarjetas o la realización de gestiones en el área personal, son algunas de las consultas más habituales que realizan los usuarios.

Las técnicas más comunes para la generación de respuestas se basan en plantillas, según Cerezal. Se escribe una frase modelo donde se inserta algún parámetro que puede variar. De esta manera, se consigue “una sensación de expresión personalizada aunque sea bastante mecánico”. Además, es posible añadir varias plantillas y hacer que el asistente cada vez utilice una de ellas “para dar variabilidad y que haya menos sensación robótica”.

La personalidad es el actual reto que atraviesan los asistentes a nivel de experiencia de usuario

Detrás de los asistentes, según sostiene Cerezal, hay expertos en telecomunicaciones, ingeniería industrial e informática. Por ejemplo, Amazon explica en su web que miles de desarrolladores hacen posible el funcionamiento de Alexa. Entre los profesionales contratados por el gigante tecnológico, hay ingenieros de ‘software’, analistas de sistemas, lingüistas y escritores.

Las compañías apuestan por estos perfiles para mejorar la voz, las habilidades y el funcionamiento de los asistentes y así facilitar, por ejemplo, la vida en el hogar. El número de altavoces inteligentes en uso a nivel mundial no para de crecer. Statista prevé que en 2019 habrá un total 3.250 millones de asistentes virtuales y espera que se alcancen los 5.110 millones en 2021 y 8.000 millones en 2023.

La voz de estos asistentes ha evolucionado a lo largo de los años. Cerezal indica que inicialmente existía un enfoque de tratar de asociar un tipo de sonido a cada posible sílaba y después tratar de componer palabras: “Como la generación se centraba en las sílabas, las frases que se generaban eran monótonas y anodinas, cansaban muy rápido. Además, para solventar los problemas asociados a las distintas pronunciaciones de sílabas que se escriben igual, se escribían a mano reglas que modificasen las pronunciaciones”.

Más tarde, según explica, se fueron introduciendo otras mejoras que trataban de evitar trabajo manual, ofrecer flexibilidad en la voz producida y una sensación más natural. El enfoque actual es utilizar ‘deep learning’ para que “a partir de datos que sean fáciles de generar, sea un ordenador quien aprenda a generar esos sonidos”.

Cerezal considera que “no existe una voz ideal en genérico”: “Podría existir una voz más adecuada para cada uso. Sin embargo, como se pueden hacer aplicaciones de terceros que utilicen estos asistentes y la voz tiene que ser coherente con todos, se proporciona una voz más o menos neutra. Esta voz queda demasiado seria si se le piden chistes o demasiado distante si te está preguntando qué tal te sientes hoy, pero queda bien en la mayoría de los casos de uso”.

También contempla la posibilidad de que en un futuro los asistentes cambien la entonación en determinadas circunstancias para que el usuario sienta que empatiza más con él. “Como personas humanizamos a los asistentes y, de alguna manera, a partir de lo que nos dice y como nos lo dice, le asociamos una personalidad. Es necesario que la forma de expresarse del asistente sea consecuente con su voz”, sostiene.

Para Lucas Menéndez, también ingeniero en el Tec Lab de BBVA Next Technologies, la personalidad es el actual reto que atraviesan los asistentes a nivel de experiencia de usuario: “Ya no solo dotar a un asistente conversacional de una personalidad dinámica, sino cómo conseguir que esa personalidad evolucione junto con la interacción del usuario, adaptándose al contexto de la interacción”.