Cerrar panel

Cerrar panel

Cerrar panel

Cerrar panel

WaveNet: Google se acerca a la voz humana y da un paso más en inteligencia artificial

El programa de inteligencia artificial (IA) desarrollado por el gigante estadounidense permite que las máquinas hablen como seres humanos.

RECURSO innovacion ia robots robotica inteligencia artificial

El pasado mes de marzo, Deepmind, la división de inteligencia artificial de Google, derrotaba a un humano. El programa de inteligencia artificial AlphaGo ganaba al campeón humano de Go, un popular juego de mesa, por primera vez en la historia.

Como explica este reportaje publicado en El País, Deepmind combinó tres técnicas distintas de inteligencia artificial. Por un lado, el aprendizaje profundo, basado en la suma de cantidades masivas de información que permitan reconocer patrones: en este caso cientos de miles de partidas reales. También el aprendizaje por refuerzo, que permite a la máquina jugar contra sí misma para instruirse ejercitándose. Además, se sirvieron del llamado árbol de búsqueda de Monte Carlo, que selecciona aleatoriamente las posibilidades más prometedoras.

El director del Instituto de Investigación en Inteligencia Artificial del CSIC, Ramón López de Mántaras, apostillaba: "Conceptualmente no han inventado nada. esos sistemas eran conocidos desde hace mucho tiempo , pero hasta ahora no había los suficientes datos para alimentarlos. La diferencia es la ingente cantidad de datos con los que contamos ahora. Y Google es datos".

Antes de la partida ante el campeón mundial del juego, el  surcoreano Lee Sedol, las redes neuronales de AlphaGo se sometieron al visionado de 160.000 partidas de jugadores reales de alto nivel y 30 millones de movimientos. Unas redes neuronales de aprendizaje profundo funcionan como capas que van reconociendo patrones haciendo abstracciones de la anterior capa: una identifica píxeles con formas, la siguiente formas de líneas horizontales, la siguiente líneas horizontales que se cierran, la siguiente concluye que son óvalos horizontales... hasta identificar ojos en las caras de la gente.

Seis meses después, al gigante estadounidense da un paso más en inteligencia artificial con el programa WaveNet que ayuda a que las máquinas hablen como los seres humanos.

Al igual que AlphaGo, WaveNet ha sido entrenada con millones de datos, grabaciones procedentes del ser humano que le permite determinar si la voz corresponde a un hombre o a una mujer y distinguir las distintas emociones, la ironía, el sarcasmo... La máquina es capaz de generar un discurso que imita la voz de un humano, lejos de los sonidos enlatados,  gracias al desarrollo de un modelo de generación de ondas de audio. Las voces sintéticas  integran los sonidos del movimiento de la boca al hablar y de la respiración.

Como explican los ingenieros de Google en la web del proyecto, hasta ahora el método de lectura virtual pasaba por la concatenación TTS (texto a voz). Este sistema combina distintos fragmentos grabados para construir palabras y oraciones pero no permitía que se pudiesen modificar, lo que producía un resultado robótico y muy artificial.

WaveNet de DeepMind es revolucionario al integrar un sistema de inteligencia artificial capaz de aprender y adaptarse al contexto. Funciona a 16.000 secuencias de palabras por segundo y puede generar sus propias muestras de audio sin intervención humana. Es intutivo: recurre a la estadística para predecir lo que tendrá que decir después y, según sus creadores, el sonido es muy similar al del ser humano, hasta el punto de reducir la brecha de a calidad entre el lenguaje humano e informático en un 50%.