Voicebox es 'tan bueno', según Meta, que puede producir audios de alta calidad y editarlos mediante inteligencia artificial. Lastimosamente, no está abierto al público.
Meta ha anunciado un nuevo proyecto de inteligencia artificial dentro de sus laboratorios. Este sistema, llamado Voicebox, es muy diferente al resto: está enfocado al audio y a la edición profesional de este tipo de contenidos.
Las promesas realizadas con esta IA basada en el modelo propio LlaMA no son menores, ya que se nos promete poder generar audios y voces de alta calidad, además de poder editar grabaciones de manera excepcional.
Voicebox: sin poder escucharlo
Voicebox no necesita que le brindes un pequeño recurso de audio para que genere voces a partir de ello: puede hacerlo solo con el texto que coloques al primer uso.
Es un modelo generativo que, además de producir los sonidos, también puede ayudar con su edición, sampling y estilización, funciones avanzadas incluso para tareas propias de las IA.
Según Meta, Voicebox puede producir fragmentos de audio de alta calidad y editar audio pregrabado -como eliminar bocinas de un coche o el ladrido de un perro-, conservando el contenido y el estilo del audio. Además, el modelo es multilingüe y puede producir habla en seis idiomas.
Precisamente, saber diferentes idiomas ayuda en múltiples ocasiones. Por ejemplo, es capaz de reconocer voces en inglés, francés, alemán, español, polaco o portugués y poder recibir y comprender comandos en un idioma diferente al del audio. La compañía quiere que esta capacidad pueda ayudar a las personas de a comunicarse de forma natural y auténtica, aunque no hablen una misma lengua.
Para lograrlo, la compañía alimentó a la IA con 50 mil horas de voz de audiolibros en inglés y 60 mil en audiolibros de otros idiomas. La empresa no especificó qué libros se usaron más allá de especificarlos como “de dominio público”.
Un detalle particular: no puedes probarlo
Meta desea llevar esta inteligencia artificial a un nivel superior. Aunque profesionalmente ya suena lo suficientemente atractivo, también quiere que sea una ayuda para que las personas con discapacidad puedan escuchar los mensajes escritos de sus amigos en sus voces y los extranjeros puedan seguir comunicándose en otros idiomas con su propia voz.
Por el momento, Meta ha compartido el estudio y los resultados de sus pruebas con esta IA, pero no ha compartido ni una forma de utilizarlo ni liberará su código como sí hizo con LLaMA. El potencial que mantiene es alto, asegura, motivo por el cual hay cierto recelo en su lanzamiento al público.
Y es que también se presta para diferentes problemas en consecuencia. El más común y de mayor preocupación es el de los deepfakes, donde malos actores pueden usar el sistema de generación de voz para suplantar identidades y timar a familiares o amigos. La empresa de Mark Zuckerberg quiere “ser responsable” en su estudio.
Te recomendamos
Comparte esta noticia