Eleven v3 (Alpha) de ElevenLabs, la voz AI más expresiva ha llegado

La voz sintética ha alcanzado un nuevo hito con el lanzamiento de Eleven v3 Alpha de Eleven Labs, un modelo de texto a voz que llega con una expresividad y realismo sin precedentes en la generación de audio. Este avance, presentado recientemente, está destinado a redefinir la creación de contenido en diversas plataformas.

Eleven v3, un salto cualitativo en la generación de voz artificial

Eleven Labs, una empresa líder en tecnología de voz, ha estado a la vanguardia de la innovación desde su fundación en 2022. Su primera versión, Eleven v1, fue lanzada poco después, estableciendo un nuevo estándar en la síntesis de voz. Posteriormente, en 2023, llegó Eleven v2, que consolidó su posición y fue ampliamente adoptada en sectores como el cine, el desarrollo de videojuegos, la educación y la accesibilidad. Sin embargo, la principal limitación que buscaban superar no era la calidad del sonido, sino la expresividad y la capacidad de la IA para manejar matices emocionales y diálogos complejos. Esto llevó al ambicioso desarrollo de Eleven v3 Alpha.

Control sin precedentes y soporte multilingüe

La principal característica de Eleven v3 Alpha, disponible desde su lanzamiento a través de su sitio web y con un acceso por API que se publicará pronto, es su enfoque en generar voces no solo realistas, sino también increíblemente expresivas. Esto ofrece a los creadores un control exhaustivo sobre el tono, la emoción y el comportamiento de la voz. Además, este modelo es un verdadero camaleón lingüístico, ya que es compatible con más de 70 idiomas, abriendo un abancho de posibilidades para la creación de contenido global.

Diálogos dinámicos y etiquetado de comportamiento

Una de las funcionalidades más innovadoras de Eleven v3 Alpha es su capacidad para facilitar la creación de diálogos multivoces de manera sencilla y fluida. Esto significa que generar conversaciones entre diferentes personajes con voces distintas es ahora más accesible y natural. Sumado a esto, el etiquetado de comportamiento permite a los usuarios especificar cómo debe comportarse la voz en situaciones concretas, como susurros, citas o incluso risas y acentos, añadiendo una capa de realismo y espontaneidad que antes era difícil de conseguir.

Desafíos y consideraciones para el futuro

Aunque Eleven v3 Alpha requiere un trabajo de «prompting» más elaborado que sus predecesores para alcanzar su máximo potencial de realismo, el resultado final es un audio significativamente superior. Sin embargo, es importante señalar que, debido a su menor fiabilidad y mayor latencia actual, no es el modelo más adecuado para aplicaciones en tiempo real, como los sistemas de atención al cliente. Eleven Labs ya ha anunciado que una versión en tiempo real de V3 está en desarrollo, lo que promete superar estas limitaciones en el futuro cercano. Este lanzamiento marca un paso adelante gigantesco en la Inteligencia Artificial de voz, prometiendo transformar la forma en que interactuamos y creamos contenido auditivo.

Si quieres entrar en ElevenLabs, simplemente tienes que acceder al siguiente enlace: ELEVENLABS

Noticia Anterior