DONDE LA INTELIGENCIA ARTIFICIAL CONECTA DISCIPLINAS

Alibaba presenta Qwen3.5-LiveTranslate-Flash, un sistema de traducción multimodal en tiempo real para 60 idiomas

Alibaba anunció una nueva versión de su tecnología de interpretación simultánea basada en inteligencia artificial. El modelo, denominado Qwen3.5-LiveTranslate-Flash, promete traducción multimodal en tiempo real entre 60 idiomas con una latencia promedio de 2,8 segundos, incorporando análisis de audio, video, gestos y lectura labial para mejorar la precisión de las traducciones en entornos complejos.

La fuente original de la información es una publicación oficial del equipo Qwen de Alibaba titulada “Qwen3.5-LiveTranslate: From Sound to Sight, From Word to World”, difundida el 20 de mayo de 2026 en el portal oficial de Qwen AI.

Según Alibaba, el nuevo sistema representa una evolución respecto de Qwen3-LiveTranslate-Flash, ampliando el soporte de entrada desde 18 hasta 60 idiomas y ofreciendo salida de voz en 29 idiomas diferentes. La compañía señaló que la arquitectura fue diseñada específicamente para aplicaciones de interpretación simultánea en videoconferencias, eventos internacionales, transmisiones en vivo y entornos corporativos multilingües.

Uno de los aspectos más destacados del modelo es su capacidad multimodal. A diferencia de sistemas tradicionales que dependen exclusivamente del audio, Qwen3.5-LiveTranslate-Flash también analiza información visual en tiempo real, incluyendo movimientos labiales, texto presente en pantalla, objetos y gestos del interlocutor. Alibaba sostiene que esta combinación mejora el rendimiento en situaciones con ruido ambiental, mala calidad de sonido o múltiples voces superpuestas.

La empresa también informó que el sistema incorpora clonación de voz en tiempo real. Esto permite que la traducción sintetizada conserve características similares a la voz original del hablante, utilizando apenas una breve muestra de audio para adaptar la salida generada por IA.

Otro componente orientado al sector profesional es la posibilidad de cargar glosarios dinámicos especializados. Los desarrolladores pueden incorporar terminología médica, jurídica, técnica o corporativa durante la ejecución del sistema, reduciendo errores en nombres propios o vocabulario altamente específico.

Alibaba indicó que el modelo funciona mediante infraestructura WebSocket sobre Alibaba Cloud Model Studio y se ofrece inicialmente como API cerrada bajo el identificador “qwen3-livetranslate-flash-realtime”.

La presentación se produce en un contexto de creciente competencia global en inteligencia artificial multimodal, donde empresas como Google, OpenAI, Meta y Microsoft también avanzan en asistentes capaces de comprender simultáneamente texto, voz, imágenes y video. Alibaba busca posicionar la familia Qwen como una de las principales plataformas de IA generativa desarrolladas en China para mercados internacionales.

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio