NVIDIA anuncia su nueva plataforma de inteligencia artificial acelerada por GPUs, NVIDIA Maxine, permite a los proveedores de videoconferencias mejorar enormemente la calidad de transmisión y ofrecer funciones impulsadas por inteligencia artificial que incluyen súper resolución, corrección de mirada y subtítulos en vivo
NVIDIA anunció hoy la plataforma NVIDIA Maxine, que proporciona a los desarrolladores un conjunto de software de videoconferencia de inteligencia artificial acelerado por GPU basado en la nube para mejorar la transmisión de video, la principal fuente de tráfico de Internet.
NVIDIA Maxine es una plataforma de inteligencia artificial de video en streaming nativa de la nube que hace posible que los proveedores de servicios lleven nuevas capacidades impulsadas por inteligencia artificial a las más de 30 millones de reuniones web que se estima que tienen lugar todos los días. Los proveedores de servicios de videoconferencia que ejecutan la plataforma en GPU NVIDIA en la nube pueden ofrecer a los usuarios nuevos efectos de inteligencia artificial, que incluyen corrección de mirada, superresolución, cancelación de ruido, reiluminación de rostros y más.
Debido a que los datos se procesan en la nube en lugar de en dispositivos locales, los usuarios finales pueden disfrutar de las nuevas funciones sin ningún hardware especializado.
“La videoconferencia es ahora parte de la vida cotidiana, ayudando a millones de personas a trabajar, aprender y jugar, e incluso ver al médico”, dijo Ian Buck, Vicepresidente y Gerente General de Computación Acelerada de NVIDIA. «NVIDIA Maxine integra nuestras capacidades de inteligencia artificial conversacional, audio y video más avanzadas para brindar una eficiencia revolucionaria y nuevas capacidades a las plataformas que nos mantienen a todos conectados».
La eficiencia revolucionaria de la IA reduce el ancho de banda para aumentar la calidad de las llamadas
La plataforma Maxine reduce drásticamente la cantidad de ancho de banda que se requiere para las videollamadas. En lugar de transmitir toda la pantalla de píxeles, el software de inteligencia artificial analiza los puntos faciales clave de cada persona en una llamada y luego vuelve a animar de manera inteligente la cara en el video del otro lado. Esto hace posible transmitir video con muchos menos datos fluyendo de un lado a otro a través de Internet.
Con esta nueva tecnología de compresión de video basada en IA que se ejecuta en las GPUs NVIDIA, los desarrolladores pueden reducir el consumo de ancho de banda de video hasta una décima parte de los requisitos del estándar de compresión de video de transmisión H.264. Esto reduce los costos para los proveedores y ofrece una experiencia de videoconferencia más fluida para los usuarios finales, que pueden disfrutar de más servicios impulsados por IA mientras transmiten menos datos en sus computadoras, tabletas y teléfonos.
Las funciones de IA mejoran las experiencias de videoconferencia
Los nuevos avances de los investigadores de NVIDIA que se incluirán en Maxine hacen que las videoconferencias se sientan más como una conversación cara a cara. Los proveedores de servicios de videoconferencia podrán aprovechar la investigación de NVIDIA research in GANs, o redes generativas de confrontación, para ofrecer una variedad de nuevas características.
Por ejemplo, la alineación de rostros permite que los mismos se ajusten automáticamente para que las personas parezcan estar enfrentadas durante la llamada, mientras que la corrección de la mirada ayuda a simular el contacto visual, incluso si la cámara no está alineada con la pantalla del usuario. Dado que las videoconferencias se han multiplicado por diez desde principios de año, estas funciones ayudan a las personas a participar en la conversación en lugar de mirar a la cámara.
Los desarrolladores también pueden agregar funciones que permitan a los participantes de la llamada elegir sus propios avatares animados con animación realista impulsada automáticamente por su voz y tono emocional en tiempo real. Una opción de fotograma automático permite que la transmisión de video siga al orador incluso si se aleja de la pantalla.
Con las funciones de IA conversacional impulsadas por NVIDIA Jarvis SDK, los desarrolladores pueden integrar asistentes virtuales que utilizan modelos de lenguaje de IA de última generación para el reconocimiento de voz, la comprensión del lenguaje y la generación de voz. Los asistentes virtuales pueden tomar notas, establecer elementos de acción y responder preguntas con voces humanas. Los servicios de inteligencia artificial conversacional adicionales, como traducciones, subtítulos y transcripciones, ayudan a garantizar que los participantes puedan comprender lo que se está discutiendo en la llamada.
La arquitectura nativa de la nube ofrece ahorros e inteligencia artificial a escala
La demanda de videoconferencias en un momento dado puede ser difícil de predecir, ya que cientos o incluso miles de usuarios pueden intentar unirse a la misma llamada. NVIDIA Maxine aprovecha los microservicios de IA que se ejecutan en los clústeres de contenedores de Kubernetes en las GPUs de NVIDIA para ayudar a los desarrolladores a escalar sus servicios de acuerdo con las demandas en tiempo real. Los usuarios pueden ejecutar múltiples funciones de IA simultáneamente mientras se mantienen dentro de los requisitos de latencia de la aplicación.
Los proveedores de servicios de videoconferencia pueden usar Maxine para brindar capacidades de inteligencia artificial líderes a cientos de miles de usuarios mediante la ejecución de cargas de trabajo de inferencia de inteligencia artificial en las GPUs de NVIDIA en la nube. El diseño modular de la plataforma Maxine permite a los desarrolladores seleccionar fácilmente las capacidades de IA para integrarlas en sus soluciones de videoconferencia.
Suite All-Star de Desarrollador de herramientas de IA de NVIDIA
La plataforma Maxine integra tecnología de varios SDK y API de NVIDIA AI. Además de NVIDIA Jarvis, la plataforma Maxine también aprovecha el SDK de transmisión de audio y video de alto rendimiento de NVIDIA DeepStream y el SDK de NVIDIA TensorRTTM para la inferencia de aprendizaje profundo (Deep learning) de alto rendimiento.
Las capacidades de audio, video y lenguaje natural de IA proporcionadas en los SDK de NVIDIA utilizados en la plataforma Maxine se desarrollaron a través de cientos de miles de horas de capacitación en sistemas NVIDIA DGXTM systems, la plataforma líder mundial para cargas de trabajo de capacitación, inferencia y ciencia de datos.
Disponibilidad
Los desarrolladores de inteligencia artificial de visión por computadora, socios de software, empresas emergentes y fabricantes de computadoras que crean aplicaciones y servicios de audio y video pueden solicitar acceso anticipado al NVIDIA Maxine.
Recursos adicionales
Vídeo: Maxine Streaming Video AI SDK demo.
Vídeo: NVIDIA Research AI Video Compression demo.
Blog: AI Can See Clearly Now: GANs Take the Jitters Out of Video Calls.
Blog: NVIDIA Jarvis and Merlin Enter Open Beta, Enabling Conversational AI and Democratizing Recommenders.
Fuente Comunicae
Ir a la fuente
Author: