El modelo Voyager de Tencent mejora la generación del mundo 3D con la tubería de datos automatizada


Tencent ha anunciado el lanzamiento de Voyager, una adición avanzada a su Hunyuan -Cosystem, que se basa en el modelo HunyuanWorld 1.0 lanzado en julio. Voyager está diseñado para facilitar la innovadora síntesis de video y la generación 3D, utilizando tecnología avanzada para automatizar la tubería de datos involucrada en la capacitación del modelo.

Para optimizar el proceso de capacitación, los investigadores de Tencent crearon un software avanzado que analiza de forma autónoma una amplia gama de videos existentes. Este software procesa los movimientos de la cámara y calcula la profundidad de cada cuadro, lo que elimina de manera efectiva la necesidad de un etiquetado manual de imágenes extensas. En total, investigó más de 100,000 videoclips, la recopilación de datos de grabaciones e imágenes del mundo real generados a través de Unreal Engine generado por la computadora.

Los requisitos computacionales del modelo Voyager son considerables, lo que requiere un mínimo de memoria GPU de 60 GB para la salida de la resolución de 540p; Sin embargo, Tencent sugiere que 80 GB producirán resultados superiores. En un intento por promover la accesibilidad, Tencent ha puesto a disposición los pesos del modelo en una cara de abrazo, junto con un código que es adecuado para una sola y múltiples configuraciones de GPU.

A pesar de las posibilidades innovadoras, Voyager viene con estrictas restricciones de licencia. Su uso está en particular prohibido en regiones como la Unión Europea, el Reino Unido y Corea del Sur. Además, cada aplicación comercial requiere más de 100 millones de usuarios activos mensuales un acuerdo de licencia por separado con Tencent.

En WorldScore Benchmark, una métrica desarrollada por investigadores de la Universidad de Stanford, Voyager logró un puntaje impresionante de 77.62, mejor que realizar competidores como Wonderworld, que anotó 72.69, y Cogvideox-I2V, anotó 62.15. Voyager mostró una fuerza especial en áreas específicas, como el control de objetos, donde obtuvo 66.92, consistencia de estilo a 84.89 y la calidad subjetiva general en 71.09. Sin embargo, logró el segundo lugar en el control de la cámara, con una puntuación de 85.95, detrás de los impresionantes 92.98 de WonderWorld. WorldScore -Benchmark evalúa diferentes métodos de generación mundial basados ​​en criterios múltiples, incluida la consistencia 3D y el contenido de contenido.

Aunque estos resultados de referencia indican un potencial considerable, los cálculos requeridos son una barrera considerable para una implementación más amplia. Para los desarrolladores que buscan soluciones de procesamiento más rápidas, el sistema admite una inferencia paralela en múltiples GPU a través del marco XDIT, lo que permite procesar aproximadamente 6.69 veces más rápido que las configuraciones tradicionales de una sola glóbulo.

Dadas las limitaciones tecnológicas actuales y el desafío de producir mundos virtuales largos y coherentes, puede llevar tiempo para que las experiencias interactivas en tiempo real basadas en esta técnica se generalicen. Sin embargo, el progreso ilustrado por Voyager sugiere que estamos al comienzo de una nueva forma de arte interactiva y generativa que recuerda a los experimentos realizados por las empresas como Google con sus proyectos innovadores.



Fuente

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí