China podría tener pronto su propia versión del modelo de texto a video de OpenAI.

[Fuente]

Un grupo de investigadores y expertos en inteligencia artificial (IA) están colaborando para desarrollar la respuesta de China a Sora, el tan esperado modelo de texto a video de OpenAI.

Lo que es: Los profesores de la Universidad de Pekín y Rabbitpre, una empresa de IA con sede en Shenzhen, anunciaron su colaboración en una publicación de GitHub el viernes, la cual nombraron Open-Sora. El proyecto fue facilitado a través del Rabbitpre AIGC Joint Lab, un esfuerzo conjunto entre la empresa y la escuela de posgrado de la universidad.

Según el equipo, Open-Sora tiene como objetivo “reproducir el modelo de generación de video de OpenAI” con un repositorio “simple y escalable”. El grupo está buscando asistencia de la comunidad de código abierto para su desarrollo.

Progreso hasta el momento: Utilizando un marco de tres partes con los componentes Video VQ-VAE, Denoising Diffusion Transformer y Condition Encoder, el grupo ha generado muestras con diferentes proporciones de aspecto, resoluciones y duraciones para videos reconstruidos, incluidos clips de 10 y 18 segundos.

Tendencia en NextShark: Japón comienza la construcción del primer museo del mundo de arte de videojuegos

Sobre Sora: Revelado el 15 de febrero, Sora es el primer modelo de OpenAI de texto a video que puede crear instantáneamente videos de alta calidad y realistas utilizando solo indicaciones de texto. Hasta el momento, las duraciones pueden durar hasta un minuto.

Aunque la tecnología ha sido anunciada, OpenAI dijo que no tiene planes de hacer que Sora esté disponible para uso general en un futuro cercano. La empresa aún necesita abordar varios problemas, como reducir la desinformación, el contenido odioso y el sesgo, además de etiquetar adecuadamente el producto terminado.

LEAR  Informe del Miércoles - The New York Times

Tendencia en NextShark: Video de una niña mexicano-americana llorando porque no es china se vuelve viral

¿Qué sigue?: Rabbitpre AIGC Joint Lab ha establecido algunos de sus planes futuros para Open-Sora, que incluyen establecer una base de código y entrenar un modelo incondicional en conjuntos de datos de paisajes. Posteriormente, el grupo planea entrenar modelos para mejorar la resolución y duración como parte de sus etapas principales del proyecto.

El equipo también tiene planeado llevar a cabo experimentos en un conjunto de datos de paisajes de texto a video, entrenar su modelo de resolución 1080p (1920 x 1080) en un conjunto de datos de video a texto y desarrollar un modelo de control con condiciones adicionales.

 

Tendencia en NextShark: Mira: maquillador chino transforma a un hombre de 57 años en uno de 27

Descarga la aplicación NextShark:

¿Quieres estar al día con las noticias de los asiático-americanos? ¡Descarga la aplicación NextShark hoy mismo!