Tencent выпустила HunyuanVideo — продвинутую модель искусственного интеллекта для создания видеороликов, код и веса которой впервые стали доступны для всех. Это открытие знаменует важный шаг в развитии технологий генерации видео.
HunyuanVideo, по словам Tencent, соперничает с лучшими закрытыми системами, демонстрируя высокое качество изображения, сложную анимацию объектов, синхронизацию звука и видео, а также стабильность при генерации. Модель включает 13 миллиардов параметров и предоставляет полный пакет инструментов: управление данными, совместное обучение моделей для работы с изображениями и видео, а также инфраструктуру для масштабного обучения и запуска моделей.
Ключ к успеху HunyuanVideo — использование гибридной архитектуры с подходом «двойной поток в одинарный» (Dual-stream to Single-stream). На первом этапе видео- и текстовые токены обрабатываются отдельно, что позволяет избежать помех. Затем эти данные объединяются в едином потоке, обеспечивая глубокую интеграцию визуальной и текстовой информации. Это позволяет модели улавливать сложные связи между смыслом текста и визуальным рядом, повышая производительность.
По оценкам экспертов, HunyuanVideo превосходит популярные закрытые системы, такие как Runway Gen-3 и Luma 1.6. Тестирование показало, что модель способна создавать видеоролики с детализацией и разнообразием, которые раньше были недоступны для открытых решений. Сделав HunyuanVideo общедоступной, Tencent открывает двери для широкой аудитории разработчиков и творческих специалистов. Это может привести к значительным изменениям в индустрии генерации видео, делая передовые технологии доступными каждому.