✔Сбер выпустил Kandinsky 5.0 – новое поколение моделей для генерации изображений и видео - «Новости мира Интернет»
На конференции AI Journey Сбер представил обновленную линейку AI-моделей Kandinsky 5.0 – она уже доступна в GigaChat. Модели Image Lite и Video Pro созданы для работы с базовыми задачами и профессиональным визуальным контентом.
Image Lite отвечает за генерацию HD-изображений: иллюстраций, концептов, стилизованных картинок по сложным запросам. Video Pro создает ролики длиной 5 секунд по промпту или начальному кадру: она может анимировать логотип, сделать визуальную зарисовку. Модели уверенно понимают запросы на русском, английском и корректно создают надписи на обоих языках – последнее для генераторов визуального контента до сих пор остается сложной задачей, и поэтому высоко ценится пользователями.
Kandinsky 5.0 обучали на масштабном массиве данных – в него вошли почти миллиард изображений и 300 миллионов видеороликов. Финальные этапы проходили на elitе-датасете, куда вошли тщательно отобранные художниками материалы с идеальной композицией и стилем. Благодаря этому новая версия делает акцент и на технической точности, и на художественной выразительности результата.
Модели интегрированы во все платформы GigaChat: веб-версию, приложение на Android, мессенджеры Telegram и Max. Еще Сбер открыл доступ к Kandinsky 5.0 на GitHub, Hugging Face, GitVerse и позволил разработчикам бесплатно использовать код и веса по лицензии MIT.
Одновременно компания предоставила доступ к стеку GigaChat и выложила модели K-VAE 1.0 для транскрибации речи и компактного представления изображений и видео.
Изображение на обложке: Сбер
