«Сбер» представил большое обновление генеративной нейросети Kandinsky. С обновлением до Kandinsky 3.0 значительно улучшилась генерация иллюстраций, а новая Kandinsky Video первой из российских нейросетей способна создавать видеоролики.
Начнём с Kandinsky 3.0. Главным нововведением по сравнению с версией 2.2 стало улучшенное распознавание запросов: генерация теперь точнее соответствует промту без ущерба качеству. Кроме того, кратно увеличилось качество понимание запросов на тему отечественного культурного кода — героев советских и российских фильмов и мультиков. Разницу наглядно показали на запросах с Чебурашкой и домовёнком Кузей:
Слева результаты генерации с Kandinsky 3.0, справа — с Kandinsky 2.2. Иллюстрации: «Сбер»Также показали сравнение со старыми версиями Kandinsky и другими популярными моделями — Midjourney (подписана как MJv.52), Stable Diffusion XL (SDXL) и DALL-E 3. Вот результаты генерации по запросу «красивая девушка»:
Ещё одним нововведением стали режимы Inpainting и Outpainting — возможность «вписать» новый объект в существующую картинку или дорисовать её (напоминает генеративную заливку в Photoshop). Вот пример дорисовки:
Kandinsky Video позволяет создавать небольшие анимации по текстовому запросу — до 8 секунд с частотой около 30 кадров в секунду и разрешением до 512 пикселей по большей стороне. Высоту и ширину может задавать пользователь.