
Генератор видео по текстовому описанию - Sora от Open Ai

Но они его не дадут никому, кроме некоторых избранных, так что как тут верить? На волне хайпа сейчас каждый готов пообещать чудеса. К примеру, Гугл обещал, обещал сделать свою нейронку Gemini круче ChatGPT, а так и не смог. Правда люди пишут, что это произошло из-за чудовищного пресса многочисленных запретов, нейронку лоботомировали цензурой, а якобы Gemini наконец-то может писать внятные рифмы на русском языке, и вообще почти на любом.
Если предположить, что образцы видео на странице Sora - действительно сгенерированы нейронкой, то это очевидный огромный прыжок в генерации видео. Все, что было и есть сейчас - генерирует либо очень короткие ролики с эффектом "поворота камеры на несколько градусов", либо невероятно дрожащие, переливающиеся образы.
Пример известной генерации текущего поколения - "Уилл Смит есть спагетти". Это не Sora, это сгенерированное на нейронке видео полугодовой давности, которое отражает возможности 2023 года
Более популярная и качественная альтернатива у нынешних нейронок - это небольшое оживление статичной картинки. То есть берется пейзаж и немножко поворачивается из стороны в стороны. Берется портрет и немного оживляется лицо. При этом даже в качественных роликах заметны небольшие исчезновения или появления мелких деталей - совсем как при попытках генерации похожих одинаковых образов в разных ситуациях, что я пытался делать для комиксов.
Пример современной генерации видео. Вроде уже почти все хорошо, по сравнению с Уиллом Смитом, но допустимо ли такое дрожание образов в современной кинопродукции?
А теперь пример не видео, а картинки героя с разными позами в нейронке SDXL. Я привожу его только для того, чтобы вы могли отметить типичные проблемы генерации стабильного образа на нейронках, характерные для доступных систем как в статических фото, так и в видео. Мельчайшие и крупные пятна на лицах, морфирующий бэкграунд, мутирующий рюкзак.... Хотя в целом картинка и лицо остаются узнаваемыми, при попытке сделать хотя бы комикс всплывают все те же проблемы стабильности мелких деталей, что и в генеративных нейровидео 2023 года, как с танцующей девочкой выше.

Теперь давайте посмотрим, что якобы может Sora в начале 2024 года
Портрет крупным планом - хорошо прорисованное фотореалистичное лицо с мелкими деталями. При движении сохраняются те же черты лица, те же детали, нет дрожания и комкания, выглядит как настоящая съемка.
Китайский Новый год - очень много людей в кадре. Заметна некоторая неестественность движений, что, пожалуй, говорит в пользу реальной генерации на нейронке, но посмотрите, как стабильно от кадра к кадру воспроизводятся фигуры людей и какая хорошая у них анатомия (по сравнению с Уиллом Смитом на первом ролике)
Фантастическое видео в смысле сюжета - дельфины летающие в городе. Очень хорошее качество, нет дрожания, остается только вопрос - дешевли ли это и быстрее, чем рендерить с нуля в традиционном 3D пакете для подобной продукции?
Еще фантастики - мамонты
Больше видео - на странице https://openai.com/sora
Выводы
- Показанные ролики демонстрируют невероятный уровень качества видео по сравнению с видео, которые сейчас могут генерировать
- Показанные ролики показывают невероятный уровень консистентности, стабильности - пальцы не растут на ходу, детали лиц не меняются, число ногтей у мамонта остается прежним, горы и дома на заднем фоне сохраняют стабильность, как и требуется от фона.
- Длина роликов 9-20 секунд, достаточно чтобы рассмотреть
Если Sora от Open Ai действительно существует и дает генерацию видео по текстовому запросу с таким качеством - то это революция в малом и среднем кинобизнесе.
Скорее всего, как и ChatGPT, эту нейронку можно запустить на мощном серверном кластере, никак не дома, так что для прибыльной генерации Open Ai следует лишь указать цены ниже, чем могут дать самые нищие 3D-фрилансеры на Upwork.
|
</> |
