рейтинг блогов

Генератор видео по текстовому описанию - Sora от Open Ai

топ 100 блогов kvisaz16.02.2024 Open Ai (те, что сейчас держат ChatGPT) вчера рассказали, что у них есть чудесный генератор видео Sora - https://openai.com/sora

Но они его не дадут никому, кроме некоторых избранных, так что как тут верить? На волне хайпа сейчас каждый готов пообещать чудеса. К примеру, Гугл обещал, обещал сделать свою нейронку Gemini круче ChatGPT, а так и не смог. Правда люди пишут, что это произошло из-за чудовищного пресса многочисленных запретов, нейронку лоботомировали цензурой, а якобы Gemini наконец-то может писать внятные рифмы на русском языке, и вообще почти на любом.

Если предположить, что образцы видео на странице Sora - действительно сгенерированы нейронкой, то это очевидный огромный прыжок в генерации видео. Все, что было и есть сейчас - генерирует либо очень короткие ролики с эффектом "поворота камеры на несколько градусов", либо невероятно дрожащие, переливающиеся образы.

Пример известной генерации текущего поколения - "Уилл Смит есть спагетти". Это не Sora, это сгенерированное на нейронке видео полугодовой давности, которое отражает возможности  2023 года



Более популярная и качественная альтернатива у нынешних нейронок - это небольшое оживление статичной картинки. То есть берется пейзаж и немножко поворачивается из стороны в стороны. Берется портрет и немного оживляется лицо. При этом даже в качественных роликах заметны небольшие исчезновения или появления мелких деталей - совсем как при попытках генерации похожих одинаковых образов в разных ситуациях, что я пытался делать для комиксов.

Пример современной генерации видео. Вроде уже почти все хорошо, по сравнению с Уиллом Смитом, но допустимо ли такое дрожание образов в современной кинопродукции?



А теперь пример не видео, а картинки героя с разными позами в нейронке SDXL. Я привожу его только для того, чтобы вы могли отметить типичные проблемы генерации стабильного образа на нейронках, характерные для доступных систем как в статических фото, так и в видео. Мельчайшие и крупные пятна на лицах, морфирующий бэкграунд, мутирующий рюкзак.... Хотя в целом картинка и лицо остаются узнаваемыми, при попытке сделать хотя бы комикс всплывают все те же проблемы стабильности мелких деталей, что и в генеративных нейровидео 2023 года, как с танцующей девочкой выше.

Генератор видео по текстовому описанию - Sora от Open Ai




Теперь давайте посмотрим, что якобы может Sora в начале 2024 года

Портрет крупным планом - хорошо прорисованное фотореалистичное лицо с мелкими деталями. При движении сохраняются те же черты лица, те же детали, нет дрожания и комкания, выглядит как настоящая съемка.



Китайский Новый год -  очень много людей в кадре. Заметна некоторая неестественность движений, что, пожалуй, говорит в пользу реальной генерации на нейронке, но посмотрите, как стабильно от кадра к кадру воспроизводятся фигуры людей и какая хорошая у них анатомия (по сравнению с Уиллом Смитом на первом ролике)



Фантастическое видео в смысле сюжета - дельфины летающие в городе. Очень хорошее качество, нет дрожания, остается только вопрос - дешевли ли это и быстрее, чем рендерить с нуля в традиционном 3D пакете для подобной продукции?



Еще фантастики - мамонты



Больше видео - на странице https://openai.com/sora




Выводы

- Показанные ролики демонстрируют невероятный уровень качества видео по сравнению с видео, которые сейчас могут генерировать
- Показанные ролики показывают невероятный уровень консистентности, стабильности - пальцы не растут на ходу, детали лиц не меняются, число ногтей у мамонта остается прежним, горы и дома на заднем фоне сохраняют стабильность, как и требуется от фона.
- Длина роликов 9-20 секунд, достаточно чтобы рассмотреть


Если Sora от Open Ai действительно существует и дает генерацию видео по текстовому запросу с таким качеством - то это революция в малом и среднем кинобизнесе.

Скорее всего, как и ChatGPT, эту нейронку можно запустить на мощном серверном кластере, никак не дома, так что для прибыльной генерации Open Ai следует лишь указать цены ниже, чем могут дать самые нищие 3D-фрилансеры на Upwork.

Оставить комментарий

Архив записей в блогах:
 Я давно начала подозревать. Сейчас, когда подозрения подтвердились, я нахожусь в шоке и не могу прийти в себя.  Вот чего не могла я предположить, так этого. Думала, что это совпадение - не может быть все так просто. Но нет, это не ошибка - это упрямая реальность, которая гово ...
Тяпница, вечер, плеснул полтишек хорошего рома, листаю инторнетики...И вновь натыкаюсь на очередные записки белорусиков о восхитительной стране Украине. И как там хорошо-свободно. И никто не угнетает. И нациков нет. И на русском оказывается можно разговаривать. И море тёплое. И люди ...
Глава региона отметил, что обстановка на КПП «Салла» в Кандалакшском районе была полностью урегулирована . Так, 58 человек успели 23 ноября пересечь границу с Финляндией до полного закрытия КПП «Салла», а 55 иностранных граждан будут перевезены оттуда в МАПП «Лотта ». По словам ...
 Ситуация такова: сегодня приобрёл новый MacBook с Mac OS X 10.6.1. он не хочет у меня подключатся к интернету, т.е саму сеть wi-fi (раздаю через роутер D-Link) он видит, подключается, но без доступа к интернету. пробывал и автоматические настройки и ручные, ...
Эту «крамольную» мысль на своем сайте высказала испанка Элене Лоренцо, врач, специализирующаяся на сексуальной ориентации людей с однополым влечением. И ее тут же заклевали – ассоциация Arcópoli, которая отстаивает права геев, лесбиянок, би- и транссексуалов, обвинила врача в гомофобии и ...