Тексти

ChatGPT навчили «знімати» відео. Знайомтеся — Sora, новий продукт OpenAI, конкурент операторів і аніматорів. Розповідаємо, як він працює і чому насправді дуже небезпечний

Автори:: Антон Семиженко, Юліана Скібіцька
Дата:: 18:35, 16 лютого 2024

Скриншот / OpenAI

Компанія OpenAI, яка розробила ChatGPT, представила генератор відео Sora. Він може створювати дуже реалістичні HD-відео тривалістю до хвилини. А ще — «редагувати» вже існуючі справжні або штучні відео, додумувати для них передісторію чи завершення. Потенційно це означає, що із Sora кожен зможе легко створювати переконливі відеофейки. В OpenAI запевняють, що постараються цього уникнути, але чи вийде? Журналіст «Бабеля» Антон Семиженко почитав технічний опис проєкту й розповідає, як саме OpenAI вдалося досягти такої реалістичності та чим це загрожує Тейлор Свіфт, путіну і кожному з нас.

Як OpenAI вдалося створити генератор відео

В основі Sora ― вже добре знайомий ChatGPT. Ось як це працює. Людина пише короткий запит, наприклад, «Зимове поселення в горах», а ChatGPT прописує детальний словесний «сценарій». Потім штучний інтелект візуалізує його і розбиває на елементи, які OpenAI назвала «клаптиками» — patches. Наприклад, на текстовий запит «людина всміхається» система підбирає відповідне зображення ― а тоді вписує цей «клаптик» у сотні інших і так формує цілісний кадр.

Як і сам ChatGPT, система Sora навчалася з кожним запитом, створювала групи все більш якісних зображень і обирала відповідні для кожної конкретної ситуації. Ось приклад, як у процесі розвитку програми змінювалося відео за запитом про вдягнутого в синю шапку щасливого собаку на зимовій прогулянці:

Браузер не підтримує відео

OpenAI / «Бабель»

На цих трьох роликах видно, що найскладніше завдання для Sora ― гармонійно поєднати різні елементи і зробити плавний перехід від однієї ситуації до іншої. Розробники назвали це «чистотою клаптиків». Щоб її досягти, в OpenAI багато працювали над тим, як обʼєднати можливості ШІ та генераторів зображень. Розробники дійшли до того, що Sora навчилася не лише створювати відео на основі словесних запитів, а й працювати з уже існуючими зображеннями чи відео.

Наприклад, якщо дати системі вже існуюче відео чи анімацію, вона завдяки запитам може «додумати», що було до чи після показаного на цих кадрах моменту. На основі короткого реального відео можна зробити довший ролик, згенерований ШІ. Тобто в одному відео поєднуються реальні події та згенеровані. Ось різні відео з однаковою кінцівкою:

Браузер не підтримує відео

OpenAI / «Бабель»

Що ще вміє Sora

Створювати відео на основі зображень ― реальних чи також штучних:

Браузер не підтримує відео

Текстовий запит під це відео був такий: «У рясно прикрашеній історичній залі зʼявляється величезна приливна хвиля. Двоє серферів, вловивши момент, вправно пливуть її поверхнею».

OpenAI / «Бабель»

Редагувати вже існуючі відео ― наприклад, у ролику про поїздку автівкою рідколіссям змінити фон на джунглі.
Поєднувати зображення з двох різних відео в одному. Наприклад ось так:

Браузер не підтримує відео

OpenAI / «Бабель»

Створювати зображення. Для Sora це просто відео тривалістю в один кадр.
Змінювати положення «камери». Це означає, що всі обʼєкти на згенерованих відео ― тривимірні.
«Повертати» персонажа в кадр. Найскладнішим було зробити так, щоб цей персонаж повернувся незмінним.
Створювати зображення в різних форматах і з різною роздільною здатністю. Технічно простіше робити ШІ-відео квадратним, але Sora обійшла це обмеження.
Робити зображення реалістичним у дрібницях. Наприклад, на відео, де штучно згенерована людина кусає штучно згенерований бургер, на ньому лишаються сліди від зубів.

Чого цей робот поки не вміє

Програмі поки не вдається реалістично показати розбите скло, тому склянка іноді просто не розбивається. Також є проблеми з раптовою появою на відео несподіваних елементів, які логічно зовсім не відповідають ситуації. Іноді ШІ плутає лівр і право. А ще — всі ці відео без звуку, і в компанії не кажуть, чи з’явиться він.

Браузер не підтримує відео

Задути свічки в штучної жінки не вийшло.

OpenAI / «Бабель»

Чи може Sora створити дипфейк про мене?

Технічно це елементарно. Але в OpenAI запевняють, що працюють над тим, щоб цього уникнути. По-перше, вони створять інструмент, який дозволить визначати, чи згенерував відео ШІ. По-друге, у компанії зараз навчають Sora перевіряти запити користувачів на предмет жорстокості, сексуального контенту, схожості з відомими людьми та використання будь-чиїх особових даних. Окремо Sora перевірятиме кожен кадр згенерованого зображення на відповідність цим стандартам безпеки ― і лише після цього відправлятиме готове відео користувачу.

Тобто принизити у відео путіна чи Тейлор Свіфт не вийде?

Судячи з опису проєкту — ні. Однак існує надто багато способів описати бажану ситуацію іншими словами, і це визнають у команді OpenAI. У реальному світі запобіжників може не вистачити, і Sora зможе створювати відео, де, наприклад, схожа на Тейлор Свіфт згенерована людина краде картоплю фрі в кафе.

Розробники стверджують, що такі ситуації лише дадуть інформацію про те, як зробити можливості штучного інтелекту безпечнішими в майбутньому. Тим не менш в OpenAI, певно, розуміють ризики — Sora все ще на етапі закритого тестування. Невдовзі компанія дасть доступ до неї ліченим митцям і розробникам законодавства. А от коли генерувати відео зможе кожен, у OpenAI поки що не кажуть.

На «Бабелі» все справжнє — тут ви можете почуватися в безпеці. Підтримайте нас такими самими справжніми донатами: 🔸 у гривні, 🔸 Buy Me a Coffee, 🔸 Patreon, 🔸 PayPal: paypal@babel.ua.