Google презентувала нову можливість у межах штучного інтелекту Gemini — перетворення звичайних фотографій у відео з автоматично згенерованою озвучкою. Користувач завантажує зображення, додає текстовий опис руху та звуку — і за кілька секунд отримує відео до 8 секунд із синхронізованим візуальним і аудіо-рядом, пише MigNews.
Технологія побудована на відеомоделі Veo 3, яка вже використовувалася в інструменті Flow для генеративного кіновиробництва. В Gemini ця можливість інтегрована напряму — без потреби відкривати окремі застосунки.
Як працює перетворення фото у відео з озвученням
Користувач активує функцію через панель “Tools” у веб-версії або мобільному додатку Gemini. Завантажується зображення, до якого додається опис бажаних рухів і, за потреби, сценарій звуку. Це можуть бути:
- Фонові шуми (дощ, вітер, вулиця)
- Голосові репліки
- Звуки природи або побуту (пташки, вода, клацання, двигуни)
ШІ синхронізує аудіо з анімацією, створюючи динамічний ролик у форматі MP4 з роздільною здатністю 720p у співвідношенні 16:9. Відео містить візуальний водяний знак та прихований цифровий маркер SynthID — підтвердження штучного походження контенту.
Кому доступна нова функція і коли вона запрацює
Початковий реліз відбувається в “окремих регіонах” і лише для передплатників Google Gemini Ultra та Pro. На веб-платформі функція вже активна, а в мобільних застосунках з’явиться протягом тижня. Паралельно Google розгортає оновлення для Flow у 75 нових країнах.
Чим можливості Google Gemini відрізняються від інших відео-AI
У порівнянні з іншими інструментами, Gemini зосереджений не лише на візуальному шарі. Його ключова особливість — інтегрована озвучка, яка не просто супроводжує відео, а підлаштовується під сюжет. Це відкриває нові сценарії використання: оживлення малюнків, створення освітнього контенту, генерація рекламних кліпів на ходу.
Компанія активно конкурує в сегменті генеративного мультимедіа з Meta, OpenAI та Runway. Інтеграція інструментів озвучки й анімації напряму в користувацький ШІ-помічник — це крок до утвердження Gemini як універсального креативного середовища. Саме мультимодальні можливості стають ключовим полем конкуренції між AI-платформами у 2025 році. Раніше ми писали про те, як правильно доглядати за кухонними дошками.