Як функція Google Gemini перетворює фото на відео зі звуком

Нова функція Google Gemini, як ШІ перетворює фото на озвучене відео

11 Липня 2025

Google презентувала нову можливість у межах штучного інтелекту Gemini — перетворення звичайних фотографій у відео з автоматично згенерованою озвучкою. Користувач завантажує зображення, додає текстовий опис руху та звуку — і за кілька секунд отримує відео до 8 секунд із синхронізованим візуальним і аудіо-рядом, пише MigNews.

Contents

Як працює перетворення фото у відео з озвученням
Кому доступна нова функція і коли вона запрацює

Технологія побудована на відеомоделі Veo 3, яка вже використовувалася в інструменті Flow для генеративного кіновиробництва. В Gemini ця можливість інтегрована напряму — без потреби відкривати окремі застосунки.

Як працює перетворення фото у відео з озвученням

Користувач активує функцію через панель “Tools” у веб-версії або мобільному додатку Gemini. Завантажується зображення, до якого додається опис бажаних рухів і, за потреби, сценарій звуку. Це можуть бути:

Фонові шуми (дощ, вітер, вулиця)
Голосові репліки
Звуки природи або побуту (пташки, вода, клацання, двигуни)

ШІ синхронізує аудіо з анімацією, створюючи динамічний ролик у форматі MP4 з роздільною здатністю 720p у співвідношенні 16:9. Відео містить візуальний водяний знак та прихований цифровий маркер SynthID — підтвердження штучного походження контенту.

Кому доступна нова функція і коли вона запрацює

Початковий реліз відбувається в “окремих регіонах” і лише для передплатників Google Gemini Ultra та Pro. На веб-платформі функція вже активна, а в мобільних застосунках з’явиться протягом тижня. Паралельно Google розгортає оновлення для Flow у 75 нових країнах.

Чим можливості Google Gemini відрізняються від інших відео-AI

У порівнянні з іншими інструментами, Gemini зосереджений не лише на візуальному шарі. Його ключова особливість — інтегрована озвучка, яка не просто супроводжує відео, а підлаштовується під сюжет. Це відкриває нові сценарії використання: оживлення малюнків, створення освітнього контенту, генерація рекламних кліпів на ходу.

Компанія активно конкурує в сегменті генеративного мультимедіа з Meta, OpenAI та Runway. Інтеграція інструментів озвучки й анімації напряму в користувацький ШІ-помічник — це крок до утвердження Gemini як універсального креативного середовища. Саме мультимодальні можливості стають ключовим полем конкуренції між AI-платформами у 2025 році. Раніше ми писали про те, як правильно доглядати за кухонними дошками.