Google запустила перекладач Gemini 3.5: він зберігає голос і стирає кордони
Американська корпорація презентувала революційну нейромережу для безперервного перекладу розмов
Google запустила перекладач Gemini 3.5: він зберігає голос і стирає кордони / Фото: Google
Компанія Google офіційно анонсувала запуск своєї найновішої та найдосконалішої моделі для перекладу мовлення в реальному часі — Gemini 3.5 Live Translate. Ця подія стала справжнім проривом у сфері штучного інтелекту, адже нова система здатна миттєво розпізнавати понад 70 мов світу та генерувати абсолютно плавне, природне за звучанням перекладене мовлення. Найбільшою інновацією стало те, що ШІ зберігає унікальну інтонацію, темп та навіть висоту голосу оригінального мовця, роблячи спілкування максимально людяним та емоційно забарвленим.
Деталі
Якщо раніше міжнародні переговори, подорожі чи онлайн-зустрічі супроводжувалися незручними затримками через роботу алгоритмів минулого покоління, то тепер технологія дозволяє вести діалог так, ніби співрозмовники володіють однією мовою. Це відкриває безпрецедентні можливості для глобального бізнесу, освіти та повсякденного спілкування людей з різних куточків планети.
Як працює новий синхронний переклад від Google
Головна відмінність Gemini 3.5 Live Translate від попередніх ітерацій полягає в архітектурі самої моделі. Інженери Google змогли подолати фундаментальну проблему машинного перекладу — затримку на обробку контексту.
Безперервність замість незручних пауз
Традиційні системи покрокового перекладу завжди функціонували за принципом рації: вони змушені чекати, поки людина повністю завершить свою думку, і лише після цього починають генерувати відповідь іншою мовою. Gemini 3.5 працює інакше. Завдяки величезним обчислювальним потужностям, ця модель генерує мовлення безперервно.
"3.5 Live Translate постійно створює аудіопотік, філігранно балансуючи між необхідністю почекати на контекст для максимальної точності та потребою перекладати негайно, щоб залишатися синхронізованою зі спікером", — пояснюють розробники Google.
В результаті слухач чує ідеальний аудіопотік без дратівливих пауз, а ШІ відстає від мовця всього на кілька секунд протягом усієї розмови. Більше того, система автоматично розпізнає мову співрозмовника і зберігає стабільність навіть у дуже шумних умовах: на вулиці, в кафе чи в метро.
Захист від дезінформації за допомогою SynthID
З огляду на те, що ШІ навчився ідеально копіювати голос та інтонації, постає логічне питання безпеки. Щоб запобігти створенню діпфейків та поширенню дезінформації, Google запровадила жорсткі протоколи маркування. Увесь згенерований аудіоконтент непомітно для людського вуха позначається цифровим водяним знаком SynthID. Ця технологія глибоко вплітається в структуру звуку, дозволяючи спеціальним алгоритмам миттєво визначати, що мовлення було згенеровано штучним інтелектом.
Де вже можна спробувати новітню функцію
Google не стала зволікати з розгортанням технології, тому перші користувачі вже можуть протестувати її в дії на своїх пристроях.
Оновлення для Google Translate на Android та iOS
Gemini 3.5 Live Translate вже почала поступово з'являтися у фірмовому застосунку Google Translate для платформ Android та iOS. Щоб активувати функцію під час використання навушників, достатньо натиснути нову кнопку "Live translate" у лівому нижньому куті інтерфейсу.
Крім того, власники Android-смартфонів отримали ексклюзивний "режим прослуховування". Це геніальне у своїй простоті рішення: якщо у вас немає навушників, ви можете просто піднести телефон до вуха, як під час звичайного телефонного дзвінка, і динамік транслюватиме вам переклад слів вашого співрозмовника. Це ідеальний сценарій для живого спілкування за кордоном.
Глобальна інтеграція в Google Meet
Особливу радість новинка принесла корпоративним клієнтам. Як повідомляє видання 9to5google, функція також стрімко інтегрується в сервіс відеоконференцій Google Meet. Якщо раніше цей застосунок підтримував прямий переклад лише для п'яти мов (і здебільшого з прив'язкою до англійської), то підтримка понад 70 мов у новій моделі відкриває колосальні можливості. Тепер у межах однієї онлайн-зустрічі доступно понад 2000 унікальних мовних комбінацій. Для запуску функції у вебверсії Meet з'явилася спеціальна кнопка на панелі керування.
Наразі цей інструментарій розгортається у форматі закритого попереднього перегляду для обраних бізнес-клієнтів Google Workspace, але вже до кінця цього року очікується масштабний публічний реліз.
Можливості для розробників та бізнесу
Амбіції Google виходять далеко за межі власних продуктів. Gemini 3.5 Live Translate позиціонується як фундаментальна база для створення сторонніх сервісів. Модель уже доступна в публічному попередньому перегляді для програмістів через інструментарій Gemini Live API та платформу Google AI Studio.
Завдяки цьому розробники з усього світу можуть інтегрувати надпотужний перекладач у власні застосунки. Це відкриває двері для створення багатомовних кол-центрів нового покоління, платформ для онлайн-репетиторства, де викладач і учень розмовляють різними мовами, а також для синхронного перекладу прямих трансляцій на Twitch чи YouTube і міжнародних масштабних конференцій.
Три найкращі онлайн-перекладачі сучасності
Поява Gemini 3.5 Live Translate безумовно змінює правила гри, але на ринку текстового та голосового перекладу вже існують потужні гравці. Сьогодні користувачі найчастіше обирають між трьома гігантами індустрії, кожен з яких має свої сильні сторони.
DeepL: король контексту та природності
Німецький проєкт DeepL давно завоював серця професіоналів, лінгвістів та перекладачів. Його головна фішка — неймовірно глибоке розуміння контексту. На відміну від багатьох конкурентів, які часто перекладають речення "в лоб", DeepL використовує просунуті нейромережі, що аналізують текст цілком. Він пропонує ідіоматично правильні конструкції, ідеально підбирає синоніми та дозволяє користувачеві самостійно коригувати переклад, пропонуючи альтернативні варіанти для кожного слова. Хоча він підтримує меншу кількість мов (близько 30), якість обробки європейських мов тут вважається еталонною.
Google Translate: універсальний гігант
Беззаперечний лідер за популярністю. Google Translate пропонує підтримку понад 130 мов, що робить його абсолютно незамінним інструментом для подорожей. Його головна перевага — тотальна інтеграція в екосистему смартфонів та вебоглядачів. Користувачі обожнюють його за функцію перекладу тексту через камеру смартфона в реальному часі, можливість завантажувати офлайн-словники та безшовну роботу на будь-яких пристроях. А з упровадженням моделей родини Gemini його точність стрімко наближається до рівня людського сприйняття.
Microsoft Translator: надійний вибір для бізнесу
Продукт від Microsoft є потужною альтернативою, яка особливо цінується у корпоративному сегменті. Він глибоко інтегрований у пакет Microsoft 365, Skype та браузер Edge. Унікальною особливістю цього перекладача є режим "Conversation" (Розмова), який дозволяє підключати до 100 осіб на різних пристроях до єдиної кімнати, де кожен учасник пише або говорить своєю рідною мовою, а всі інші миттєво отримують переклад на свої екрани.
Конкуренти не відстають: новини від Apple
Звісно, на динамічному ринку технологій жодна інновація не залишається без відповіді, і паралельно з гучними анонсами від пошукового гіганта, інші ключові гравці також демонструють свої досягнення. Так, корпорація Apple офіційно дала старт своїй щорічній масштабній конференції для розробників WWDC 2026, урочисто презентувавши абсолютно нове покоління операційних систем, які об'єднують усю фірмову екосистему. Центральними подіями цього заходу стали довгоочікувані анонси: купертинівці показали свіжу мобільну платформу iOS 27, багату на ШІ-функції, а також оновлену версію настільної операційної системи macOS 27, що цьогоріч отримала гучну і символічну назву Golden Gate.
Не пропустіть цікавинки!
Підписуйтесь на наші канали та читайте новини у зручному форматі!