Штучний інтелект Gemini від Google перевершив GPT та людей-експертів у понад 50 сферах
Google планує запустити цю вражаючу модель ШІ на усіх своїх майбутніх пристроях

Google представила новий вражаючий штучний інтелект Gemini/Фото: Sean Gallup/Getty Images
Google представила штучний інтелект наступного покоління Gemini, стверджуючи, що він перевершує GPT-4 від OpenAI, а також експертів-людей, майже у всіх основних тестах. Він розуміє зображення, відео та аудіо, а також текст і код.
Деталі
З результатом 90,0% у тесті MMLU (розуміння мови для багатозадачної роботи) це перша модель, яка перевершила експертів-людей (89,8%), а також GPT-4 (86,4%) у низці знань і завдань із вирішення проблем у всьому світі. Новий ШІ краще розуміється у 57 сферах, включаючи математику, фізику, історію, право, медицину та етику, ніж експерти, а не просто пересічні люди.
Вихідний набір навчальних даних Gemini містив не лише текст, а й масу інших форм інформації. Таким чином, можна сказати, що він так само вільно володіє зоровим і слуховим "розумінням", як і текстовим. Це називається мультимодальністю, й можете подивитися відео нижче, щоб зрозуміти наскільки це вражаюче... й трохи тривожно.
Штучний інтелект навчають із все більшими наборами сенсорних даних, щоб імітувати процеси, за допомогою яких люди вчаться взаємодіяти зі світом. Щойно ця штука з’явиться на пристроях Google (починаючи з наступних телефонів Pixel), вона зможе допомагати виконувати різноманітні щоденні завдання.
Генеральний директор Google Deepmind Деміс Хассабіс розповів, що незабаром сенсорні навички Gemini поширяться на дотик і тактильний зворотний зв’язок. Google уже є головним гравцем у робототехніці зі штучним інтелектом, але впровадження суперінформативної моделі, як-от Gemini, здатної розуміти світ за допомогою дотику, виведе робототехніку на незвідану територію.
Загалом дуже важко коротко окреслити, на що здатен Gemini. Наприклад, на відео нижче вчені Deepmind демонструють, як ШІ може генерувати власний код для читання та інтерпретації 200 000 наукових досліджень, фільтруючи їх на релевантність за допомогою власних "міркувань", а потім порівнюючи дані та ефективно створюючи нові метазнання. Це вміння може допомогти й в інших галузях, як-от законодавство, де потрібно досліджувати величезні набори даних.
Говорячи про програмування, Gemini володіє мовами Python, Java, C++ і Go. Google уже демонструє, як він може створювати графічні інтерфейси, які динамічно кодуються, коли ви їх використовуєте, у відповідь на ваші побажання. Тобто ви можете зайти на сторінку, яка буде змінюватися, залежно від ваших побажань в реальному часі. Це як програміст вебдодатків, який працює практично миттєво.
Окремої уваги заслуговує проєкт під назвою AlphaCode 2, який використовує кілька різних моделей Gemini та навчає їх спеціально для різних частин процесу програмування.
AlphaCode 2 створює рій агентів програмування та змушує їх генерувати до мільйона різних фрагментів коду для вирішення проблеми. Потім він використовує окрему модель Gemini, щоб перевірити ці зразки коду, перевірити, чи вони компілюються, і оцінити їх за тим, наскільки добре вони виконують свою частину загальної роботи з кодування, відкидаючи близько 95% створених зразків.
Потім інша модель Gemini розробляє режим тестування коду та зразки тестових даних, а також запускає процес ретельного тестування всіх решти зразків коду, оцінюючи їх за правильністю, щоб знайти найкращі фрагменти коду. Тобто Gemini тут виступає як багатофункціональна програмна команда, де спеціалізовані штучні інтелекти працюють над аналізом вимог, проєктуванням системи, тестуванням, розгортанням і обслуговуванням.
У змаганні з людьми-програмістами ШІ переміг 87% учасників. Як пояснюють у Deepmind, такі конкурси вимагають набагато більше, ніж просто навичок кодування – вони вимагають надзвичайного ступеня раціонального розуміння та творчого використання доступних програмних інструментів.
Швидше за все, AlphaCode 2 не стане доступним для громадськості найближчим часом. Створення мільйона фрагментів коду вимагає величезної обчислювальної потужності.
Google планує випустити цей ШІ в трьох розмірах моделей: Gemini Nano, створений для мобільних пристроїв, Gemini Pro – приблизний еквівалент GPT 3.5, який стане основною робочою конячкою для більшості завдань, і Gemini Ultra, яка, за словами Google, легко перевершує GPT-4 у широкому діапазоні тестів, особливо в мультимодальності.
Раніше ми повідомляли, що американський виробник графічних процесорів, відеоадаптерів Nvidia випустив оновлений чип для генеративного штучного інтелекту h200.
Не пропустіть цікавинки!
Підписуйтесь на наші канали та читайте новини у зручному форматі!