Искусственный интеллект Gemini от Google превзошел GPT и людей-экспертов в более чем 50 областях

Технологии 15:06 - 07 декабря 2023

Google планирует запустить эту впечатляющую модель ИИ на всех своих будущих устройствах

Искусственный интеллект Gemini от Google превзошел GPT и людей-экспертов в более чем 50 областях

Google представила новый поразительный искусственный интеллект Gemini/Фото: Sean Gallup/Getty Images

Google представила искусственный интеллект следующего поколения Gemini, утверждая, что он превосходит GPT-4 от OpenAI, а также экспертов-людей почти во всех основных тестах. Он понимает изображения, видео и аудио, а также текст и код.

В 2024 году россия планирует использовать ИИ для кибератак на Украину

Детали

С результатом 90,0% в тесте MMLU (понимание языка для многозадачной работы) это первая модель, превзошедшая экспертов-людей (89,8%), а также GPT-4 (86,4%) в ряде знаний и задач по решению проблем во всем мире. Новый ИИ лучше разбирается в 57 областях, включая математику, физику, историю, право, медицину и этику, чем эксперты, а не просто рядовые люди.

Исходный набор обучающих данных Gemini содержал не только текст, но и массу других форм информации. Таким образом, можно сказать, что он так же свободно владеет зрительным и слуховым "пониманием", как и текстовым. Это называется мультимодальностью, и можете посмотреть видео ниже, чтобы понять насколько это поразительно... и немного тревожно.

Искусственный интеллект учат со все большими наборами сенсорных данных, чтобы имитировать процессы, с помощью которых люди учатся взаимодействовать с миром. Как только эта штука появится на устройствах Google (начиная со следующих телефонов Pixel), она сможет помогать выполнять различные ежедневные задачи.

Генеральный директор Google Deepmind Демис Хассабис рассказал, что вскоре сенсорные навыки Gemini распространятся на касания и тактильную обратную связь. Google уже является главным игроком в робототехнике с искусственным интеллектом, но внедрение суперинформативной модели, например Gemini, способной понимать мир с помощью прикосновения, выведет робототехнику на неизведанную территорию.

В общем, очень трудно коротко очертить, на что способен Gemini. Например, на видео ниже ученые Deepmind демонстрируют, как ИИ может генерировать собственный код для чтения и интерпретации 200 000 научных исследований, фильтруя их на релевантность с помощью собственных "размышлений", а затем сравнивая данные и эффективно создавая новые метазнания. Это умение может помочь и в других отраслях, таких как законодательство, где нужно исследовать огромные наборы данных.

Говоря о программировании, Gemini владеет языками Python, Java, C++ и Go. Google уже демонстрирует, как он может создавать динамически кодируемые графические интерфейсы, когда вы их используете, в ответ на ваши пожелания. То есть вы можете зайти на страницу, которая будет меняться в зависимости от ваших пожеланий в реальном времени. Это как программист веб-приложений, работающий практически мгновенно.

Отдельного внимания заслуживает проект под названием AlphaCode 2, который использует несколько моделей Gemini и обучает их специально для различных частей процесса программирования.

AlphaCode 2 создает ряд агентов программирования и заставляет их генерировать до миллиона различных фрагментов кода для решения проблемы. Затем он использует отдельную модель Gemini, чтобы проверить эти образцы кода, проверить, компилируются ли они, и оценить их по тому, насколько хорошо они выполняют свою часть общей работы по кодированию, отбрасывая около 95% созданных образцов.

Затем другая модель Gemini разрабатывает режим тестирования кода и образцы тестовых данных, а также запускает процесс тщательного тестирования всех остальных образцов кода, оценивая их по правильности, чтобы найти лучшие фрагменты кода. То есть Gemini здесь выступает как многофункциональная программная команда, где специализированные искусственные интеллекты работают над анализом требований, проектированием системы, тестированием, развертыванием и обслуживанием.

В соревновании с людьми-программистами ИИ победил 87% участников. Как объясняют в Deepmind, такие конкурсы требуют гораздо больше, чем просто навыков кодирования – они требуют чрезвычайной степени рационального понимания и использования доступных программных инструментов.

Скорее всего, AlphaCode 2 не станет доступным для общественности в ближайшее время. Создание миллиона фрагментов кода требует огромной вычислительной мощности.

Google планирует выпустить этот ИИ в трех размерах моделей: Gemini Nano, созданный для мобильных устройств, Gemini Pro – приблизительный эквивалент GPT 3.5, который станет основной рабочей лошадкой для большинства задач, и Gemini Ultra, которая, по словам Google, легко превосходит GPT-4 в широком диапазоне тестов, особенно в мультимодальности.

Ранее мы сообщали, что американский производитель графических процессоров, видеоадаптеров Nvidia выпустил обновленный чип для генеративного искусственного интеллекта h200.

Источник: New Atlas

Google Новые технологии Искусственный интеллект иноСМИ

Не пропустите интересное!

Подписывайтесь на наши каналы и читайте новости в удобном формате!

Мы в Viber Мы в Instagram Мы в Telegram