ua ru
Пожалуйста, заполните это поле
1

Apple представила свою модель искусственного интеллекта для редактирования изображений

Технологии 18:01 - 08 февраля 2024

Модель ИИ MGIE может редактировать изображения на основе текстовых инструкций на обычном языке

Логотип Apple

Apple выпустила свою модель ИИ для редактирования изображений/Фото: Laurenz Heymann/Unsplash

Apple представила новую модель искусственного интеллекта с открытым кодом под названием MGIE (MLLM-Guided Image Editing). Эта модель умеет редактировать изображения на основе текстовых инструкций на естественном языке.

Детали

MGIE использует мультимодальные большие языковые модели (MLLM) для интерпретации пользовательских команд и выполнения манипуляций на уровне пикселей. Этот ИИ может изменять изображения в стиле Photoshop, глобально оптимизировать фотографии и редактировать локально.

MGIE базируется на идее использования MLLM, являющихся мощными моделями искусственного интеллекта, которые могут обрабатывать как текст, так и изображения, для усовершенствования редактирования изображений на основе инструкций. MLLM показали чрезвычайные возможности в кросс-модальном понимании и генерировании визуальных ответов, но они не были широко применены для задач редактирования изображений.

MGIE интегрирует MLLM в процесс редактирования изображений двумя способами: во-первых, этот ИИ использует MLLM для получения внятных инструкций из введенных пользователем данных. Эти инструкции сжаты и понятны и содержат четкие указания по редактированию. К примеру, учитывая введение "сделать небо более голубым", MGIE может создать инструкцию "увеличить насыщенность области неба на 20%".

Во-вторых, он использует MLLM для создания визуального воображения, скрытого представления желаемого редактирования. Это представление отображает суть редактирования и может использоваться для управления манипуляциями на уровне пикселей. MGIE использует новую схему сквозного обучения, которая совместно оптимизирует модули вывода инструкций, визуального воображения и редактирования изображений.

MGIE может обрабатывать широкий спектр сценариев редактирования, от простых цветовых корректировок до сложных манипуляций с объектами. Модель также может выполнять глобальные и локальные редактирования в зависимости от пользовательских предпочтений.

MGIE может выполнять типовые редактирования в стиле Photoshop, например, обрезать, изменять размер, разворачивать и добавлять фильтры. Модель также может использовать более сложные редактируемые сценарии, такие как изменение фона, добавление или удаление объектов и смешивание изображений, а также добавление художественных эффектов.

Также ИИ может оптимизировать общее качество фотографии, такое как яркость, контрастность, резкость и цветовой баланс. MGIE может редактировать определенные области или объекты на изображении, например лицо, глаза, волосы, одежду и аксессуары. Модель также может изменять атрибуты некоторых областей или объектов, таких как форма, размер, цвет, текстура и стиль.

MGIE доступен как объект с открытым кодом на GitHub, где пользователи могут найти код, данные и предварительно обученные модели. Проект также предоставляет демонстрационный блокнот, показывающий, как использовать MGIE для различных задач редактирования. Пользователи также могут попробовать MGIE через веб-демонстрацию, размещенную на Hugging Face Spaces, платформе для совместного использования и совместной работы над проектами машинного обучения.

Ранее мы сообщали, что Apple активно работает над своим первым складным смартфоном. Этого стоило ожидать, ведь большинство крупных производителей уже имеют в своем ассортименте такие гаджеты сравнительно давно.

Источник: Venturebeat

Не пропустите интересное!

Подписывайтесь на наши каналы и читайте новости в удобном формате!

Главное за сегодня
Больше новостей