ua ru
Пожалуйста, заполните это поле
1

Как новый ИИ помогает работать с текстом, изображениями и видео одновременно

Новости компаний 15:05 - 04 августа 2025

Разработка сочетает генеративный ИИ и поисковые алгоритмы, что позволяет получать точные и контекстные ответы на сложные вопросы

Как новый ИИ помогает работать с текстом, изображениями и видео одновременно

Как новый ИИ помогает работать с текстом, изображениями и видео одновременно

На конференции ACL 2025 в Вене украинская исследовательница Марина Баутина, эксперт в области искусственного интеллекта, представила систему ИИ, способную работать с информацией из нескольких источников одновременно — текстов, изображений, таблиц и видео.

Разработка сочетает генеративный ИИ и поисковые алгоритмы, что позволяет получать точные и контекстные ответы на сложные вопросы. В материале — кратко о том, что это за система, как она работает и почему о ней стоит узнать больше уже сейчас.

Что такое ACL?

С 27 июля по 1 августа 2025 года в Вене прошла одна из самых влиятельных конференций в области искусственного интеллекта — ACL 2025 (Association for Computational Linguistics). Эта международная площадка объединяет исследователей, инженеров и компании, работающие над новейшими разработками в области языковых моделей, генеративного ИИ и обработки естественного языка.
Среди участников — Google DeepMind, Meta AI, Microsoft Research, Amazon, NVIDIA, а также быстрорастущие стартапы, в частности Anthropic, Cohere и Mistral.

Какую технологию представляет украинка?

В этом году на ACL 2025 Марина Баутина представила в формате постерного доклада решение, способное обрабатывать и комбинировать данные из разных форматов — текстов, изображений, таблиц и видео.
Система реализована в виде разговорного интерфейса на базе современных генеративных технологий. Она позволяет быстро находить нужную информацию и отвечать на сложные вопросы, учитывая весь контекст, а не только текстовую часть.

Как это работает?

Система использует подход поисково-усиленной генерации (retrieval-augmented generation, RAG) для формирования ответа. Сначала она находит релевантные данные из всех доступных источников и форматов, а затем формирует ответ. Такая способность работать с несколькими типами данных называется мультимодальностью.

«Наша цель — создать ИИ, который не ограничивается одним типом данных. Человек должен иметь возможность задать вопрос, а система сама определит, что нужно для ответа — таблица, картинка, видео или фрагмент текста. Это уже не просто чатбот — это настоящий интеллектуальный ассистент», — объяснила Марина.

Где такая система нужна больше всего?

Технология открывает новые возможности в тех сферах, где нужно быстро ориентироваться в большом объеме разнородной информации. В медицине система помогает врачам находить данные из электронных карт пациентов, медицинских изображений и анализов. В бизнесе — автоматизирует поиск по внутренним документам, отчетам и презентациям.

В образовательных учреждениях — создает персонализированных AI-помощников для студентов, отвечая на вопросы на основе учебников и лекций. На производстве — обеспечивает мгновенный доступ к технической информации и инструкциям.

Особенно полезной эта технология будет для сфер, где требуется быстрая реакция на изменения: в сфере права — для мониторинга новых нормативных актов и судебных решений в разных форматах, в сфере клиентской поддержки — для комплексного анализа запросов на основе истории взаимодействия, скриншотов, электронных писем и вложенных документов.

Кроме того, мультимодальный подход открывает перспективы для локализованных систем поддержки принятия решений — с учетом языковых, визуальных и структурированных источников, адаптированных под конкретные рынки, языки и профессиональные контексты.

Не пропустите интересное!

Подписывайтесь на наши каналы и читайте новости в удобном формате!

Главное за сегодня
Больше новостей