МЕТА - Украинская поисковая система
Первая страница  Ukraine Стартуйте с МЕТЫ!
  ПОИСКОВЫЕ ПРИМЕТЫ  КАК СОСТАВИТЬ ЗАПРОС  ПАРАМЕТРЫ ЗАПРОСА
Поиск в Украине:
Добавить URL 
Контакт 
 
СОДЕРЖАНИЕ

   Как составить запрос

   Поисковые приметы

   Наши новости

   Публикации

   Добавление URL

   Web-мастеру

   Наши баннеры

   Реклама

   Контакт





НОВЫЕ ВОЗМОЖНОСТИ ПОИСКА
Юрий Назаров
(Журнал ИНТЕРНЕТ-МАРКЕТИНГ, 13.01.2000)

МЕТАИНФО
 Первая страница
 Сайт недели
 Re:Search

     На поисковой системе <МЕТА> заработала поддержка морфологии украинского языка. Такая возможность появилась в Интернет впервые. Теперь искать по украинским ключевым словам так же удобно и эффективно, как до этого по русским. Например, по запросу: Новий Рік будут найдены документы, содержащие слова "новим роком", "нового року", по запросу Різдво Христове будут найдены "Різдва Христова", "Різдвом Христовим" и т.д.
     С поисковой точки зрения данная технология позволила существенно расширить полноту поиска по документам на украинском языке. Можно найти не только "государственные учреждения", "частную фирму", "украинские новости", но и державні установи, приватну фірму, українські новини.
     Во многих случаях поиск по украинскому слову дает более полные и релевантные ответы (запрос "гетман" -- 127 документов, запрос гетьман -- 523 документа, запрос "гривна" -- 4416 документов, запрос гривня -- 5217 документов) либо существенно расширяет количество найденных страниц (запрос "казак" -- 635 документов, запрос козак -- 620 документов, запрос "государство" -- 7562 документа, запрос держава -- 6219 документа). Что касается поиска по украинским словам, содержащим украинские буквы є, і, ї, апостроф, то здесь новая возможность просто незаменима.

ПОИСК С УЧЕТОМ ФОРМ УКРАИНСКИХ СЛОВ СТАЛ ВОЗМОЖЕН БЛАГОДАРЯ УНИКАЛЬНОЙ РАЗРАБОТКЕ:
ТЕХНОЛОГИИ МОРФОЛОГИЧЕСКОЙ ПОДДЕРЖКИ, АНАЛИЗА И СИНТЕЗА ДЛЯ УКРАИНСКОГО ЯЗЫКА.

Данная технология позволяет:
   - строить для произвольной формы некоторого украинского слова его нормальную (словарную) форму, то есть именительный падеж единственного числа для существительных, именительный падеж мужского рода для прилагательных, инфинитив для глаголов и т. д.;
   - извлекать грамматические описания словоформ, то есть определять часть речи, время, лицо, число, род, падеж и прочие грамматические характеристики формы;
   - выполнять обратную операцию -- строить по нормальной форме и грамматическому описанию текст требуемой словоформы;
   - выполнять проверку правописания, то есть отвечать на вопрос, есть ли такое слово;
   - предлагать варианты замены для неправильно написанных слов.

     Технология представляет собой высокопроизводительный конечный автомат -- программный модуль, позволяющий достигать высокой скорости работы -- более 2.000 слов в секунду в режиме нормализации, более 10.000 слов в секунду в режиме проверки правописания (процессор Pentium 100). Объем словаря составляет более 120.000 словооснов, которые описываются более чем 1.500 грамматическими классами.
     Помимо использования в информационно-поисковых системах, данная технология может использоваться в базах данных, системах контроля орфографии, грамматики и других разработках, в которых особо важной является корректная работа с текстами на украинском языке. Исходные тексты могут быть откомпилированы практически для любой аппаратной платформы, предусмотрена возможность пополнения словаря и ввода новых грамматических классов.
      Интересно отметить, что по сравнению с началом 1999 года доля запросов, поступающих на украинском языке, выросла на 10 процентов (с 2 до 12), а объем документов на украинском языке в поисковой базе данных на сегодняшний день уже составляет 22 процента. Так что можно предположить, что уже в скором будущем поддержка украинской морфологии станет ключевым условием качественной работы украинских информационно-поисковых систем и других средств поиска информации в Украине.


Перейти к списку публикаций >>


Перейти к списку публикаций >>



Помощь | Добавить URL | Web-мастеру | Наши баннеры | Реклама | Наши новости | Публикации | Контакт
Rambler's Top100