Стемминг

26.05.2017

Cтемминг (от англ. stemming) — это поиск основы слова, учитывающий морфологию исходного слова. Стемминг выполняет морфологический разбор слова, находит общую для всех его грамматических форм основу, отсекая суффиксы и окончания.

Принцип работы стемминга

Поисковые системы, применяя в алгоритмах работы механизм стемминга, дают возможность производить поиск веб-документов с учетом морфологии слова. Это значит, что при вводе пользователем запроса, поисковая машина учитывает все словоформы данного слова, отражая это в поисковой выдаче. К примеру, при отправлении поискового запроса «колодец» в поисковой выдаче будут также присутствовать все словоформы с основой введенного слова, такие как, «колодцы», «колодца», «колодцем» и т.д.

Анализатор стемминга mystem

Поисковая система Яндекс для морфологического поиска разработала программу mystem. Анализатор свободно распространяется для некоммерческого использования. Доступны версии для наиболее распространенных ОС: Windows, MacOS X, Linux и FreeBSD. Анализатор mystem дает возможность привести слова к начальной (словарной) форме, узнать их частоту употребления в русском языке и грамматические характеристики. В версии 1.0 был доступен морфологический анализ английского текста. Программа mystem использует для анализа словарь часто употребляемых русских слов и предлагает гипотетическую начальную форму для остальных.

Принципы классификации словоформ существенно отличаются от общепринятых:

  • времена делятся на непрошедшее и прошедшее;
  • в одну парадигму (список словоформ) включены многие глаголы, отличающиеся суффиксом, совершенного и несовершенного вида (открывать {открывать}, открыть {открывать}).

Анализатор mystem лег в основу программного обеспечения для морфологической разметки Национального корпуса русского языка (разработчики Панкратов Д.В., Поляков А.Е. и Титов В.А.).

Курс

Курс по продвижению сайтов

Курс

Курс по заработку на своем сайте

Мои обучающие видео

На моем Youtube-канале я расказываю о тонкостях продвижения сайтов, делясь своим опытом

MaskVideoSmall

Кейс #2 - продолжение. Вывод запросов в ТОП-1 по России

MaskVideoSmall

Кейс #4 - Небольшой сайт по всей России с 0 до 250 чел/сут.

MaskVideoSmall

Как составлять мета-теги Title, Description, H1

MaskVideoSmall

Когда начинает идти трафик на сайт и можно начать зарабатывать?

    Задайте свой вопрос


      Записаться на курс


      Выбранный тариф: Все включено

        Записаться на курс


        Выбранный тариф: Все включено

          Отправить видео-отзыв