Шумовые слова
Стоп-слова, или Шумовые слова, — термин из теории поиска информации по ключевым словам.
Стоп-слова могут делиться на общие и зависимые.
К общим можно отнести предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), также они игнорируются при построении инвертированного индекса. Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции.
Зависимые стоп-слова зависят от поисковой фразы. Идея заключается в том, чтобы по-разному учитывать отсутствие просто слов из запроса и зависимых стоп-слов из запроса в найденном документе.
Например, при поиске по запросу Пушкин Александр Сергеевич, есть смысл отобразить все документы содержащие:
- Пушкин, Александр, Сергеевич
- Пушкин, Александр
- Пушкин, Сергеевич
- Пушкин
Но вряд ли есть смысл отображать документы, содержащие только:
- Александр, Сергеевич
- Александр
- Сергеевич
То есть в данном запросе шумовыми словами являются Александр и Сергеевич.
Зависимые стоп-слова отличаются тем, что в поисковом запросе их следует учитывать только при наличии в искомом документе значимых ключевых слов.
Литература
- Гращенко Л. А. О модельном стоп-словаре // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук — 2013. — № 1(150). — С. 40-46.