Расчёт BM25 по зонам документа
Приветствую, Александр.
Действительно, вы правы, значение текстовой релевантности по алгоритму BM25 считается по ряду зон документа. Данная модификация алгоритма и носит название BM25F. Буква «F» является сокращением от английского слова field — зона (область) и указывает на расчёт значения релевантности отдельно для определенных зон документа.
Вычисленные по BM25 значения, вероятно, входят в формулу ранжирования Яндекса в качестве отдельных факторов. К числу анализируемых зон относятся:
- Заголовок документа Title.
- Текст документа, но с рядом модификаций:
- стандартный вариант
- с «угасающим» весом от начала документа (приоритет отдается вхождениям в начале текста)
- только по точным вхождениям
- по части слов из запроса (скажем, по парам слов)
- По текстовым заголовкам и фрагментам с акцентами (strong и т.п.).
- По текстам анкоров исходящих с документа ссылок (вероятно, внутренних).
- По URL-адресу документа (вспоминаем про важность ЧПУ).
Рост BM25 при росте TF: расчёт

Не BM25 единым
Конечно, при анализе текстовой релевантности документа используются и другие формулы, и подходы, учитывающие:
- Наличие/отсутствие точных вхождений многословного запроса в документе.
- Взаимное расположение слов из запроса (пар слов) в документе.
- Сочетание Title и текста документа.
- Соответствие языковой модели.
Удачи в самостоятельной оптимизации документов и выводу запросов в ТОП!
Презентация по текстовой релевантности
Дата ответа:
24.10.2015
Автор ответа: Дмитрий Севальнев