Что такое BM25

Алгоритм BM25

Впервые данный алгоритм встретил на Википедии и не обратил на него особого внимания. Позже изучая научные труды сотрудников Яндекса, я обратил внимание на то, что они ссылаются на него, например, в статье Сегаловича об алгоритмах определения нечетких дубликатов, поэтому решил разобраться, в чем смысл его использования. Постараюсь на простых примерах это объяснить. Итак, для чего этот алгоритм?

  • купить смартфон Samsung
  • купить смартфон Samsung Galaxy

image

Релевантность каждого из слова равна его IDF * на второй множитель в выражении выше. Релевантность всего поискового запроса равна сумме релевантностей всех слов. Таким образом, отсутствие слова или другими словами image(его частота) равна 0 дает релевантность 0. Поэтому если по двум первым словам score будет одинаково то более релевантным будет тот документ, который содержит слово Galaxy.

Второе. Преимущество при поиске в запросах с более чем 2-ух слов, одно из которых менее употребительно (более узкоспециализированное) будет отдаваться документам которые содержат это узкоспециализированное слово. Например, есть запрос купить Samsung Galaxy Note 2 (чисто иллюзорный пример). Пусть Note 2 – это более редкое слово (меньше раз встречается в коллекции чем Samsung и Galaxy). Пусть есть 2-а документа каждый из которых релевантен запросу и каждый из них содержит кроме Samsung и Galaxy также Note 2. При этом в первом документе note 2 употребляется только один раз, тогда как во втором – 3 раза (подразумевается, что документ содержит больше информации о Note 2). Но сначала рассмотрим, результат вычисление релевантности алгоритмом, если частоты всех указанных слов в документах одинаковы. Вот что получается по BM25 в Excel.

image

Обратите также внимание, что из-за того, что количество документов содержащее слово Note 2 меньше равно в 50 раз от содержащих слово galaxy (500) мы получаем IDF равный 3,279634 что значительно больше IDF для слова galaxy.

Пока что у нас были одинаковые значения частот для слова note 2 (для других слов также). Теперь давайте в Excel увеличим частотность слова note 2 для док2, вместо 0,02 сделаем 0,05 (5 вхождений слова).

image

Обратите внимание, что значение IDF не изменяется но значение формула (второй множитель на изображении в самом вверху) теперь стало равно 0,061856 и именно это значение участвует в вычислении score, которое теперь для док2 равно уже 0,290559

Теперь самое главное. Увеличим частоту вхождения слова galaxy до 5 в док 1

image

Как мы видим суммарная частота каждого из слов в док1 и док2 одинакова. Но значение score (релевантность) выше у док2, потому что слово note2 является более редко встречающимся соответственно его результирующее влияние больше чем слово galaxy.

На практике наличие слов в многосложных запросах очень важно. Конечно же релевантность современных поисковых систем определяется не только исходя из частот как это было показано на примере формулы BM25, но все же некоторые корреляции провести можно. В основном это касается того, что если в документе нет слова из поискового запроса то такому документу значительно сложнее подняться в ТОП по запросу по сравнению с теми, у которых это слово содержится. Давайте рассмотрим пример на поисковой системе Яндекс.

Вводим запрос Samsung galaxy. У меня выдача касалась Samsung galaxy в целом (2 сайта, как обычно Википедия) остальное модели, картинки и т.д.

Вводим запрос samsung galaxy note 2. Выдача полностью меняется, теперь представлены страницы, которые содержат информацию не просто о Samsung galaxy, а о Samsung galaxy note 2.

Вводим запрос samsung galaxy note 2 ценаОпять выдача меняется теперь в выдаче страницы, которые уже содержат слово цена, а не просто Samsung galaxy.

Вводим запрос samsung galaxy note 2 цена Харьков. Выдача кардинально меняется, все страницы в ТОП10 содержат слово Харьков.

Можно ли сказать, что слово Харьков является более узкоспециализированным, как это приводилось в алгоритме BM25 выше? IDF cлова Харьков знает только поисковая система, но в контексте поискового запроса Samsung galaxy note 2 оно без сомнения сужает область поиска. Может быть пример с Яндексом немного неудачен, в силу того, что в приведенном случае большую роль будет играть учет региональности запроса, но я думаю со мной согласится любой сеошник, что слово из поискового запроса обязательно должно быть в тексте, я же всего лишь постарался показать работу алгоритма BM25 и раскрыть 2-а важных его аспекта.

Почему вредно знать о BM25?

В двух словах, некий директор SEO-компании взялся утверждать, что рынок SEO, которое не наука и не искусство, а всего лишь ремесло, умер. Потому что никто не готовит подмастерий. Кроме, видимо, самого директора.

Что само по себе странно, т.к. если кто-то берёт сайты на продвижение и достигает обещанных хотя бы на словах результатов, значит на рынке существует достаточное количество обученных ремесленников. Не являющихся Д’Артаньянами, но туго знающих своё ремесло. А значит рынок жив.

Так может быть дело не в рынке, а в директоре? Давай попробуем разобраться почему это так.

Один из вопросов, который задаёт директор соискателю:

Вы знаете , что такое ГЕОзависимые и ГЕОнезависимые запросы?

Да, знаю. Это анахронизм периода начала второй половины первого десятилетия 21 века. Когда в интерфейсе Яндексе существовала галочка “сайты из региона”, не применялись переформулировки запросов в нынешних объёмах и не использовалась технология Спектр.

Сегодня, слава птицам, каждый запрос может быть и геозависимым и геонезависимым одновременно. Это когда поисковик знает по поведению пользователей, что для кого-то данный запрос является информационным. То есть кого-то интересует ответ на вопрос что это такое. И лучшим ответом будет энциклопедия. В этом случае запрос трактуется и модифицируется поисковиком как геонезависимый.

А для других пользователей этот запрос является транзакционным. То есть они уже знают что это такое, но хотят узнать где и по какой цене эту штуковину приобрести. Жителя Петербурга мало интересуют предложения из Москвы. И тот же самый запрос трактуется и модифицируется как геозависимый. С добавлением к исходному запросу топонима, а так же слов цена и купить. Пример? Пусть будет запрос гидромодуль.

То есть для оптимизатора важно знать как исходный запрос пользователя был изменён поисковиком. А если применяется СПЕКТР, то любой изначально геозависимый запрос превращается поисковиком в геонезависимый лёгким движением руки добавлением к исходному запросу довеска своими руками или фото. Или другим модифицирующим довеском, например что такое.

И это всё в рамках одного исходного запроса. Таким образом, [bctt tweet=”геозависимостью обладает не запрос, а ответ на него” via=”no”]

Оптимизатор может сам принять решение, как продвигать сайт по запросу: как по информационному или как по транзакционному. И выберет для оптимизации разные документы с сайта. Или создаст новые. И если продвижение не ограничивается одним Default-city, а подразумевает продвижение сразу по нескольким регионам, то лучше выбрать информационный вариант. Чем париться с перечислением всех регионов на странице.

А что хотел узнать у соискателя господин директор? Работал ли соискатель на рынке в дветысяче-лохматом году?

Перейдём к другому вопросу директора:

Вы знаете , что такое BM25?

Да-да-да. Это семейство ранжирующих функций, которые сильно влияли на позиции сайтов в вебпоиске. До изобретения PageRank. Ещё знаю, что среди пресловутых 800 факторов ранжирования Яндекса данное сочетание букв применяется чаще других. Однако знания о BM25 скорее вредны для оптимизатора. И вот почему.

  1. И в этом случае гораздо важнее знать переформулировки исходного запроса. Тот самый гидромодуль для хорошего ранжирования требует присутствия в документе, к примеру, слова чиллер. Можно ли извлечь данный факт из знания о BM25? Нет.
  2. Попытка оптимизировать документ под BM25, то есть подобрать “оптимальную” плотность ключевых слов в разных частях документа, вероятнее всего ухудшит метрики качества текста (читабельность, естественность, применение общеупотребимых и редких слов, синонимов и т.д. ) Влияние этих метрик на ранжирование ничуть не меньше, чем BM25. Это основы борьбы с дорвейным автогенерённым контентом.
  3. Вообще любые попытки угодить поисковику больше, чем посетителю, вероятнее всего скажутся на ранжировании негативно. Всё дело в поведенческих факторах ранжирования. То есть оптимизатору гораздо важнее знать как побудить посетителя к взаимодействию с сайтом, чем о BM25.

Спрашивал ли директор о признаках качественного и не очень качественного текста, о том как влиять на кликабельность сниппетов и нужно ли это делать, как побуждать посетителя взаимодействовать с сайтом? Нет.

Выводы:

Сегодня гораздо проще взять толкового копирайтера, чем искать реликтового seoшника, знающего о TF/IDF и BM25. Где найти такого копирайтера – отдельный вопрос. Но переучивать и его будет не легко. И обучить этого копирайтера азам оптимизации. Вместо того, чтобы обучать сеошника копирайтерскому ремеслу (не путать с продажей знаков за рубли). Готовый оптимизированный текст, вышедший из под пера такого копирайтера, должен содержать все ключевые слова из переформулировки поисковой системы. Каковые можно и нужно определять автоматически, без человеческого участия.

Количество же повторений конкретного слова в тексте должно определяется исключительно коммерческой целесообразностью. А не мифической формулой, коэффициенты которой либо неизвестны вовсе, либо определяются с точностью плюс-минус лапоть. Текст должен побуждать посетителя купить, а не поблевать на экран.

Дополнительно такой текст хорошо прогнать через сервис Главред (или его аналоги). Чтобы окончательно избавиться от воды, свойственной многим копирайтерам. Особенно пишущим тексты по ТЗ от seoшников. И заодно сделать этот текст 100% уникальным. В среднем по больнице такой текст проблем с ранжированием иметь не будет.

Если дизайнер, верстальщик и админ не запороли ПФ на корню.

Вышеизложенные соображения, на мой взгляд, очевидны для каждого практикующего сеошника. Директора же, застопорившегося в своём профессиональном развитии, как впрочем и положено начальнику, сосредоточенному на управлении, от собеседований по существу профессии лучше отстранить. Или я не прав?

BM 25 и BM 25 Wireless

bm-25-i-bm-25-wireless-1024x788

BM 25 содержит все преимущества стационарных систем контроля воздуха рабочей зоны, упакованные в прочном, удобном и переносном приборе.

Он был разработан для обнаружения от одного до пяти газов и применения при мобильных или временных работах, для защиты бригады, контролируемой зоны или мест, где стационарные системы обнаружения не применимы.

Может использоваться для контролирования загазованности воздуха рабочей зоны в газовой, нефтехимической, горнорудной, химической и в различных других областях промышленности.

Данное устройство разработано специально для работы в тяжелых условиях на открытых рабочих зонах. Малогабаритный, прочный, с сильными аварийными сигналами и большой автономией, этот многокомпонентный газоанализатор способен предохранять команду людей или периметр рабочей зоны. Газоанализатор BM-25 хорошо приспособлен для использования ремонтными бригадами на переносных или временных рабочих площадках и там, где проблематично установить стационарный газоанализатор.

  • Контроль до 5 газов одновременно Звуковой сигнал 103 дБ на расстоянии 1 м Сверх яркий световой сигнал, видимый на 360°;
  • Время работы до 170 часов;
  • Устойчив к неблагоприятной окружающей среде;
  • Легко транспортируется — менее 7 кг;
  • До 30 устройств в сети;
  • До 16 независимых сетей;
  • Радиосвязь до 0,8 км на линии прямой видимости;
  • Передача данных на контроллер.

Устройства BM 25 передают состояния неисправности или тревоги и измерения по газам на контроллер. Как только один из BM 25 сигнализирует тревогу, контроллер передаёт информацию всем устройствам BM 25 в той же сети, что переключает их в режим Alarm Transfer (Передача Тревоги).

Контроллер MX 40/X40

Контроллер SmartWireless® MX 40/X40 обеспечивает интерфейс оператора сети и индикацию состояния всех сетевых устройств в режиме реального времени. Гибкая и расширяемая сеть MX 40/X40 состоит из любой комбинации (до 32) беспроводных и/или проводных датчиков, одной или более контрольных панелей и устройств аварийной сигнализации. Командные функции включают в себя сброс сигнала тревоги, подтверждение сигнала тревоги, тестирование сигнализации и радиомолчание. Панель управления отображает в реальном времени концентрации газа, состояние полевого устройства, уровня заряда батареи, качество сети радиосигнала и состояние диагностики неисправностей. Показания дисплея включают расположение полевого устройства, состояние тревоги, канал, показания газа, время работы от батарей и сила сигнала связи. Стандартные функции включают в себя съемную SD-карту для регистрации данных.

Модель MX 40/X40 также допускает расширенное использование адресуемых модулей ввода/ вывода производства Oldham, которые включают 4-канальный модуль ввода на 4-20мА (DA- 4), модуль вывода на 4 реле аварийной сигнализации (RL-4), 4-канальный модуль вывода на 4-20мА (AO-4) и модуль ввода контактов на 4 реле (DI-4). Модули Oldham могут быть смонтированы внутри основного корпуса системы или установлены дистанционно для упрощения внешней проводки.

Удалённый монитор Sitewatch

SiteWatch является передовым сетевым устройством, которое обеспечивает удаленный доступ к любой системе обнаружения газа Oldham через Ethernet или сотовую связь. Версия SiteWatch Ethernet предоставляет веб-страницу с IP-адресом, которая может быть доступна через любой веб-браузер и, как Ethernet-версия, так и версия для сотовой связи обеспечивают мгновенную автоматическую отправку электронных писем для всех состояний тревоги и неисправности. Технология SiteWatch может быть встроена в беспроводные контроллеры Oldham или Detcon моделей MX40/X40 и MCX-32.

SiteWatch позволяет веб-браузеру получить в реальном времени доступ к данным от системы обнаружения газа, что включает в себя тип детектора, серийный номер, расположение / имя, концентрацию газа, тип газа и состояние тревоги. Кроме того, при использовании систем Detcon SmartWireless данные включают в себя время автономной работы и качество связи всех устройств в сети.

Газоанализатор переносной многокомпонентный BM-25

Газоанализатор переносной многокомпонентный BM-25

Внесён в государственный реестр средств измерений РФ под № 54565-13.

Автономный переносной мультигазоанализатор для контроля до пяти газов одновременно для использования в зоне «0».

  • Определение 5 газов одновременно, 6 диапазонов измерения, универсальный эксплозиметр
  • Может применяться в Зоне 0
  • Возможно постоянное питание в Зоне 0
  • Интеллектуальные ячейки, взаимозаменяемые — классические и инфра­красные
  • Эргономичность в соответствии с окружающей средой на площадке
  • Обнаружение газов/ анализ дымовых газов

Безопасность на рабочих площадках

Прибор BM 25 разработан специально для работы в трудных условиях на открытых рабочих площадках.

Компактный, прочный, с мощными аварийными сигналами и большой автономией, этот газовый детектор способен защитить группу людей или периметр площадки.

Прибор BM 25 специально приспособлен для применения ремонтными бригадами на передвижных или временных рабочих площадках и там, где затруднительно установить стационарный газовый датчик.

Пример применения :обеспечение безопасности на рабочей площадке B.T.P.

Рабочие характеристики на всех уровнях

Исключительная конфигурация

Мультигазовый детектор BM25 имеет уникальную конфигурацию, позволяющую измерять 6 разных газов. В зависимости от Ваших потребностей BM25 адаптируется к Вашей деятельности и предоставляет следующие сочетания функций:

4 газа:
  • токсичные газы, CO2, O2 , взрывчатые газы
  • 0. 100 % НКПР и 0. 100 об. % газа
  • (5 газов для варианта CO/H2S)

BM25 может постоянно находиться под напряжением в опасной зоне.

Универсальный эксплозиметр

Оснащенный специально разработанной ячейкой для измерения большинства обиходных взрывчатых газов в диапазоне от 0 до 100 % НКПР, прибор BM25 фактически является универсальным эксплозиметром.

В нем имеется библиотека из 32 предварительно запрограммированных газов, которая позволяет определять конкретный газ.

Выбор при измерении токсичных газов и кислорода

Благодаря сменным ячейкам, не требующим регулировки, у Вас есть большой выбор ячеек, из которых Вы можете одновременно использовать 4 для измерения до 5 газов (в модели для определения CO/H2S). Этот показатель делает прибор BM25 настоящей переносной аналитической лабораторией.

Соответствие Директиве ATEX

Прибор BM25 соответствует новым требованиям Директивы ATEX 94/9/CE, что обеспечивает ему самый высокий уровень безопасности.

Этот прибор, относящийся к категории 1, может находиться в Зоне 0 и использоваться независимо от концентрации газов и паров. Эта особенность дополняет его характеристики и делает прибор самым эффективным на рынке.

Превосходный контроль среды на рабочем месте

Графический индикатор

На ЖКИ включается автоматическая задняя подсветка при аварийном сигнале или неисправности.

ЖКИ графического типа используются для лучшей видимости измерений.

Индикация:
  • индикация 5 измерений с указанием единиц измерения и типа газа **
  • возможность индикации канала, нуждающегося в калибровке
  • индикация следующих параметров:
    • дата и время
    • мин. макс. (повторно инициализируемые)
    • средние значения VLE и VME (за 8 часов и 15 минут)
    • остаточный заряд аккумулятора (с помощью столбиковой диаграммы)
    Светодиодная индикация

    Светодиод в верхней части прибора показывает срабатывание аварийных сигналов и видим со всех сторон независимо от рабочей среды. Защищенный металлическими экранами, он не боится резких движений при использовании прибора.

    Эффективный звуковой сигнал

    Приспособленный для работы в трудных условиях прибор BM25 имеет звуковой сигнал 100 дБ (на расстоянии 1 м).

    • 1 реле аварийного сигнала по газу для всех каналов
    • 1 одно реле неисправности для всех каналов
    • 2 входа TOR
    Архив

    Прибор BM25 позволяет работать с архивом всех событий и выполненных измерений. Изменяемый интервал сохранения задается пользователем, в распоряжении которого будет 200 000 информационных сообщений**.

    Пользователь сможет контролировать свою рабочую среду в зависимости от вида деятельности.

    Аварийные сигналы
    Аварийные сигналы «газ»:
    • сообщения на индикаторе для соответствующего канала
    • мигающий световой сигнал, общий для всех каналов
    • звуковой сигнал
    • подтверждение сигналов в соответствии с правилами безопасности
    Уровни аварийных сигналов:
    • 2 порога мгновенных сигналов на канал в режиме EXPLO
    • (эксплозиметрия) и TOX (токсичные газы)
    • VME//VLE в режиме TOX (токсичные газы): аварийный сигнал по среднему значению за 15 минут и 8 часов
    • верхний и нижний порог для кислорода (2 порога по выбору)

    Удобство применения

    При пуске прибора BM25 он выполняет самодиагностику и сигнализирует о любом отклонении от нормы; он постоянно анализирует газы , для которых он запрограммирован.

    Возможна автоматическая установка нуля по заказу или на выходе зарядного устройства (вариант).

    Изменение определяемого взрывчатого газа осуществляется быстро. Функция регистрации данных позволяет сохранять события и измерения с регулируемым интервалом сохранения. Существует запрограммированный вариант с 32 формулами из 15 знаков.

    Программное обеспечение COM 2100 обеспечивает контроль и техобслуживание прибора.

    • Прямая индикация измерений и параметров каналов
    • помощь в диагностике при неисправности
    • программирование прибора и измерительных каналов
    • выбор вариантов
    • калибровка каналов с помощью автоматического меню
    • редактирование карточки состояния и скрытый контроль
    • управление, визуализация и распечатка сохраненных событий и измерений
    • защита паролем
    • встроенное микропроцессорное зарядное устройство
    • встроенный насос с контролем расхода

    Диалог между BM25 и ПК осуществляется через RS232. Модуль может быть адаптирован для работы с другими компьютерами.

    Чтобы сохранить заряд BM25, возможна его подзарядка в опасной зоне от искробезопасного источника питания.

    Practical BM25 — Part 2: The BM25 Algorithm and its Variables

    This is the second post in the three-part Practical BM25 series about similarity ranking (relevancy). If you're just joining, check out Part 1: How Shards Affect Relevance Scoring in Elasticsearch.

    The BM25 Algorithm

    I’ll try to dive into the mathematics here only as much as is absolutely necessary to explain what’s happening, but this is the part where we look at the structure of the BM25 formula to get some insights into what’s happening. First we’ll look at the formula, then I’ll break down each component into understandable pieces:

    bm25_equation.png

    We can see a few common components like qi , IDF(qi) , f(qi,D) , k1 , b , and something about field lengths. Here’s what each of these is all about:

      qi is the i th query term.

    For those that have worked with TF/IDF before, the concept of IDF may be familiar to you. If not, no worries! (And if so, note there is a difference between the IDF formula in TF/IDF and IDF in BM25.) The IDF component of our formula measures how often a term occurs in all of the documents and “penalizes” terms that are common. The actual formula Lucene/BM25 uses for this part is:

    idf_equation.png
    Where docCount is the total number of documents that have a value for the field in the shard (across shards, if you’re using search_type=dfs_query_then_fetch ) and f(qi) is the number of documents which contain the i th query term. We can see in our example that “shane” occurs in all 4 documents so for the term “shane” we end up with an IDF(“shane”) of:

    idf_shane.png
    However, we can see that “connelly” only shows up in 2 documents, so we get an IDF(“connelly”) of:

    1. f(qi,D) is “how many times does the i th query term occur in document D?” In all of these documents, f(“shane”,D) is 1, but f(“connelly”,D) varies: it’s 1 for documents 3 and 4, but 0 for documents 1 and 2. If there were a 5 th document which had the text “shane shane,” it would have f(“shane”,D) of 2. We can see that f(qi,D) is in both the numerator and the denominator, and there’s that special “ k1 ” factor which we’ll get to next. The way to think about f(qi,D) is that the more times the query term(s) occur a document, the higher its score will be. This makes intuitive sense: a document that has our name in it lots of time is more likely to be related to us than a document that has it only once.
    2. k1 is a variable which helps determine term frequency saturation characteristics. That is, it limits how much a single query term can affect the score of a given document. It does this through approaching an asymptote. You can see the comparison of BM25 against TF/IDF in this:
      term_frequency_saturation.png
      A higher/lower k1 value means that the slope of “tf() of BM25” curve changes. This has the effect of changing how “terms occurring extra times add extra score.” An interpretation of k1 is that for documents of the average length, it is the value of the term frequency that gives a score of half the maximum score for the considered term. The curve of the impact of tf on the score grows quickly when tf() ≤ k1 and slower and slower when tf() > k1 .

    Revisiting Our Search With Our New Knowledge

    We’ll delete our people index and recreate it with just 1 shard so that we don’t have to use search_type=dfs_query_then_fetch . We’ll test our knowledge by setting up three indices: one with the value of k1 to 0 and b to 0.5 and a second index ( people2 ) with the value of b to 0 and of k1 to 10 and a third index ( people3 ) with a value of b to 1 and k1 to 5.

    Now we’ll add a few documents to all three indices:

    We can see in people that all of the documents have a score of 0.074107975. This matches with our understanding of having k1 set to 0: only the IDF of the search term matters to the score!

    Now let’s check people2 , which has b = 0 and k1 = 10:

    There are two things to take away from the results of this search.

    First, we can see the scores are purely ordered by the number of times “shane” shows up. Documents 1, 2, 3, and 4 all have “shane” one time and thus share the same score of 0.074107975. Document 5 has “shane” twice, so has a higher score (0.13586462) thanks to f(“shane”,D5) = 2 and document 6 has a higher score yet again (0.18812023) thanks to f(“shane”,D6) = 3. This fits with our intuition of setting b to 0 in people2 : the length — or total number of terms in the document — doesn’t affect the scoring; only the count and relevance of the matching terms.

    The second thing to note is that the differences between these scores is non-linear, though it does appear to be pretty close to linear with these 6 documents.

    • The score difference between having no occurrences of our search term and the first is 0.074107975
    • The score difference between adding a second occurrence of our search term and the first is 0.13586462 — 0.074107975 = 0.061756645
    • The score difference between adding a third occurrence of our search term and the second is 0.18812023 — 0.13586462 = 0.05225561

    0.074107975 is pretty close to 0.061756645, which is pretty close to 0.05225561, but they are clearly decreasing. The reason this looks almost linear is because k1 is large. We can at least see the score isn’t increasing linearly with additional occurrences — if they were, we’d expect to see the same difference with each additional term. We’ll come back to this idea after checking out people3 .

    Now let’s check people3, which has k1 = 5 and b = 1:

    We get back the following hits:

    We can see in people3 that now the ratio of matching terms (“shane”) to non-matching terms is the only thing that’s affecting relative scoring. So documents like document 3, which has only 1 term matching out of 3 scores lower than 2, 4, 5, and 6, which all match exactly half the terms, and those all score lower than document 1 which matches the document exactly.

    Again, we can note that there’s a “big” difference between the top-scoring documents and the lower scoring documents in people2 and people3 . This is thanks (again) to a large value for k1 . As an additional exercise, try deleting people2 / people3 and setting them back up with something like k1 = 0.01 and you’ll see that the scores between documents with fewer is smaller. With b = 0 an k1 = 0.01:

    • The score difference between having no occurrences of our search term and the first is 0.074107975
    • The score difference between adding a second occurrence of our search term and the first is 0.074476674 — 0.074107975 = 0.000368699
    • The score difference between adding a third occurrence of our search term and the second is 0.07460038 — 0.074476674 = 0.000123706

    So with k1 = 0.01, we can see the score influence of each additional occurrence drops off much faster than with k1 = 5 or k1 = 10. The 4 th occurrence would add much less to the score than the 3 rd and so on. In other words, the term scores are saturated much faster with these smaller k1 values. Just like we expected!

    Hopefully this helps see what these parameters are doing to various document sets. With this knowledge, we’ll next jump into how to pick an appropriate b and k1 and how Elasticsearch provides tools to understand scores and iterate on your approach.

    0 0 голоса
    Рейтинг статьи

оствинд смотреть онлайн на русском языке

вк иван царевич

дьявольский возлюбленный 2 сезон 3 серия

Ссылка на основную публикацию