Загадки «Сфинкса»

топ 100 блогов

Bolk site — 18.09.2013 Сейчас много текста будет, напрягитесь.

«Сфинкс» — это довольно известный поисковый движок, разработанный Андреем Аксёновым. Время от времени мне приходилось использовать его в своих проектах и каждый раз качеством получившегося решения я был доволен, тем более, что за проходившее время он обрастал новыми интересными возможностями.

В первый раз сталкиваюсь с проектом, где использование «Сфинкса» возможно только с некоторым количеством костылей, которыми решение обрастает и меня всё меньше устраивает получившееся. Хочу описать проблемы, с которыми я столкнулся, возможно кому-то в момент выбора поисковой технологии это будет небезынтересно.

«Сфинкс» хорош поиском по одной сущности, это, пожалуй всё. Богатство, описанное документации может создать обманчивое ощущение, что он может больше, но это не так. Моей ошибкой было решение использовать его в поиске по связанным сущностям. Это то, что «Сфинкс» умеет плохо. И хотя то, что получилось работает по скорости выше предыдущего решение, прокручивая в голове исходный код, я пла́чу мысленными кровавами слезами.

Так получилось, что искать мне нужно по наборам сущностей, связанных между собой. Получилось аж пять индексов. Объём данных не даёт надежды упихать всё в плоскую структуру — избыточность ужасает. Например, есть документы (Д) и резолюции к ним (Р), отношение один ко многим. Если попробовать положить эту структуру в одну таблицу, избыточность будет на уровне Д×Р. Причём «Д» на уровне миллионов. И это только две сущности. Немаловажно, что «Д» и «Р» — сущности с целой кучей полей, в том числе полнотекстовых.

Выход есть. В поиске мы смотрим по каким сущностям надо искать, ищем по первой, берём оттуда найденные идентификаторы, подставляем во второй поисковый запрос вместе с критериями и так далее. Это костыль номер раз. Форма поиска устроена таким образом, что использование любого фильтра, как правило, ограничивает количество данных в выборке очень сильно, и всё равно это тысячи айдишников.

Второй костыль нужен, чтобы обойти принципиальное ограничение «Сфинкса» — у него есть параметр (указывается в конфиге), ограничивающий максимальное количество возвращаемых данных. Причём в миллионы (наш объём) его поставить нельзя — максимум в десятки тысяч, не рассчитан «Сфинкс» на большее, да и памяти не напасёшься. Всё бы ничего, но когда мы ищем пересечения сущностей (Д×Р), то, что нам вернул «Сфинкс» со своим лимитом, может и не иметь пересечений — они могут быть за горизонтом выдаваемых данных.

Костыль номер два я походя описывал — если мы обнаруживаем, что айдишники вернулись не все, то делаются ещё запросы, которые я назвал «докачивающими», делается тот же самый поисковый запрос, за исключением айдишников, которые уже попали. Работает, естественно, только с данными отсортироваными по ID.

Как только появились «докачивающие» запросы, то минус один выходной ушёл у меня на костыль номер три — я сделал сбор статистики запросов и оптимизацию порядка выполнения запросов. Вот как всё работает.

У нас, как я уже сказал, может быть от одного до пяти задействованных индексов, в зависимости от того что пользователь в форму введёт. В запрос к каждому следующему передаются идентификаторы из предыдущего. Как только один из запросов вернул пустоту, дальше можно не продолжать — пересечение с пустотой даёт пустоту.

Теперь следите за мыслью. Не знаю очевидно или нет, но логически всё равно в каком порядке будут опрашиваться индексы — результат будет тот же. Например, Р ∩ Д = Д ∩ Р. Зато если впереди поставить запросы, которые вернут меньше айдишников, следующим будет полегче. Скажем, на запрос пользователя у нас вернулось 80 тысяч документов и пять тысяч резолюций. Расточительнее сделать запрос к документам первым и подставить потом 80 тысяч айдишников во второй запрос, чем выбрать сначала пять тысяч резолюций, а потом передать их в запрос к документам.

Но как узнать какой запрос надо выполнить первым? Поможет сбор статистики.

Я рассуждал так. Поскольку у нас в поисковой форме все атрибуты запрашиваются с критерием «И» (например: год=2011 И организация=5), то чем больше разнообразных критериев запрошено, тем меньше объём выборки, значит надо как минимум запомнить какие атрибуты интересовали пользователя, тем более, что они по-разному влияют на объём получающейся выборки. Значения у атрибута ищутся с критерием «ИЛИ» (например: год=2011 ИЛИ 2012), чем больше указано значений атрибута, тем больше результатов вернётся, значит имеет смысл запоминать сколько значений атрибута указано.

В итоге при каждом поиске пользователя я кладу его запрос в специальный стек, плюс указываю какие атрибуты в каком количестве он запрашивал. Эта информация может выглядеть как-то так: год=3, организация=1, авторы=4. Значит, что использовалось три атрибута для поиска, причём пользователь в графе «год» указал три каких-то года, выбрал одну какую-то организацию и четыре каких-то автора. Айдишники из предыдущего запроса не учитываются, они мне не нужны.

В офлайне (ночью, например) срабатывает скрипт, который запускает полученный запрос и смотрит сколько данных получается, если этот запрос выполнится первым (без переданных айдишников). Из информации об атрибутах делается хеш и к нему приписывается полученный результат, учитываются предыдущие результаты по тому же хешу и в другую таблицу записывается пара хеш и средняя оценка значений возвращаемых запросом такого рода.

В дальнейшем, когда пользователь будет искать, мой код смотрит в эту статистику, оценивает характер запроса по описанном алгоритму и сортирует запросы к индексу так, чтобы первыми стояли индексы, которые вероятно дадут меньше результатов.

Массовых испытаний ещё не было, но в тех частных случаях, которые я рассмотрел, ускорение бывает до двух раз (чаще всего, конечно, прирост не столь значителен или его нет). Больше всего выигрыш получается, если удаётся избавиться от «докачивающих» запросов.

Задача была интересной, а вот костыли не радуют. Либо надо научиться с ними жить, либо думать о переходе на какой-то другой поисковый движок.

Сохранено

</>

Загадки «Сфинкса»

Сейчас много текста будет, напрягитесь. « Сфинкс » — это довольно известный поисковый движок, разработанный Андреем Аксёновым. Время от времени мне приходилось использовать его в своих проектах и каждый раз качеством получившегося решения я был доволен, тем более, что за проходившее ...

Читать полностью

Источник

Оставить комментарий

Популярные посты:

Опасно ли носить контактные линзы: вся правда от эксперта

Женщины-сантехники, или посиделки в курятнике

Рекордсмены подводного мира. Самые быстрые рыбы планеты

Тайна появления колоссов Мемнона, современной древнеегипетской стилистики и

Один день рождения и три Рождества. Христос рождается всегда

dottore_mafioso

200 лет восстанию декабристов

"Пять друзей" принцессы Уэльской

red_atomic_tank

более взвешенный взгляд...

"Итоги 2025 года" или каким был год в фотографиях

Архив

Архив записей в блогах:

И еще прикольно :-))

Здравствуйте уважаемые. Приятного времени ...

Сплавали в Царьград

11 июня 14 индикта (что соответствует 941 году Анно Домини, прим. В.К.) на десяти тысячах кораблей приплыли к Константинополю росы, коих также именуют дромитами, происходят же они из племени франков. Против них со всеми дромонами и триерами, которые оказались в городе, был отправлен ...

Президент РФ отстранил от должности помощника министра обороны

Это цитата сообщения Андрей_Роскатов Оригинальное сообщение Президент РФ отстранил от должности помощника министра обороны В Президент РФ отстранил от должности помощника министра обороны Сегодня, 1 октября, стало известно о том, ...

Вулкан безобразничает

ЛОНДОН, 18 апреля. Полеты над Северной Атлантикой и вокруг нее могут быть ...

Факты о Савелии Крамарове, о которых обычно умалчивают

Крамаров – еврейская фамилия, несмотря на то, что образована от славянского корня. Она пошла от украинского слова "крамниця", что в переводе означает "бакалейная лавка". А в средней полосе крамарями называли бродячих торговцев-коробейников, которые ходили по селам, предлагая свой ...

WOW Авто Армия Беларусь Бизнес Видео Дети Жесть Животные Закон Здоровье Игры Интернет Искусство История Казахстан Кино Конфликты Коронавирус Коррупция Косметичка Криминал Кулинария Ликбез Литература Лытдыбр Медицина Мнения Музыка Наука Общество Олимпиада Отдых Отношения Персоны Политика Природа Происшествия Путешествия Разное Разоблачения Реклама Религия СНГ Сиськи События Спорт Страны ТВ и СМИ Творчество Технологии Транспорт Троллинг Финансы Фото Шоубиз Штуки Экономика Юмор

Однако за время пути...

Ибак... Как много в этом звуке!

День рождения. Ольга Чюмина

Главная О проекте Обратная связь Правообладателям Реклама RSS

Рейтинг топ блогов, упорядоченных по количеству посетителей, ссылок и комментариев. При составлении рейтинга блогосферы используются данные, полученные из открытых источников.