Почему поиск по ключевым словам не работает в чате электронной коммерции, а гибрид исправляет это

TL;DR: При поиске по ключевым словам не учитываются синонимы, а при семантическом поиске не учитываются коды моделей. aiSTAFF запускает оба списка и объединяет два ранжированных списка с помощью Reciprocal Rank Fusion, а затем меняет рейтинг по рейтингу и отзывам, так что покупатель в чате получает правильный товар, а не тупик.

Когда один метод поиска дает сбой

Покупатель пишет в чат магазина «удобное кресло до 300 лари». Система ключевых слов ищет слово «удобно» в названиях ваших товаров, ничего не находит и возвращает пустой результат, поскольку в вашем каталоге этот товар называется «кресло». Клиент уходит. Этот один промах — это потерянная продажа, и это происходит десятки раз в день на загруженной странице. Если вы продаете онлайн в Грузии, исправление начинается с нашего бота для продаж с искусственным интеллектом, и в этой статье объясняется, как он работает.

Поиск по ключевым словам имеет и противоположную проблему. Клиент, который вводит точный код модели, скажем, «AX-220», хочет получить именно этот артикул. Механизм, основанный исключительно на значении, может вернуть пять стульев, которые концептуально схожи, и похоронить тот, у которого есть соответствующий код. Каждый метод силен там, где другой слаб. Задача хорошего поиска товаров – использовать оба одновременно.

Два двигателя, две сильные стороны

aiSTAFF встраивает ваш каталог в частный векторный магазин, по одному на каждую компанию, и запрашивает его двумя способами для каждого сообщения.

Плотный семантический поиск. Каждый продукт и каждый запрос становятся вектором с помощью вложений Gemini. Расстояние между векторами измеряет значение, поэтому «диван», «диван» и «диван» располагаются рядом друг с другом, даже если у них нет общих букв. Это то, что улавливает синонимы, описания и намерения, например «что-то для небольшого балкона».
Поиск по ключевым словам BM25. Классический лексический ранжировщик, который определяет точное совпадение терминов. Это то, что определяет названия моделей, коды, написание брендов и редкие слова, которых семантическая модель никогда не встречала. Именно там, где плотный поиск нечеток.

Запуск по отдельности, каждый возвращает ранжированный список. Проблема в их объединении. Наивный подход выбирает лучший результат из одного механизма и игнорирует другой, что отбрасывает половину сигнала. Вместо этого aiSTAFF объединяет два списка.

Взаимное слияние рангов, простыми словами

Взаимное объединение рангов, или RRF, — это метод подсчета очков, который объединяет два ранжированных списка без необходимости использования двух движков в одних и тех же единицах измерения. Плотный поиск возвращает косинусное сходство, BM25 возвращает оценку частоты терминов, и эти два числа несопоставимы. RRF обходит это, игнорируя необработанные оценки и используя только позицию каждого элемента в каждом списке.

Правило короткое: объединенная оценка продукта представляет собой сумму 1, разделенную на (константу плюс ее рейтинг) в обоих списках. Элемент, занимающий первое место в списке, занимает большую часть. Предмет, занимающий десятое место, вносит небольшой вклад. Продукт, который отображается высоко в как семантическом списке, так и в списке ключевых слов, собирает два сплошных фрагмента и поднимается на вершину объединенного результата. Продукт, который занимает высокие позиции только в одном рейтинге, по-прежнему имеет хорошие шансы. Математика проста, а эффект сильный: выигрывают предметы, с которыми согласны оба движка, и сильный удар от одного движка не теряется.

Именно поэтому запрос типа «комфортное кресло AX-220» работает. Семантическая сторона обозначает "удобное кресло", сторона с ключевым словом фиксируется на "AX-220", а RRF отображает точную модель вверху, поскольку она имеет хорошие оценки с обеих сторон одновременно.

Изменение рейтинга по рейтингу и популярности

Релевантность — это первый шаг, а не последнее слово. Два кресла могут одинаково хорошо соответствовать запросу, одно из которых является бестселлером с 200 отзывами, а другое — устаревшим списком, который никто не покупает. aiSTAFF переоценивает объединенные результаты по сходству, умноженному на популярность, используя рейтинг и количество отзывов, так что проверенный продавец превосходит в рейтинге пыльного. Товары также группируются по типам, что предотвращает поиск стула от возврата лампы в форме стула. Покупатель видит товар, который, скорее всего, ему подойдет и, скорее всего, удовлетворит его, так же, как хороший помощник на этаже подсказывает вам подходящую модель.

Он также пересекает языки и словоформы

Поскольку плотная сторона ищет по смыслу, она распространяется на языки и грамматику. Грузинский или русский запрос переводится на язык каталога для поиска, затем возвращается ответ на языке клиента. Множественное число, падежи и формы слов допускаются, поэтому слова «стулья», «стул» и грузинское слово «кресло» относятся к одним и тем же продуктам. Об этом рассказывается в двух сопутствующих статьях: как покупатель из Грузии покупает ваш английский каталог и удобное кресло должно найтись в ваших креслах. Более полная картина векторного поиска представлена в многоязычном векторном поиске по грузинскому каталогу.

Гибрид плюс шлюз релевантности

Для сильного извлечения по-прежнему нужна основа. Если лучшее объединенное совпадение окажется слабым, его возврат в любом случае приведет к созданию продукта, который покупателю не нужен. aiSTAFF применяет шлюз релевантности при косинусном пороге около 0,64: ниже него бот говорит: «Мы этого не несем», вместо того, чтобы принудительно получить плохой результат. Гибридный поиск повышает качество того, что проходит; ворота останавливают остальных. Именно они объясняют, почему бот продает без лжи. Подробно это описано в разделе категории релевантности

Как только нужные элементы найдены, презентация имеет значение. Каждый результат возвращается в виде карточки с ценой, старой ценой, рейтингом и запасом, представленной в карточках товаров в чате, которые конвертируются, а бот может переносить несколько товаров через диалоговую корзину. Весь механизм продаж находится в хабе: чат-бот с искусственным интеллектом, который продает ваш каталог. Если вы выбираете между этим и переобучением модели на своих данных, см. RAG и тонкая настройка, а более широкую версию см. в руководстве по чат-ботам для электронной коммерции.

Работающий пример

В магазине электроники появляется сообщение «Тихая клавиатура для офиса, механическая». Это опечатка в слове «тихо». Поиск по ключевым словам сам по себе не дает ничего полезного. Плотный поиск трактует намерение как механическую клавиатуру с низким уровнем шума и ранжирует три модели. БМ25 точно ловит «механику» и подтверждает два из них. RRF объединяет списки, две согласованные модели поднимаются вверх, а при изменении рейтинга на первое место ставится модель с рейтингом 4,6 и 90 отзывами. Бот возвращает две карты, обе в наличии и обе по цене. Промах превращался в продажу, и покупатель даже не догадывался, что опечатка чуть не стоила ему ответа.

Часто задаваемые вопросы

Что такое гибридный поиск в чат-боте?

Он запускает два поиска продуктов одновременно: семантический поиск, который понимает значение, и поиск по ключевым словам, который улавливает точные коды, а затем объединяет два ранжированных списка, чтобы выиграть лучшее общее совпадение.

Что делает взаимное слияние рангов?

RRF объединяет два ранжированных списка, используя позицию каждого элемента, а не его исходный балл. Товары, занимающие высокие места в обоих списках, имеют наибольший вес и поднимаются на вершину, что делает объединенный результат более надежным.

Почему бы не использовать только семантический поиск?

Семантический поиск не дает точных названий моделей, кодов и редких вариантов написания брендов. Сочетание его с поиском по ключевым словам позволяет сохранить совпадение значений и одновременно определить точный артикул, который запросил покупатель.

Как избежать возврата неподходящего товара?

После слияния бот меняет рейтинг по рейтингу и отзывам, а затем применяет порог релевантности около 0,64 косинуса. Слабые совпадения падают ниже ворот, и вместо угадывания бот говорит, что предмет не несет.