Как повысить качество ответов RAG-поиска

ИИ обрабатывает текст так, как и человек: путается в расплывчатых формулировках, теряет контекст при противоречиях, не угадывает то, чего нет. Главный принцип прост:

Если по вашей базе знаний свободно ориентируется обычный человек — RAG-поиск тоже справится. И сделает это быстрее и качественнее.

Что учитывает ИИ-поиск в Gramax

Не учитывает

Учитывает

Почему так

Ссылки между статьями

Сниппеты

Gramax бьет весь текст на маленькие кусочки и ищет подходящую информацию именно по кусочкам. Вам не обязательно очевидно связывать текст между собой — поиск сам подберет подходящий ответ по тексту

Текст в духе:

«См. ниже»

Иерархию:

  • По каталогам, разделам, подразделам

  • По заголовкам

Если информация из «См. ниже» находится под логичным заголовком — поиск найдет ее без дополнительного указания

  • Текст на изображении

  • Диаграммы Mermaid, Plant UML

Текст рядом с изображением

ИИ-поиск не умеет считывать текст с изображений. Если информация с картинки должна быть в результатах поиска — добавьте ее в текст или в подпись.

Старые версии статьи

Текущую версию

Поиск выдает результат из конкретной ветки и самой актуальной версии статьи. Это позволяет не выводить информацию из устаревших версий и черновиков.

Текст в духе:

«Информация только для HR»

Ограничение прав

Если у вас настроено ограничение прав по каталогам, поиск выведет только доступную информацию для конкретного пользователя.

Свойства

Скоро сделаем!

Советы

Логичная иерархия

При делении контента на статьи убедитесь, что статья не попала в раздел, к которому не имеет отношения. «Логичность» иерархии легко проверить на коллегах: предложите им самостоятельно найти нужную статью по дереву разделов.

Информативные заголовки

Заголовки позволяют ИИ составить иерархию контента: он определяет, куда по смыслу относится текст под заголовком, и использует заголовок как обобщение.

Используйте заголовки в контексте пользователя. Для юриста существует понятие «Социальный пакет» — но сотрудник при поиске спросит: «Какие есть льготы при рождении ребёнка».

Плохо

Хорошо

Дополнительно

Льготы при рождении ребёнка

Информация

Компенсация аренды жилья для иногородних сотрудников

Один источник правды

Если одно и то же правило описано в нескольких статьях немного по-разному, поиск может вернуть противоречивые ответы. Если дублирование необходимо:

  • Вынесите однообразный текст в отдельную статью и ссылайтесь на нее по месту.

  • Создайте сниппет и добавьте во все статьи.

Единая терминология

Если в статьях для одной сущности используются разные термины, с высокой вероятностью поиск это поймет и выдаст релевантные ответы. Но если, например, в 5 статьях используется термин «Поддержка», а в одной — «Социальные меры» — контекст может быть утерян.

Актуальность и непротиворечивость

Поиск не компенсирует отсутствие знаний: если информации нет в базе, модель не сможет догадаться и ответ будет ограничен. Поэтому важно постоянно пополнять базу знаний и регулярно актуализировать материалы: обновлять устаревшие правила, фиксировать изменения в процессах и удалять противоречия между разделами.

Зачем RAG для такого хорошего контента?

Хорошая структура помогает найти статью, когда человек примерно знает, что ищет. RAG решает другую задачу — он отвечает на вопрос, даже если человек не знает, в какой статье искать, или вообще не готов читать.

Например:

  • «Я еду в командировку в Москву на 5 дней, какие у меня суточные и нужно ли согласование?» — человеку нужно просмотреть несколько статей и собрать ответ самому. ИИ-поиск делает это за него.

  • Новый сотрудник не знает терминологию компании и не догадается зайти в раздел «Мобильность персонала», чтобы найти информацию про переезд. ИИ-поиск понимает контекст и может искать по синонимам.

  • Руководитель не хочет читать — он хочет быстрый ответ.

Хорошая база знаний и ИИ-поиск не конкурируют: структура нужна людям, которые читают, и одновременно делает поиск точнее. Плохо оформленная база — это проблема для обоих.