Как повысить качество ответов RAG-поиска
ИИ обрабатывает текст так, как и человек: путается в расплывчатых формулировках, теряет контекст при противоречиях, не угадывает то, чего нет. Главный принцип прост:
Если по вашей базе знаний свободно ориентируется обычный человек — RAG-поиск тоже справится. И сделает это быстрее и качественнее.
Что учитывает ИИ-поиск в Gramax
Не учитывает | Учитывает | Почему так |
Ссылки между статьями | Gramax бьет весь текст на маленькие кусочки и ищет подходящую информацию именно по кусочкам. Вам не обязательно очевидно связывать текст между собой — поиск сам подберет подходящий ответ по тексту | |
Текст в духе: «См. ниже» | Иерархию:
| Если информация из «См. ниже» находится под логичным заголовком — поиск найдет ее без дополнительного указания |
| Текст рядом с изображением | ИИ-поиск не умеет считывать текст с изображений. Если информация с картинки должна быть в результатах поиска — добавьте ее в текст или в подпись. |
Старые версии статьи | Текущую версию | Поиск выдает результат из конкретной ветки и самой актуальной версии статьи. Это позволяет не выводить информацию из устаревших версий и черновиков. |
Текст в духе: «Информация только для HR» | Ограничение прав | Если у вас настроено ограничение прав по каталогам, поиск выведет только доступную информацию для конкретного пользователя. |
Скоро сделаем! |
Советы
Логичная иерархия
При делении контента на статьи убедитесь, что статья не попала в раздел, к которому не имеет отношения. «Логичность» иерархии легко проверить на коллегах: предложите им самостоятельно найти нужную статью по дереву разделов.
Информативные заголовки
Заголовки позволяют ИИ составить иерархию контента: он определяет, куда по смыслу относится текст под заголовком, и использует заголовок как обобщение.
Используйте заголовки в контексте пользователя. Для юриста существует понятие «Социальный пакет» — но сотрудник при поиске спросит: «Какие есть льготы при рождении ребёнка».
Плохо | Хорошо |
Дополнительно | Льготы при рождении ребёнка |
Информация | Компенсация аренды жилья для иногородних сотрудников |
Один источник правды
Если одно и то же правило описано в нескольких статьях немного по-разному, поиск может вернуть противоречивые ответы. Если дублирование необходимо:
Вынесите однообразный текст в отдельную статью и ссылайтесь на нее по месту.
Создайте сниппет и добавьте во все статьи.
Единая терминология
Если в статьях для одной сущности используются разные термины, с высокой вероятностью поиск это поймет и выдаст релевантные ответы. Но если, например, в 5 статьях используется термин «Поддержка», а в одной — «Социальные меры» — контекст может быть утерян.
Актуальность и непротиворечивость
Поиск не компенсирует отсутствие знаний: если информации нет в базе, модель не сможет догадаться и ответ будет ограничен. Поэтому важно постоянно пополнять базу знаний и регулярно актуализировать материалы: обновлять устаревшие правила, фиксировать изменения в процессах и удалять противоречия между разделами.
Зачем RAG для такого хорошего контента?
Хорошая структура помогает найти статью, когда человек примерно знает, что ищет. RAG решает другую задачу — он отвечает на вопрос, даже если человек не знает, в какой статье искать, или вообще не готов читать.
Например:
«Я еду в командировку в Москву на 5 дней, какие у меня суточные и нужно ли согласование?» — человеку нужно просмотреть несколько статей и собрать ответ самому. ИИ-поиск делает это за него.
Новый сотрудник не знает терминологию компании и не догадается зайти в раздел «Мобильность персонала», чтобы найти информацию про переезд. ИИ-поиск понимает контекст и может искать по синонимам.
Руководитель не хочет читать — он хочет быстрый ответ.
Хорошая база знаний и ИИ-поиск не конкурируют: структура нужна людям, которые читают, и одновременно делает поиск точнее. Плохо оформленная база — это проблема для обоих.