В Yttri мы изначально использовали ONNX-реранкер bge-reranker-v2-m3 для RAG-поиска. Качество было хорошим, но цена для local-first desktop-приложения оказалась слишком высокой: около 600 МБ модели, до 1.8 ГБ RAM в пике и ощутимая нагрузка на CPU.В статье разбираю, как мы заменили тяжёлый нейросетевой реранкер на собственную реализацию YAKE! на Rust: без модели, без прогрева, без внешних сервисов и с латентностью порядка микросекунд.Показываю механику алгоритма, интеграцию в RAG, автотегирование, ограничения подхода и главный архитектурный вывод: не каждая AI-задача требует ещё одной нейросети. Иногда лучший AI-компонент - это тот, который удалось удалить. Читать далее