Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: Актуальные проблемы авиации и космонавтики; Красноярск; Красноярск
Год издания: 2025
Ключевые слова: llm, большая лингвистическая модель, rag, рекурсивное разбиение, разбиение по токенам, фиксированное разбиение, эмбединги, векторизация, large language model, Retrieval-Augmented Generation, recursive segmentation, token-based segmentation, fixed segmentation, embeddings, vectorization
Аннотация: В данной работе рассматривается влияние различных подходов к разбиению текста на качество поиска релевантных чанков в задаче RAG-поиска (Retrieval-Augmented Generation). Исследование направлено на выявление оптимальных методов разбиения, которые обеспечивают наиболее точное и быстрое нахождение необходимых чанков, что в свою очередПоказать полностьюь может значительно повысить качество генерации ответов в системах, использующих RAG. This paper examines the impact of different approaches to text splitting on the quality of the search for relevant chunks in the task of RAG search (Retrieval-Augmented Generation). The research is aimed at identifying optimal partitioning methods that ensure the most accurate and fastest finding of the necessary chunks, which in turn can significantly improve the quality of response generation in systems using RAG.
Журнал: Актуальные проблемы авиации и космонавтики
Номера страниц: 140-142
Место издания: Красноярск