Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: Актуальные проблемы авиации и космонавтики; Красноярск; Красноярск
Год издания: 2025
Ключевые слова: llm, большая лингвистическая модель, предобработка данных, стемминг, лемматизация, очистка данных, векторизация, эмбединг, токенизация, large language model, data preprocessing, stemming, lemmatization, data cleaning, vectorization, embedding, tokenization
Аннотация: В работе рассматривается влияние различных методов предобработки данных на эффективность работы больших лингвистических моделей (LLM). Исследование направлено на анализ того, как разные подходы к подготовке и очистке данных могут сказаться на качестве эмбедингов для решения задач машинного обучения. The paper examines the impact ofПоказать полностьюvarious data preprocessing methods on the effectiveness of large language models (LLM). The research aims to analyze how different approaches to data preparation and purification can affect the quality of embeddings for solving machine learning tasks.
Журнал: Актуальные проблемы авиации и космонавтики
Номера страниц: 137-139
Место издания: Красноярск