ИССЛЕДОВАНИЕ ВЛИЯНИЯ МЕТОДОВ ПРЕДОБРАБОТКИ ДАННЫХ НА ЭФФЕКТИВНОСТЬ РАБОТЫ LLM МОДЕЛИ : доклад, тезисы доклада

Описание

Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций

Конференция: Актуальные проблемы авиации и космонавтики; Красноярск; Красноярск

Год издания: 2025

Ключевые слова: llm, большая лингвистическая модель, предобработка данных, стемминг, лемматизация, очистка данных, векторизация, эмбединг, токенизация, large language model, data preprocessing, stemming, lemmatization, data cleaning, vectorization, embedding, tokenization

Аннотация: В работе рассматривается влияние различных методов предобработки данных на эффективность работы больших лингвистических моделей (LLM). Исследование направлено на анализ того, как разные подходы к подготовке и очистке данных могут сказаться на качестве эмбедингов для решения задач машинного обучения. The paper examines the impact ofПоказать полностьюvarious data preprocessing methods on the effectiveness of large language models (LLM). The research aims to analyze how different approaches to data preparation and purification can affect the quality of embeddings for solving machine learning tasks.

Ссылки на полный текст

Издание

Журнал: Актуальные проблемы авиации и космонавтики

Номера страниц: 137-139

Место издания: Красноярск

Персоны

  • Хашин В.Д. (Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева)

Вхождение в базы данных