Мониторинг сдвига данных в модели прогнозирования успешности обучения с использованием значений Шепли

Описание

Тип публикации: статья из журнала

Год издания: 2025

Идентификатор DOI: 10.32517/0234-0453-2025-40-3-57-68

Ключевые слова: learning analytics, Education Data Mining, learning success prediction, data shift, shapley value, Shap, academic performance forecasting service Pythia, explainable artificial intelligence, digital footprint, учебная аналитика, анализ образовательных данных, прогнозирование успешности обучения, сдвиг данных, значение Шепли, сервис прогнозирования успеваемости «Пифия», объяснимый искусственный интеллект, цифровой след

Аннотация: Прогнозирование успешности обучения - одна из важнейших задач учебной аналитики, решение которой позволяет образовательным учреждениям своевременно выявлять студентов, испытывающих затруднения в обучении, и применять к ним средства педагогической поддержки и содействия. Для эффективной работы моделей прогнозирования в долгосрочной Показать полностьюперспективе после внедрения их в учебный процесс необходимо регулярно проводить мониторинг сдвига данных в используемых моделях. Это позволит выявлять изменения в распределении образовательных данных, которые могут стать причиной падения точности прогнозирования, а также влиять на интерпретацию полученных прогнозов. В статье предлагается методика анализа моделей прогнозирования успешности обучения на сдвиг данных с помощью значений Шепли, предполагающая двухэтапный мониторинг. На первом этапе (непосредственно в ходе образовательного процесса) с помощью исследуемой модели проводится прогнозирование успешности обучения и выявляются изменения вклада предикторов модели в итоговый прогноз. На втором этапе (после проведения промежуточной аттестации), когда уже возможна оценка точности прогнозирования, определяются изменения вклада предикторов в функцию потерь модели. Такой подход позволяет обнаруживать разные типы сдвига данных. На основании результатов анализа образовательное учреждение может принимать своевременные решения о коррекции, переобучении или замене используемой модели. Предложенная методика была апробирована на моделях из сервиса прогнозирования успеваемости «Пифия», разработанного в Сибирском федеральном университете. После внедрения сервиса в образовательный процесс прогнозирование на новых данных было проведено для четырех учебных семестров, и было отмечено падение точности прогнозирования. В результате проведенного мониторинга для каждой из моделей ансамбля были выявлены отдельные предикторы, ставшие источниками ковариационного сдвига или сдвига концепции. Были предложены варианты коррекции используемых моделей. Predicting academic success is one of the most critical tasks in learning analytics. Solving this problem enables educational institutions to identify students struggling with their studies in a timely manner and apply appropriate pedagogical support and interventions. For predictive models to remain effective in the long term after being integrated into the educational process, it is essential to regularly monitor data shift within these models. This helps detect changes in the distribution of educational data that could lead to decreased forecasting accuracy and affect the interpretation of predictions.The article presents a methodology for analyzing data shift in academic performance forecasting models using Shapley values, incorporating a two-stage monitoring approach. In the first stage (during the educational process), while the forecasting model is predicting academic success, changes in predictor contributions to the final forecast are identified. In the second stage (after exams), when prediction accuracy can be evaluated, shifts in predictor contributions to the model’s loss function are analyzed. This approach enables the detection of different types of data shifts. Based on the analysis results, an educational institution can make timely decisions regarding model adjustments, retraining, or replacement. The proposed methodology was tested on models from the academic performance forecasting service Pythia, developed at Siberian Federal University. After the service was integrated into the educational process, forecasting on new data was already conducted over four academic semesters, revealing a decline in prediction accuracy. Through monitoring, several predictors responsible for covariate or concept shifts within the ensemble models were identified. As a result, recommendations for model adjustments were proposed.

Ссылки на полный текст

Издание

Журнал: Информатика и образование

Выпуск журнала: Т. 40, 3

Номера страниц: 57-68

ISSN журнала: 02340453

Место издания: Москва

Издатель: ООО "Образование и Информатика", Российская академия образования

Персоны

  • Кустицкая Т.А. (Сибирский федеральный университет)
  • Есин Р.В. (Сибирский федеральный университет)

Вхождение в базы данных