An opensource library for AutoML multimodal clustering on Apache Spark : научное издание

Описание

Тип публикации: статья из журнала

Год издания: 2024

Ключевые слова: automatic machine learning, multimodal models, clustering, apache spark, автоматическое машинное обучение, мультимодальные модели, кластеризация

Аннотация: We present a library that allows to choose and configure the clustering algorithm for multimodal datasets, i.e., for data where every object is stored not as a single vector but can be presented as a vector, text, and an image at the same time, and every modality is significant. Our library automatically finds a tradeoff between exПоказать полностьюploration and exploitation for the input data among a set of implemented clustering algorithms according to the selected internal clustering validation index. The library also implements a recommender system for the internal validation index and can predict the best fitting measure for the input data. We used Apache Spark to implement clustering algorithms, thus, it can be used on distributed computing system to clusterize big multimodal data. Мы представляем библиотеку, которая позволяет выбирать и настраивать алгоритмы кластеризации для мультимодальных данных, то есть данных, где каждый объект представлен не только вектором, но также текстом и/или изображением, и каждая модальность значима. Наша библиотека автоматически находит баланс между исследованием и эксплуатацией входных данных среди набора реализованных алгоритмов кластеризации в соответствии с выбранным внутренним индексом валидации кластеризации. В библиотеке также реализована рекомендательная система для выбора индекса валидации, которая может предсказать наиболее подходящую меру для входных данных. Мы использовали Apache Spark для реализации алгоритмов кластеризации, что позволяет использовать библиотеку на распределённых вычислительных системах для кластеризации больших мультимодальных данных. Библ. - 12 назв.

Ссылки на полный текст

Издание

Журнал: Записки научных семинаров Санкт-Петербургского отделения математического института им. В.А. Стеклова РАН

Выпуск журнала: Т. 540

Номера страниц: 178-193

ISSN журнала: 03732703

Место издания: Санкт-Петербург

Издатель: Федеральное государственное бюджетное учреждение науки Санкт-Петербургское отделение Математического института им. В.А. Стеклова

Персоны

  • Muravyov Sergei Borisovich (ITMO University)
  • Kazakovtsev Vladimir L'vovich (Siberian Federal University)
  • Usov Ivan Stanislavovich (ITMO University)
  • Shpineva Polina Sergeevna (ITMO University)
  • Muravyova Olga (ITMO University)
  • Shalyto Anatoly Abramovich (ITMO University)

Вхождение в базы данных