Evaluating the generalization ability of deep learning models for sound source localization

Описание

Тип публикации: статья из журнала

Год издания: 2025

Идентификатор DOI: 10.17223/19988605/72/11

Ключевые слова: generalization ability, deep learning models, reverberant environment, orthogonal microphone array, sound intensity, generalized cross-correlation - phase transform, convolutional neural networks, sound source localization, обобщающая способность, модели глубокого обучения, локализация источника звука, реверберирующая среда, ортогональная микрофонная решетка, интенсивность звука, обобщенная кросс-корреляция - фазовое преобразование, сверточные нейронные сети

Аннотация: In this paper, the generalization ability of deep learning models used to solve the sound source localization problem with a spatial resolution of 10° is evaluated when the configuration settings are changed. The generalization ability of the models was evaluated in a closed reverberant environment using an orthogonal microphone arПоказать полностьюray. Two models were considered: SI-GCC-CNN, which is based on combining the features of sound intensity and generalized cross-correlation - phase transform as input data for convolutional neural networks, and SI-CNN, which is based on feeding the features of the sound intensity into the convolutional neural network. Simulation and modeling results show that the SI-GCC-CNN model is effective in its generalization ability and outperforms the SI-CNN model, achieving an improvement in localization accuracy by 22,1% when changing the size of the room, by 15,6% when changing the location of the microphone array and by 32% when changing the distance between the source and the center of the microphone array. Contribution of the authors: the authors contributed equally to this article. The authors declare no conflicts of interests. Оценивается обобщающая способность моделей глубокого обучения, используемых для решения задачи локализации источника звука с пространственным разрешением 10°, при изменении настроек конфигурации. Обобщающая способность моделей оценивалась в замкнутой реверберирующей среде с использованием ортогональной микрофонной решетки. Были рассмотрены две модели: SI-GCC-CNN, которая основана на объединении признаков интенсивности звука и обобщенной кросс-корреляции - фазового преобразования в качестве входных данных для сверточных нейронных сетей, и SI-CNN, которая основана на подаче признаков интенсивности звука в сверточную нейронную сеть. Результаты моделирования и имитации показывают, что модель SI-GCC-CNN эффективна по своей обобщающей способности и превосходит модель SI-CNN, достигая улучшения точности локализации на 22,1% при изменении размера помещения, на 15,6% при изменении местоположения микрофонной решетки и на 32% при изменении расстояния между источником и центром микрофонной решетки. Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.

Ссылки на полный текст

Издание

Журнал: Вестник Томского государственного университета. Управление, вычислительная техника и информатика

Выпуск журнала: 72

Номера страниц: 107-113

ISSN журнала: 19988605

Место издания: Томск

Издатель: Национальный исследовательский Томский государственный университет

Персоны

  • Shahoud Ghiath M. (Siberian Federal University)
  • Agafonov Evgeny D. (Siberian Federal University)

Вхождение в базы данных