Тип публикации: статья из журнала
Год издания: 2025
Идентификатор DOI: 10.24160/1993-6982-2025-6-171-178
Ключевые слова: deep learning, acoustic source separation, multiple acoustic sources localization, single acoustic source localization, overlapping sound sources, reverberant environment, microphone array, Bidirectional Long Short-Term Memory, ideal binary mask, глубокое обучение, разделение акустических источников, локализация нескольких акустических источников, локализация единственного акустического источника, перекрывающиеся источники звука, реверберирующая среда, микрофонная решетка, двунаправленная долговременная краткосрочная память, идеальная бинарная маска
Аннотация: Методы глубокого обучения для решения проблемы локализации нескольких акустических источников должны расширять размер обучающего набора данных для достижения более высокой обобщающей способности за счет включения большинства возможных сценариев расположения акустических источников, что требует больших вычислительных затрат на обучеПоказать полностьюние. Задача становится более сложной и требует дополнительных вычислительных мощностей, когда источники звука активны и перекрываются в частотно-временной области в среде со сложными акустическими условиями. Предложена новая методика для одновременной локализации двух перекрывающихся акустических источников в замкнутой реверберирующей среде с пространственным разрешением 10о с использованием микрофонной решетки небольшого размера. Методика основана на интеграции метода разделения акустических источников с моделью локализации единственного акустического источника. Представлена гибридная модель для разделения сигналов акустических источников, полученных каждым микрофоном в решетке. Она построена с использованием сети двунаправленной долговременной краткосрочной памяти и обучена на наборе данных с использованием идеальной бинарной маски в качестве цели обучения. Результаты моделирования показали, что предложенная методика локализации эффективна при определении направлений двух перекрывающихся источников одновременно со средней точностью локализации 86,1% для тестового набора данных, содержащего кратковременные сигналы длительностью 500 мс с различными значениями отношения сигнал-сигнал. Deep learning methods to solve the problem of localizing multiple acoustic sources need to expand the size of the training dataset to achieve higher generalization ability by including the majority of possible acoustic source location scenarios, which requires large computational efforts for training. The problem becomes more difficult and requires additional computational capacities when the sound sources are active and overlapping in the time-frequency domain in an environment with complex acoustic conditions. In the article, a new localization methodology is proposed for simultaneously localizing two overlapping acoustic sources in a closed reverberant environment with a spatial resolution of 10º using a small-sized microphone array. The proposed methodology is based on combining the acoustic source separation method with a single acoustic source localization model. A hybrid model is proposed to separate the acoustic source signals received by each microphone in the array. The model was built using a bidirectional long short-term memory (BLSTM) network and trained on a dataset using the ideal binary mask (IBM) as the training target. Modeling results have shown that the proposed localization methodology is efficient in determining the directions for two overlapping sources simultaneously, with an average localization accuracy of 86.1% for the test dataset containing short-term signals of 500 ms duration with different signal-to-signal ratio values.
Журнал: Вестник Московского энергетического института
Выпуск журнала: № 6
Номера страниц: 171-178
ISSN журнала: 19936982
Место издания: Москва
Издатель: Национальный исследовательский университет "МЭИ"