Трансфер модели выделения голоса на чип

Мотивация запуска проекта заказчиком: cистемы активного шумоподавления, в том числе основанные на нейронных сетях, активно используются в различных сервисах для аудио и видео связи. Большинство таких систем хорошо справляется с задачей шумоподавления преимущественно в ситуациях высоким уровнем полезного сигнала и низким уровнем шума. Была поставлена цель построить real-time систему, способную очищать аудиозапись от шума в заданных ограничениях.

Описание исходной ситуации:

большинство существующих моделей speech enchancement хорошо работает на высоких SNR;
имеется небольшое количество общепринятых датасетов для speech enchancement;
кроме общеизвестных метрик, таких как SDR и PESQ, важна также субъективная оценка качества звучания результирующей аудиозаписи;
для применимости результатов моделирования в реальном времени, важно минимизировать размер окна в будущем (lookahead), который используется для предсказания текущего значения.

Цели проекта:

Повышение качества моделей шумоподавления в случае крайне низкого значения SNR (отношение уровней сигнал/шум).

Решение MIL Team: улучшение существующих решений и создание собственных моделей, показывающих высокий прирост в терминах общепринятых метрик оценки качества аудиозаписей (PESQ, SDR) и ошибки распознавания речи (WER) для аудиозаписей с высоким уровнем шума по сравнению с речью (SNR от -10).

Для построения модели были использованы:

открытые датасеты аудиозаписей с речью Voicebank и Librispeech;
открытые датасеты аудиозаписей с шумами DEMAND, MUSAN.

Результаты моделирования:
Obtained two promising WaveUnet models with following metrics:
8kHz: PESQ + 0.3(average), +0.3(0 SNR),
SDR +6.3(average), +9.5(0 SNR), 15.98 MMACs [Best Metrics]
8kHz + Dilations + DepthWise: PESQ + 0.3(average), +0.3(0 SNR),
SDR +6.2(average), +9.1(0 SNR), 7.49 MMACs [Smallest MAC count]
Obtained 16kHz model which is not smallest in terms of MACs, nor best in metrics, but perceptual quality is better due to higher sampling rate:
16kHz + Dilations + DepthWise: PESQ + 0.3(average), +0.3(0 SNR),
SDR +5.4(average), +8.2(0 SNR), 14.6 MMACs [Better perceptually]

Заказчик: Polyn Technology

Технологический стек: Python (PyTorch, scipy, librosa)