Connect with us

Hi, what are you looking for?

Наука и технологии

Представлены сверточные нейронные сети на основе аудио с помощью обрезки фильтров

Доктор Аршдип Сингх, исследователь машинного обучения звука вместе с профессором Марком Д. Пламбли в рамках проекта «ИИ для звука» (AI4S) в Центре обработки зрения, речи и сигналов (CVSSP), сосредоточился на разработке эффективных и устойчивые модели искусственного интеллекта и машинного обучения (AI-ML). Их текущее исследование было принято на Международной конференции IEEE по акустике, обработке речи и сигналов 2023 года , которая проходила в Греции с 4 по 10 июня.

В последних тенденциях в области искусственного интеллекта (ИИ) используются сверточные нейронные сети (СНС), которые обеспечивают замечательную производительность по сравнению с другими существующими методами. Однако большой размер и высокая вычислительная стоимость CNN являются узким местом для развертывания CNN на устройствах с ограниченными ресурсами, таких как смартфоны.

Более того, обучение CNN в течение нескольких часов приводит к выделению большего количества CO 2 . Например, вычислительное устройство (NVIDIA GPU RTX-2080 Ti), используемое для обучения CNN в течение 48 часов, генерирует эквивалент CO 2 , выделяемый средним автомобилем, проехавшим 13 миль. Для оценки CO 2 исследователи использовали общедоступный инструмент .

Поэтому исследователи стремились сжать CNN, чтобы:

  1. Уменьшите вычислительную сложность для более быстрого вывода.
  2. Сокращение объема памяти для эффективного использования базовых ресурсов.
  3. Сократите количество вычислений на этапе обучения CNN, проанализировав, сколько обучающих примеров достаточно в процессе тонкой настройки сжатых CNN для достижения производительности, аналогичной той, которая достигается при использовании всех обучающих примеров для несжатых CNN.

Решение

Одним из направлений сжатия CNN является «обрезка», когда неважные фильтры явно удаляются из исходной сети для создания компактной или усеченной сети. После обрезки сокращенная сеть настраивается для восстановления потери производительности.

В этом исследовании был предложен жадный алгоритм на основе косинусного расстояния для сокращения аналогичных фильтров в пространстве фильтров для общедоступных CNN, предназначенных для классификации звуковых сцен . Кроме того, исследователи повысили эффективность предложенного алгоритма за счет сокращения времени вычислений при обрезке.

Они обнаружили, что предложенный метод сокращения сокращает количество вычислений на вывод на 27 %, требует на 25 % меньше памяти и снижает точность менее чем на 1 %. Во время тонкой настройки сокращенных CNN сокращение обучающих примеров на 25% дало такую ​​​​же производительность, как и при использовании всех примеров. Они сделали предложенный алгоритм открытым для воспроизводимости и предоставили видеопрезентацию, объясняющую методологию и результаты нашей опубликованной работы.

Кроме того, они улучшили время вычислений предложенного метода обрезки в три раза без ухудшения производительности.

Представлены сверточные нейронные сети на основе аудио с помощью обрезки фильтров

Теги: ИИ