test_openav.md

January 23, 2025 · View on GitHub

Прототип системы аудиовизуального распознавания речевых команд на основе разработанной библиотеки

Данный пример иллюстрирует тестирование обученной нейросетевой модели распознавания речи с использованием инструментария библиотеки OpenAV, а именно работу модуля распознавания аудиовизуальной речи.

Система аудиовизуального распознавания речевых команд реализована в виде программного прототипа, а результат распознавания на тестовой выборке достигает точности 95%. Для того чтобы протестировать прототип, необходимо загрузить архив, в котором содержатся конфигурационный файл, обученная аудиовизуальная модель и тестовая выборка:

Ссылка на архив

Зеркало

Архив необходимо распаковать, после чего установить библиотеку OpenAV, с помощью команды в терминале, убедитесь в том, что у вас установлена версия Python 3.10 или новее:

pip install openav

Для корректной установки библиотеки на системы Windows и Linux можно воспользоватьзоваться пошаговым гайдом в разделе документации

https://openav.readthedocs.io/ru/latest/user_guide/installation.html

После установки библиотеки будет возможность выполнить запуск примера с помощью модуля распознавания аудиовизуальной речи, для этого необходимо запустить команду из директории, в которой находятся конфигурационный файл, обученная модель и тестовая выборка, используя запрос в терминале:

openav_test_audiovisual --config ./test_audiovisual.yaml

Результатом работы данного примера является получение результатов распознавания речи на тестовых аудиовизуальных данных.