Skip to content

Commit

Permalink
Merge branch 'main' of https://github.com/DmitryRyumin/OpenAV into main
Browse files Browse the repository at this point in the history
  • Loading branch information
MiSTeR1995 committed Dec 25, 2024
2 parents 0abe426 + 8a2d50d commit bee6271
Show file tree
Hide file tree
Showing 2 changed files with 21 additions and 0 deletions.
7 changes: 7 additions & 0 deletions examples/test_openav.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,7 @@
## Прототип системы аудиовизуального распознавания речевых команд на основе разработанной библиотеки

Данный пример иллюстрирует тестирование обученной нейросетевой модели распознавания речи с использованием инструментария библиотеки OpenAV, а именно работу модуля распознавания аудиовизуальной речи.

Система аудиовизуального распознавания речевых команд реализована в виде программного прототипа, а результат распознавания на тестовой выборке достигает точности 95%. Для того чтобы протестировать прототип, необходимо загрузить архив, в котором содержатся конфигурационный файл, обученная аудиовизуальная модель и тестовая выборка:

> **[Ссылка на архив](https://files.sberdisk.ru/s/PzHvBw0DoBt9dre)**
Expand All @@ -8,6 +10,11 @@

**`pip install openav`**

Для корректной установки библиотеки на системы Windows и Linux можно воспользоватьзоваться пошаговым гайдом в разделе документации
> **https://openav.readthedocs.io/ru/latest/user_guide/installation.html**
После установки библиотеки будет возможность выполнить запуск примера, для этого необходимо запустить команду из директории, в которой находятся конфигурационный файл, обученная модель и тестовая выборка, используя запрос в терминале:

**`openav_test_audiovisual --config ./test_audiovisual.yaml`**

Результатом работы данного примера является получение результатов распознавания речи на тестовых аудиовизуальных данных.
14 changes: 14 additions & 0 deletions examples/train_openav.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,14 @@
## Обучение системы аудиовизуального распознавания речевых команд на основе разработанной библиотеки

Данный пример иллюстрирует возможность обучения системы аудиовизуального распознавания речи на пользовательских данных с использованием инструментария библиотеки OpenAV. В примере показано использование следующих модулей библиотеки для достижения заявленной цели:
1. Модуль записи речевых аудиовизуальных данных - использовался для записи тестовой базы данных, доступной для скачивания в архиве ниже.
2. Модуль загрузки данных - используется для обработки аудиовизуальных данных
3. Модуль детектирования речевой активности - используется для детектирования речевых сегментов и удаления тишины
4. Модуль предобработки речевых аудиоданных - используется для извлечения информативных признаков из аудиоданных
5. Модуль предобработки речевых видеоданных - используется для извлечения информативных признаков из видеоданных
6. Модуль аугментации данных - использовался для искусственного увеличения количества обучающих данных по заданным параметрам
7. Модуль обучения нейросетевых моделей - используется для обучения аудиовизуальной модели распознавания речи

Для того чтобы обучить систему аудиовизуального распознавания речи, необходимо загрузить архив, в котором содержатся конфигурационный файл и данные для обучения:

> **[Ссылка на архив](https://files.sberdisk.ru/s/4JP2z1Jvvc7JO6U)**
Expand All @@ -8,6 +17,11 @@

**`pip install openav`**

Для корректной установки библиотеки на системы Windows и Linux можно воспользоватьзоваться пошаговым гайдом в разделе документации
> **https://openav.readthedocs.io/ru/latest/user_guide/installation.html**
После установки библиотеки будет возможность выполнить запуск процесса обучения, для этого необходимо запустить команду из директории, в которой находятся конфигурационный файл и данные для обучения, используя запрос в терминале:

**`openav_train_audiovisual --config ./train_audiovisual.yaml`**

Результатом работы данного примера является обученная нейросетевая модель для распознавания аудиовизуальной речи пользователя. В примере приводится базовый конфигурационный файл и данные для обучения, записанные с использованием входящего в библиотеку "Модуля записи речевых аудиовизуальных данных".

0 comments on commit bee6271

Please sign in to comment.