Skip to content

Commit

Permalink
Update train_openav.md
Browse files Browse the repository at this point in the history
  • Loading branch information
DenisIvanko authored Dec 25, 2024
1 parent 3c24722 commit c00653d
Showing 1 changed file with 14 additions and 0 deletions.
14 changes: 14 additions & 0 deletions examples/train_openav.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,14 @@
## Обучение системы аудиовизуального распознавания речевых команд на основе разработанной библиотеки

Данный пример иллюстрирует возможность обучения системы аудиовизуального распознавания речи на пользовательских данных с использованием инструментария библиотеки OpenAV. В примере показано использование следующих модулей библиотеки для достижения заявленной цели:
1. Модуль записи речевых аудиовизуальных данных - использовался для записи тестовой базы данных, доступной для скачивания в архиве ниже.
2. Модуль загрузки данных - используется для обработки аудиовизуальных данных
3. Модуль детектирования речевой активности - используется для детектирования речевых сегментов и удаления тишины
4. Модуль предобработки речевых аудиоданных - используется для извлечения информативных признаков из аудиоданных
5. Модуль предобработки речевых видеоданных - используется для извлечения информативных признаков из видеоданных
6. Модуль аугментации данных - использовался для искусственного увеличения количества обучающих данных по заданным параметрам
7. Модуль обучения нейросетевых моделей - используется для обучения аудиовизуальной модели распознавания речи

Для того чтобы обучить систему аудиовизуального распознавания речи, необходимо загрузить архив, в котором содержатся конфигурационный файл и данные для обучения:

> **[Ссылка на архив](https://files.sberdisk.ru/s/4JP2z1Jvvc7JO6U)**
Expand All @@ -8,6 +17,11 @@

**`pip install openav`**

Для корректной установки библиотеки на системы Windows и Linux можно воспользоватьзоваться пошаговым гайдом в разделе документации
> **https://openav.readthedocs.io/ru/latest/user_guide/installation.html**
После установки библиотеки будет возможность выполнить запуск процесса обучения, для этого необходимо запустить команду из директории, в которой находятся конфигурационный файл и данные для обучения, используя запрос в терминале:

**`openav_train_audiovisual --config ./train_audiovisual.yaml`**

Результатом работы данного примера является обученная нейросетевая модель для распознавания аудиовизуальной речи пользователя. В примере приводится базовый конфигурационный файл и данные для обучения, записанные с использованием входящего в библиотеку "Модуля записи речевых аудиовизуальных данных".

0 comments on commit c00653d

Please sign in to comment.