|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Задача диаризации заключается в определении говорящего в каждый момент времени и является актуальной и сложной задачей в области обработки речевых данных. Важным этапом диаризации является сегментация аудиоряда, которая включает выделение сегментов речи одного говорящего и определение интервалов перекрывающейся речи. Современные модели диаризации требуют больших объемов данных с точной разметкой для обучения. Обычно обучение моделей сегментации происходит на реальных наборах данных, полученных при помощи ручной разметки. Это представляет собой дорогостоящий и трудоемкий процесс. В современных диаризационных системах тема синтетических данных либо не затрагивается, либо упоминается без описания процедуры их создания. В данной работе мы предлагаем метод генерации синтетических данных из примеров речи различных говорящих для обучения моделей и демонстрируем его применимость для обучения моделей сегментации аудиоряда.
| № | Имя | Описание | Имя файла | Размер | Добавлен |
|---|