Использование синтетических данных для тонкой настройки моделей сегментации документов

Belyaeva, O.; Perminov, A.; Kozlov, I.

Авторы: Belyaeva Oksana, Perminov Andrey, Kozlov Ilya
Журнал: Труды Института системного программирования РАН (электронный журнал)
Том: 32
Номер: 4
Год издания: 2020
Первая страница: 189
Последняя страница: 202
DOI: 10.15514/ispras-2020-32(4)-14
Аннотация: В рамках задачи автоматического анализа документов мы решаем задачу сегментации изображений документов DLA (Document Layout Analysis). Целью работы является сегментация изображений документов в условиях ограниченного набора реальных данных и использование для обучения искусственно созданных данных. В качестве данных рассматривается PDF-документы сканированных договоров, коммерческих предложений и технических заданий без текстового слоя. В работе мы обучаем известную высокоуровневую модель FasterRCNN сегментировать текстовые блоки, таблицы, печати и подписи на изображениях рассматриваемых данных. Работа направлена на генерацию синтетических данных схожих с реальными. Это обусловлено потребностью модели в большом наборе данных для обучения и высокой трудозатратностью их подготовки. В работе приведено описание этапа постобработки для устранения артефактов, полученных в результате сегментации. В работе приводится тестирование и сравнение качества модели, обученной на разных наборах данных (с/без синтетических данных, малом/большом наборе реальных данных, с/без этапа постобработки). В итоге мы показываем, что генерация синтетических данных и использование постобработки увеличивает качество модели при малом обучающем наборе реальных данных.
Добавил в систему: Корныхин Евгений Валерьевич

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ПсковГУ
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ПсковГУ

Использование синтетических данных для тонкой настройки моделей сегментации документовстатья