|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Проблема поиска букв, слов в рукописных документах осложняется фундамен- тальным свойством почерка — его индивидуальностью. Каждый автор создает уни- кальные вариации символов с характерным наклоном, размером и деформациями. Традиционные OCR-системы, работающие с целыми символами, оказываются неэф- фективными для таких данных, поскольку не могут адаптироваться к бесконечному разнообразию рукописных форм. Предлагаемый подход переносит акцент с распознавания символов на анализ их элементарных составляющих — штрихов. Ключевое наблюдение: базовые структур- ные элементы (прямые линии, дуги, петли) обладают большей устойчивостью к ин- дивидуальным вариациям, чем их комбинации в целых символах. Это позволяет со- здать универсальный словарь штрихов, применимый для разных почерков. Метод реализует четырехэтапный процесс обработки. На первом этапе текст сегментируется на элементарные штрихи — непрерывные линии без отрыва пера, формально описываемые как последовательности точек. Затем выполняется нормализация штрихов через сплайн-аппроксимацию и растеризацию до единого формата. Третий этап преобразует штрихи в векторные представления с помощью ResNet, обученной контрастным методом. Финальный этап строит поисковый механизм на основе кластеризации штрихов методом DBSCAN и сравнения их комбинаций.