Со стороны заказчика заказчика была потребность в очень точной детекции слов на изображении документа, выделение ключевых блоков текста (абзацы, заголовки, колонки), и выделении базовых линий.
Проблема:
Боксы слов должны охватывать слова точно и быть воспроизводимыми на различных сканах одного документа. Решение должно быть легковесным и запускаться на машинах без gpu.
Решение:
Для Text Detection использовалась метрика F1-score (IOU с высоким порогом для отнесения бокса к TP) и визуальная оценка качества. Для Block Detection оценивался F1-score по правильному отнесению боксов слов в блоки.
Технологии:
Numpy, pandas, sklearn, torch, Я.Толока.
Основные архитектуры моделей, которые были использованы в данном проекте основывались на Unet и Stacked Unet. Также были протестированы архитектуру PSP-Net и HRNet