Для полноценного сравнения end2end OCR системы терубется разметка на документах не только текстового содержания но и bounding box-ы. отсюда и сложность: вручную разметить сотни текстовых документов с разметкой bounding боксов и текста времязатратно.
Цели проекта:
Для сравнении были реализованы следующие метрики Word Accuracy, per-word Levenstein distance, F1-score (IOU based) for box matching. Основное сравнение проводилось между моделями Tesseract, EasyOCR и нашей внутренней OCR моделью idog. Согласно результатам, Tesseract наиболее эффективно использовать для хорошо читаемых, выровненных документах, в противном случае EasyOCR и idog показывают лучшие результаты и в плане детектирования боксов слов и в плане финального качества распознавания символов.
Заказчик: ИСП РАН
Технологический стек: Python, OpenCV, Labelme