Разработка нового экспериментального метода оценки OCR инструментов для задачи классификации цифровых документов

Алла Григорьевна Кравец; Дмитрий Олегович Семёночкин; Андрей Константинович Марков

doi:10.17308/sait/1995-5499/2024/3/114-126

Авторы

Алла Григорьевна Кравец Федеральное государственное бюджетное образовательное учреждение высшего образования Волгоградский государственный технический университет https://orcid.org/0000-0003-1675-8652 (unauthenticated)
Дмитрий Олегович Семёночкин Федеральное государственное бюджетное образовательное учреждение высшего образования Волгоградский государственный технический университет https://orcid.org/0009-0008-2352-4313 (unauthenticated)
Андрей Константинович Марков Федеральное государственное бюджетное образовательное учреждение высшего образования Волгоградский государственный технический университет https://orcid.org/0009-0001-6452-0502 (unauthenticated)

DOI:

https://doi.org/10.17308/sait/1995-5499/2024/3/114-126

Ключевые слова:

OCR инструменты, распознавание текста, классификация текста, экспериментальная оценка, цифровые документы

Аннотация

В статье приводится описание разработанного экспериментального метода оценки существующих OCR инструментов для решения проблемы присутствия сканированных документов в наборах данных, использующихся для задач классификации текста. Для классификации документов сканированные документы и документы, в которых невозможно получить текст с помощью программных средств извлечения текста, необходимо преобразовать в машиночитаемый текст, и для этой задачи используется технология оптического распознавания символов (OCR). Цель данной статьи заключается в том, чтобы экспериментально сравнить существующие OCR инструменты, а именно качество перевода сканированных документов в текст. Основными критериями для выбора инструмента OCR были: OCR инструмент должен быть свободно распространяемым, иметь встроенную поддержку русского языка и быть активно развивающимся проектом. Под эти критерии подходили три инструмента: Tesseract, EasyOCR и PaddleOCR. Для данной задачи был составлен корпус цифровых документов, половина из которых являлась отсканированными документами. Документы были взяты из открытых источников: 4 из 6 представленных классов являлись документами, связанными с процессом обучения в высших учебных заведениях Российской Федерации, остальные 2 представляли документы с государственных закупок: договоры и технические задания. Экспериментальная схема включала в себя обучение классификатора Longformer, трансформера для обработки длинных документов, на наборах данных, созданных тремя различными инструментами OCR. Оценка OCR-инструментов производилась по качеству классификации текста, достигнутому Longformer. Результаты эксперимента показали, что Tesseract OCR демонстрирует превосходство в точности распознавания текста, что и повиляло на результирующую точность классификации извлеченного из документов текста.

Биографии авторов

Алла Григорьевна Кравец, Федеральное государственное бюджетное образовательное учреждение высшего образования Волгоградский государственный технический университет

д-р тех. наук, проф., профессор кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета
Дмитрий Олегович Семёночкин, Федеральное государственное бюджетное образовательное учреждение высшего образования Волгоградский государственный технический университет

магистрант 2-го года обучения кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета
Андрей Константинович Марков, Федеральное государственное бюджетное образовательное учреждение высшего образования Волгоградский государственный технический университет

аспирант кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета