Разработка нового экспериментального метода оценки OCR инструментов для задачи классификации цифровых документов
DOI:
https://doi.org/10.17308/sait/1995-5499/2024/3/114-126Ключевые слова:
OCR инструменты, распознавание текста, классификация текста, экспериментальная оценка, цифровые документыАннотация
В статье приводится описание разработанного экспериментального метода оценки существующих OCR инструментов для решения проблемы присутствия сканированных документов в наборах данных, использующихся для задач классификации текста. Для классификации документов сканированные документы и документы, в которых невозможно получить текст с помощью программных средств извлечения текста, необходимо преобразовать в машиночитаемый текст, и для этой задачи используется технология оптического распознавания символов (OCR). Цель данной статьи заключается в том, чтобы экспериментально сравнить существующие OCR инструменты, а именно качество перевода сканированных документов в текст. Основными критериями для выбора инструмента OCR были: OCR инструмент должен быть свободно распространяемым, иметь встроенную поддержку русского языка и быть активно развивающимся проектом. Под эти критерии подходили три инструмента: Tesseract, EasyOCR и PaddleOCR. Для данной задачи был составлен корпус цифровых документов, половина из которых являлась отсканированными документами. Документы были взяты из открытых источников: 4 из 6 представленных классов являлись документами, связанными с процессом обучения в высших учебных заведениях Российской Федерации, остальные 2 представляли документы с государственных закупок: договоры и технические задания. Экспериментальная схема включала в себя обучение классификатора Longformer, трансформера для обработки длинных документов, на наборах данных, созданных тремя различными инструментами OCR. Оценка OCR-инструментов производилась по качеству классификации текста, достигнутому Longformer. Результаты эксперимента показали, что Tesseract OCR демонстрирует превосходство в точности распознавания текста, что и повиляло на результирующую точность классификации извлеченного из документов текста.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













