Разработка нового экспериментального метода оценки OCR инструментов для задачи классификации цифровых документов

Алла Григорьевна Кравец; Дмитрий Олегович Семёночкин; Андрей Константинович Марков

doi:10.17308/sait/1995-5499/2024/3/114-126

Алла Григорьевна Кравец Волгоградский государственный технический университет https://orcid.org/0000-0003-1675-8652
Дмитрий Олегович Семёночкин Волгоградский государственный технический университет https://orcid.org/0009-0008-2352-4313
Андрей Константинович Марков Волгоградский государственный технический университет https://orcid.org/0009-0001-6452-0502

DOI: https://doi.org/10.17308/sait/1995-5499/2024/3/114-126

Ключевые слова: OCR инструменты, распознавание текста, классификация текста, экспериментальная оценка, цифровые документы

Аннотация

В статье приводится описание разработанного экспериментального метода оценки существующих OCR инструментов для решения проблемы присутствия сканированных документов в наборах данных, использующихся для задач классификации текста. Для классификации документов сканированные документы и документы, в которых невозможно получить текст с помощью программных средств извлечения текста, необходимо преобразовать в машиночитаемый текст, и для этой задачи используется технология оптического распознавания символов (OCR). Цель данной статьи заключается в том, чтобы экспериментально сравнить существующие OCR инструменты, а именно качество перевода сканированных документов в текст. Основными критериями для выбора инструмента OCR были: OCR инструмент должен быть свободно распространяемым, иметь встроенную поддержку русского языка и быть активно развивающимся проектом. Под эти критерии подходили три инструмента: Tesseract, EasyOCR и PaddleOCR. Для данной задачи был составлен корпус цифровых документов, половина из которых являлась отсканированными документами. Документы были взяты из открытых источников: 4 из 6 представленных классов являлись документами, связанными с процессом обучения в высших учебных заведениях Российской Федерации, остальные 2 представляли документы с государственных закупок: договоры и технические задания. Экспериментальная схема включала в себя обучение классификатора Longformer, трансформера для обработки длинных документов, на наборах данных, созданных тремя различными инструментами OCR. Оценка OCR-инструментов производилась по качеству классификации текста, достигнутому Longformer. Результаты эксперимента показали, что Tesseract OCR демонстрирует превосходство в точности распознавания текста, что и повиляло на результирующую точность классификации извлеченного из документов текста.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Алла Григорьевна Кравец, Волгоградский государственный технический университет

д-р тех. наук, проф., профессор кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета

Дмитрий Олегович Семёночкин, Волгоградский государственный технический университет

магистрант 2-го года обучения кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета

Андрей Константинович Марков, Волгоградский государственный технический университет

аспирант кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета

Литература

1. Jain P., Taneja K. and Taneja H. (2021) Which OCR toolset is good and why: A comparative study. Kuwait Journal of Science. 48(2). DOI
2. Singh A., Bacchuwar K. and Bhasin A. (2012) A survey of OCR applications International Journal of Machine Learning and Computing. 2(3). P. 314. DOI
3. Chaudhuri A. [et al.] Optical character recognition systems. Springer International Publishing, 2017. P. 9–41. DOI
4. Isheawy N. A. M. and Hasan H. (2015) Optical character recognition (OCR) system. IOSR Journal of Computer Engineering (IOSR-JCE), e-ISSN. P. 22-26.
5. Memon J. [et al.] (2020) Handwritten optical character recognition (OCR): A comprehensive systematic literature review (SLR). IEEE access. 8. DOI
6. Smith R. W. (2013) History of the Tesseract OCR engine: what worked and what didn’t. Document Recognition and Retrieval XX. SPIE. DOI
7. Smith R. (2007) An overview of the Tesseract OCR engine. Ninth international conference on document analysis and recognition (ICDAR 2007). IEEE. 2. P. 629-633. DOI
8. Smith R., Antonova D. and Lee D. S. (2009) Adapting the Tesseract open source OCR engine for multilingual OCR. Proceedings of the international workshop on multilingual OCR. P. 1–8. DOI
9. Badla S. (2014) Improving the efficiency of Tesseract OCR Engine. DOI
10. Garlapati B. M. and Chalamala S. R. (2017) A system for handwritten and printed text classification. 2017 UKSim-AMSS 19th International Conference on Computer Modelling & Simulation (UKSim). IEEE. P. 50–54. DOI
11. Khan K. [et al.] (2015) Urdu text classification using decision trees. 2015 12th International Conference on High-capacity Optical Networks and Enabling/Emerging Technologies (HONET). IEEE. P. 1–4. DOI
12. Springmann U. [et al.] (2018) Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin. arXiv preprint arXiv:1809.05501.
13. Reul C. [et al.] (2018) State of the art optical character recognition of 19th century fraktur scripts using open source engines. arXiv preprint arXiv:1810.03436.
14. Chaitra Y. L. [et al.] (2023) Text Detection and Recognition from the Scene Images Using RCNN and EasyOCR. International Conference on Information and Communication Technology for Intelligent Systems. Singapore: Springer Nature Singapore. P. 75–85. DOI
15. GitHub – JaidedAI/EasyOCR: Ready-touse OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. URL
16. Marne M. G. [et al.] (2018) Identification of optimal optical character recognition (OCR) engine for proposed system. 2018 Fourth International Conference on Computing Communication Control and Automation (ICCUBEA). IEEE. P. 1–4. DOI
17. Gordin S., Romach A. Gordin S. and Romach A. (2022) Optical Character Recognition for Complex Scripts: A Case-study in Cuneiform. ADHO 2022-Tokyo.
18. Du Y. [et al.] (2020) PP-OCR: A practical ultra lightweight OCR system. arXiv preprint arXiv:2009.09941.
19. Li C. [et al.] (2022) PP-OCRv3: More attempts for the improvement of ultra lightweight OCR system. arXiv preprint arXiv:2206.03001.
20. Wang H. [et al.] (2022) Pre-trained language models and their applications. Engineering. DOI
21. Devlin J. [et al.] (2018) BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
22. Radford A. [et al.] (2018) Improving language understanding by generative pre-training.
23. Beltagy I., Peters M. E. and Cohan A. (2020) Longformer: The long-document transformer. arXiv preprint arXiv:2004.05150.
24. Bazzo G. T. [et al.] (2020) Assessing the impact of OCR errors in information retrieval. Advances in Information Retrieval: 42nd European Conference on IR Research, ECIR 2020, Lisbon, Portugal, April 14–17, 2020, Proceedings, Part II 42. Springer International Publishing. P. 102–109. DOI
25. kazzand/ru-longformer-base-4096 – Hugging Face URL