Разработка нового экспериментального метода оценки OCR инструментов для задачи классификации цифровых документов
Аннотация
В статье приводится описание разработанного экспериментального метода оценки существующих OCR инструментов для решения проблемы присутствия сканированных документов в наборах данных, использующихся для задач классификации текста. Для классификации документов сканированные документы и документы, в которых невозможно получить текст с помощью программных средств извлечения текста, необходимо преобразовать в машиночитаемый текст, и для этой задачи используется технология оптического распознавания символов (OCR). Цель данной статьи заключается в том, чтобы экспериментально сравнить существующие OCR инструменты, а именно качество перевода сканированных документов в текст. Основными критериями для выбора инструмента OCR были: OCR инструмент должен быть свободно распространяемым, иметь встроенную поддержку русского языка и быть активно развивающимся проектом. Под эти критерии подходили три инструмента: Tesseract, EasyOCR и PaddleOCR. Для данной задачи был составлен корпус цифровых документов, половина из которых являлась отсканированными документами. Документы были взяты из открытых источников: 4 из 6 представленных классов являлись документами, связанными с процессом обучения в высших учебных заведениях Российской Федерации, остальные 2 представляли документы с государственных закупок: договоры и технические задания. Экспериментальная схема включала в себя обучение классификатора Longformer, трансформера для обработки длинных документов, на наборах данных, созданных тремя различными инструментами OCR. Оценка OCR-инструментов производилась по качеству классификации текста, достигнутому Longformer. Результаты эксперимента показали, что Tesseract OCR демонстрирует превосходство в точности распознавания текста, что и повиляло на результирующую точность классификации извлеченного из документов текста.
Скачивания
Литература
2. Singh A., Bacchuwar K. and Bhasin A. (2012) A survey of OCR applications International Journal of Machine Learning and Computing. 2(3). P. 314. DOI
3. Chaudhuri A. [et al.] Optical character recognition systems. Springer International Publishing, 2017. P. 9–41. DOI
4. Isheawy N. A. M. and Hasan H. (2015) Optical character recognition (OCR) system. IOSR Journal of Computer Engineering (IOSR-JCE), e-ISSN. P. 22-26.
5. Memon J. [et al.] (2020) Handwritten optical character recognition (OCR): A comprehensive systematic literature review (SLR). IEEE access. 8. DOI
6. Smith R. W. (2013) History of the Tesseract OCR engine: what worked and what didn’t. Document Recognition and Retrieval XX. SPIE. DOI
7. Smith R. (2007) An overview of the Tesseract OCR engine. Ninth international conference on document analysis and recognition (ICDAR 2007). IEEE. 2. P. 629-633. DOI
8. Smith R., Antonova D. and Lee D. S. (2009) Adapting the Tesseract open source OCR engine for multilingual OCR. Proceedings of the international workshop on multilingual OCR. P. 1–8. DOI
9. Badla S. (2014) Improving the efficiency of Tesseract OCR Engine. DOI
10. Garlapati B. M. and Chalamala S. R. (2017) A system for handwritten and printed text classification. 2017 UKSim-AMSS 19th International Conference on Computer Modelling & Simulation (UKSim). IEEE. P. 50–54. DOI
11. Khan K. [et al.] (2015) Urdu text classification using decision trees. 2015 12th International Conference on High-capacity Optical Networks and Enabling/Emerging Technologies (HONET). IEEE. P. 1–4. DOI
12. Springmann U. [et al.] (2018) Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin. arXiv preprint arXiv:1809.05501.
13. Reul C. [et al.] (2018) State of the art optical character recognition of 19th century fraktur scripts using open source engines. arXiv preprint arXiv:1810.03436.
14. Chaitra Y. L. [et al.] (2023) Text Detection and Recognition from the Scene Images Using RCNN and EasyOCR. International Conference on Information and Communication Technology for Intelligent Systems. Singapore: Springer Nature Singapore. P. 75–85. DOI
15. GitHub – JaidedAI/EasyOCR: Ready-touse OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. URL
16. Marne M. G. [et al.] (2018) Identification of optimal optical character recognition (OCR) engine for proposed system. 2018 Fourth International Conference on Computing Communication Control and Automation (ICCUBEA). IEEE. P. 1–4. DOI
17. Gordin S., Romach A. Gordin S. and Romach A. (2022) Optical Character Recognition for Complex Scripts: A Case-study in Cuneiform. ADHO 2022-Tokyo.
18. Du Y. [et al.] (2020) PP-OCR: A practical ultra lightweight OCR system. arXiv preprint arXiv:2009.09941.
19. Li C. [et al.] (2022) PP-OCRv3: More attempts for the improvement of ultra lightweight OCR system. arXiv preprint arXiv:2206.03001.
20. Wang H. [et al.] (2022) Pre-trained language models and their applications. Engineering. DOI
21. Devlin J. [et al.] (2018) BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
22. Radford A. [et al.] (2018) Improving language understanding by generative pre-training.
23. Beltagy I., Peters M. E. and Cohan A. (2020) Longformer: The long-document transformer. arXiv preprint arXiv:2004.05150.
24. Bazzo G. T. [et al.] (2020) Assessing the impact of OCR errors in information retrieval. Advances in Information Retrieval: 42nd European Conference on IR Research, ECIR 2020, Lisbon, Portugal, April 14–17, 2020, Proceedings, Part II 42. Springer International Publishing. P. 102–109. DOI
25. kazzand/ru-longformer-base-4096 – Hugging Face URL
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).