Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения

  • Михаил Николаевич Краснянский Тамбовский государственный технический университет
  • Артем Дмитриевич Обухов Тамбовский государственный технический университет
  • Александра Алексеевна Воякина Тамбовский государственный технический университет
  • Екатерина Михайловна Соломатина Тамбовский государственный технический университет
Ключевые слова: машинное обучение, классификация документов, системы электронного документооборота, алгоритм предварительной обработки данных

Аннотация

В данной статье рассматривается актуальная задача классификации документов с использованием методов машинного обучения в рамках предметной области научно-образовательного учреждения. Анализ разработок в данной области показал, что достаточной теоретической базы по интеграции существующих методов классификации для анализа документов научно-образовательного учреждения не разработано. Поэтому для решения поставленной задачи сформирован алгоритм классификации документов, учитывающий специфику документов рассматриваемой предметной области научно-образовательного учреждения. В статье рассматривается система признаков, используемая для решения задачи комбинированной классификации. Рассмотрен подход предварительной обработки текста, позволяющий при использовании известных методах машинного обучения повысить точность и быстродействие классификации документов.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Михаил Николаевич Краснянский, Тамбовский государственный технический университет

профессор, д-р техн. наук, ректор Тамбовского государственного технического университета

Артем Дмитриевич Обухов, Тамбовский государственный технический университет

канд. техн. наук, старший преподаватель кафедры «Компьютерно-интегрированные системы в машиностроении» Тамбовского государственного технического университета

Александра Алексеевна Воякина, Тамбовский государственный технический университет

студент кафедры «Системы автоматизированной поддержки принятия решений» Тамбовского государственного технического университета

Екатерина Михайловна Соломатина, Тамбовский государственный технический университет

студент кафедры «Системы автоматизированной поддержки принятия решений» Тамбовского государственного технического университета

Литература

1. Клячкин В. Н. и др. Применение методов машинного обучения при решении задач технической диагностики // Научный вестник УВАУ ГА (И). – 2016. – Т. 8. – С. 158–161.
2. Барахнин В. Б. и др. Автоматизированная классификация русских поэтических текстов по жанрам и стилям // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. – 2017. – Т. 15. – No 3. – С. 13–23.
3. Бабуцкий В. А., Сидоров И. Д. Методы и средства извлечения ключевых слов в задаче автоматической идентификации потенциально опасных текстов в условиях неопределенности их тематической принадлежности // Успехи современной науки. – 2017. – Т. 1. – No 12. – С. 54–59.
4. Yang W., Boyd-Graber J., Resnik P. A dis-criminative topic model using document network structure //Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). – 2016. – Т. 1. – С. 686–696.
5. Комарова А. В. и др. Метод автоматизированного извлечения адресов из неструктурированных текстов //International Journal of Open Information Technologies. – 2017. – Т. 5. – No 11. – С. 21–26.
6. Piernik M., Brzezinski D., Morzy T. Clus-tering XML documents by patterns // Knowl edge and Information Systems. – 2016. – Т. 46. – No 1. – С. 185–212.
7. Tang B. et al. A Bayesian classification approach using classspecific features for text cat-egorization // IEEE Transactions on Knowledge and Data Engineering. – 2016. – Т. 28. – No 6. – С. 1602–1606.
8. Yoo J. Y., Yang D. Classification scheme of unstructured text document using TF-IDF and naive bayes classifier // Advanced Scienceand Technology Letters. – 2015. – Т. 3. – С. 263–266.
9. Feng G. et al. Feature subset selection using naive Bayes for text classification //Pattern Recognition Letters. – 2015. – Т. 65. – С. 109–115.
10. Wang S., Jiang L., Li C. Adapting naive Bayes tree for text classification // Knowledge and Information Systems. – 2015. – Т. 44. – No 1. – С. 77–89.
11. Peng F., Schuurmans D. Combining naive Bayes and n-gram language models for text classification // European Conference on Information Retrieval. – Springer, Berlin, Heidelberg, 2003. – С. 335–350.
12. Bijalwan V. et al. KNN based machine learning approach for text and document mining // International Journal of Database Theory and Application. – 2014. – Т. 7. – No 1. – С. 61–70.
13. Adeniyi D. A., Wei Z., Yongquan Y. Auto-mated web usage data mining and recommendation system using K-Nearest Neighbor (KNN) classification method // Applied Computing and Informatics. – 2016. – Т. 12. – No 1. – С. 90–108.
14. Ingram S., Munzner T. Dimensionality reduction for documents with nearest neighbor queries // Neurocomputing. – 2015. – Т. 150. – С. 557–569.
15. Jun S., Park S. S., Jang D. S. Document clustering method using dimension reduction and support vector clustering to overcome sparseness // Expert Systems with Applications. – 2014. – Т. 41. – No 7. – С. 3204–3212.
16. Lilleberg J., Zhu Y., Zhang Y. Support vector machines and word2vec for text classification with semantic features // Cognitive Informatics & Cognitive Computing (ICCI* CC), 2015 IEEE 14th International Conference on. – IEEE, 2015. – С. 136–140.
17. Pliakos K., Geurts P., Vens C. Global multi-output decision trees for interaction prediction // Machine Learning. – 2018. – С. 1–25.
18. Capannini G. et al. Quality versus efficiency in document scoring with learning-to-rank models //Information Processing & Management. – 2016. – Т. 52. – No 6. – С. 1161–1177.
19. Lucchese C. et al. Quickscorer: A fast algorithm to rank documents with additive ensembles of regression trees // Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. – ACM, 2015. – С. 73–82.
20. Abadi M. et al. TensorFlow: A System for Large-Scale Machine Learning //OSDI. – 2016. – Т. 16. – С. 265–283.
21. Dekhtyar A., Fong V. RE Data Challenge: Requirements Identification with Word2Vec and TensorFlow //Requirements Engineering Conference (RE), 2017 IEEE 25th International. – IEEE, 2017. – С. 484–489.
22. Wu X. et al. Top 10 algorithms in data mining //Knowledge and information systems. – 2008. – Т. 14. – No 1. – С. 1–37.
23. Jain A., Mandowara J. Text classification by combining text classifiers to improve the efficiency of classification //International Journal of Computer Application (2250-1797). – 2016. – Т. 6. – No 2.
24. Canhasi E., Kononenko I. Multi-document summarization via archetypal analysis of the content-graph joint model //Knowledge and information systems. – 2014. – Т. 41. – No 3. – С. 821–842.
25. Lan A. S. et al. Mathematical language processing: Automatic grading and feedback for open response mathematical questions //Proceedings of the Second (2015) ACM Conference on Learning@ Scale. – ACM, 2015. – С. 167–176.
26. Gupta V. et al. A survey of text mining techniques and applications //Journal of emerg-ing technologies in web intelligence. – 2009. – Т. 1. – No 1. – С. 60–76.
27. Krasnyanskiy M. N., Ostroukh A. V., Karpushkin S. V., Obukhov A. D. Algorithm for Structural and Parametric Synthesis of Electronic Document Management System of Research and Education Institution. Journal of Applied Scienc-es. – 2016. – Vol. 16, No 7. – P. 332–337. – DOI: 10.3923/jas.2016
28. Обухов А. Д. Алгоритм структурно-параметрического синтеза системы электронного документооборота научно-образовательного учреждения // Вопросы современной науки и практики. Ун-т им. В. И. Вернадского. – 2016. – No 1(59). – С. 199–209.
29. Батура Т. В. Методы автоматической классификации текстов // Программные продукты и системы. – 2017. – Т. 30. – No 1.
30. Обухов А. Д. Постановка задачи структурно-параметрического синтеза системы электронного документооборота научно-образовательного учреждения // Вестник ТГТУ. – 2016. – No 2. – С. 217–232. – DOI: 10.17277/vestnik.2016.02.pp.217-232
Опубликован
2018-08-03
Как цитировать
Краснянский, М. Н., Обухов, А. Д., Воякина, А. А., & Соломатина, Е. М. (2018). Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (3), 173-182. https://doi.org/10.17308/sait.2018.3/1245
Раздел
Компьютерная лингвистика и обработка естественного языка