Анализ информационных критериев отбора значимых признаков в методах text mining

Александр Леонидович Калабин; Елена Игоревна Корнеева

doi:10.17308/sait.2020.2/2924

Александр Леонидович Калабин Тверской государственный технический университет https://orcid.org/0000-0002-4112-4996
Елена Игоревна Корнеева Тверской государственный технический университет https://orcid.org/0000-0002-9793-9713

DOI: https://doi.org/10.17308/sait.2020.2/2924

Ключевые слова: анализ текстовых данных, методы отбора значимых признаков, частота повторения термина, коллекция документов, оценка критериев

Аннотация

В работе проведена количественная и качественная оценка методов отбора признаков документов на основе теории информации. Целью исследования являлась проверка применения ряда критериев для редуцирования множества терминов в коллекции текстов, к которой впоследствии будут применены методы классификации с учителем и без учителя. Входные данные программной реализации были разделены по схожести тематик и, в зависимости от эксперимента, включали наборы из 45 документов трех категорий технических текстов в различных концентрациях. Для расчета критериев использовалась программная система анализа текстовых данных TextStageProcessor, расположенная как проект с открытым исходным кодом. В разделе оценки работоспособности критериев введены две величины. Первая определяет относительное количество документов, которые принадлежат категории и содержат термин. Вторая равна относительному количеству документов, принадлежащих категории и не содержащих термин. Построены графики зависимости упомянутых величин от критериев. Рассмотрены ограничения для указанных параметров. Полученные результаты для критериев MI, CHI, IG не монотонны, что свидетельствует о возможной неработоспособности этих критериев для входной коллекции и необходимости дальнейших исследований. Для второй части эксперимента проведена предварительная обработка текстов, включающая удаление стоп-слов, нормализацию термов и приведение их к нижнему регистру. Качественный вид графиков зависимостей критериев TFD, DF и TF∙IDF от ранга слова в коллекции свидетельствует о том, что с их помощью можно сократить множество входных значимых термов для классификации без потери качества для исследования.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Александр Леонидович Калабин, Тверской государственный технический университет

д-р. физ.-мат. наук, проф., заведующий кафедрой Программного обеспечения ФГБОУ ВО «Тверской государственный технический университет»

Елена Игоревна Корнеева, Тверской государственный технический университет

аспирант 4-го года обучения кафедры Программного обеспечения ФГБОУ ВО «Тверской государственный технический университет»

Литература

1. Yang Y. A, Pedersen J. O. Comparative Study on Feature Selection in Text Categorization. Proceedings of the 14th International Conference on Machine Learning, 8–12 July 1997, Nashville, Tennessee, USA. 1997. P. 412–420.
2. Meng J., Lin H., Yu Y. A Two-stage feature selection method for text categorization. Computers and Mathematics with Applications, October 2011. 2011. V. 62, iss. 7. P. 2793–2800. DOI
3. Bol’shakova E. I., Klyshinskij E. S., Lande D. V., Noskov A. A., Peskova O. V., Yagunova E. V. Natural Language Processing and Computational Linguistics. Moscow, Russia. Moscow, MIEM publ. 2011. p. 272. (In Russian)
4. Bol’shakova E. I., Voroncov K. V., Lukashevich N. V., Sapin A. S. Natural Language Processing and Data Mining. Moscow, Russia. Moscow, HSE publ. 2017. p. 268. (In Russian)
5. Barsegyan A. A., Kupriyanov M. S., Holod I. I. Data Mining and process analysis. Saint-Petersburg, Russia. BHV-Peterburg publ. 2009. p. 512.(In Russian)
6. Kalabin A. L., Tulyakov A. V. Text Mining computer software system. Proceedings of the 31st International Conference Matematicheskie metody v tekhnike i tekhnologiyah: Bol’shakov A. A. (ed.). Vol. 8. Saint-Petersburg, Russia. Izdatel’stvo politekhnicheskogo universiteta publ. 2018. P. 55–58. (In Russian)
7. Nguyen M. T. Machine Learning methods testing within http requests classification problem with the use of TF-IDF algorithm. Proceedings of Voronezh State University. Series: Systems analysis and information technologies. 2019. (4). P. 119–131. (In Russian)
8. Kim S. Gil L. Research paper classification systems based on TF-IDF and LDA schemes. Human-centric Computing and Information Sciences 9, 30 (2019). DOI
9. Havrlant L., Kreinovich V. A simple probabilistic explanation of term frequency-inverse document frequency (tf-idf) heuristic (and variations motivated by this explanation). International Journal of General Systems, 2017. V. 46 (1). P. 27–36. DOI
10. Asir D., Appavu S., Jebamalar E. Literature Review on Feature Selection Methods for High-Dimensional Data. International Journal of Computer Applications, 2016. V. 136 (1). P. 9–17. DOI
11. Cai J., Luo J., Wang S., Yang S. Feature selection in machine learning: A new perspective. Neurocomputing, vol. 300 (26 July 2018). 2018. P. 70–79. DOI
12. Mikhaylov D. V., Kozlov A. P., Emelyanov G. M. An approach based on tf-idf metrics to extract the knowledge and relevant linguistic means on subject-oriented text sets. Computer Optics, 2015. V. 39, iss. 3. P. 429–435. DOI
13. Lande D. V. (ed.) Web Knowledge Retrieval. Specialized work. Moscow, Russia. Moscow, Izdatel’skij dom “Vil’yams” publ., 2005. 272 p. (In Russian)