Анализ информационных критериев отбора значимых признаков в методах text mining
Аннотация
В работе проведена количественная и качественная оценка методов отбора признаков документов на основе теории информации. Целью исследования являлась проверка применения ряда критериев для редуцирования множества терминов в коллекции текстов, к которой впоследствии будут применены методы классификации с учителем и без учителя. Входные данные программной реализации были разделены по схожести тематик и, в зависимости от эксперимента, включали наборы из 45 документов трех категорий технических текстов в различных концентрациях. Для расчета критериев использовалась программная система анализа текстовых данных TextStageProcessor, расположенная как проект с открытым исходным кодом. В разделе оценки работоспособности критериев введены две величины. Первая определяет относительное количество документов, которые принадлежат категории и содержат термин. Вторая равна относительному количеству документов, принадлежащих категории и не содержащих термин. Построены графики зависимости упомянутых величин от критериев. Рассмотрены ограничения для указанных параметров. Полученные результаты для критериев MI, CHI, IG не монотонны, что свидетельствует о возможной неработоспособности этих критериев для входной коллекции и необходимости дальнейших исследований. Для второй части эксперимента проведена предварительная обработка текстов, включающая удаление стоп-слов, нормализацию термов и приведение их к нижнему регистру. Качественный вид графиков зависимостей критериев TFD, DF и TF∙IDF от ранга слова в коллекции свидетельствует о том, что с их помощью можно сократить множество входных значимых термов для классификации без потери качества для исследования.
Скачивания
Литература
2. Meng J., Lin H., Yu Y. A Two-stage feature selection method for text categorization. Computers and Mathematics with Applications, October 2011. 2011. V. 62, iss. 7. P. 2793–2800. DOI
3. Bol’shakova E. I., Klyshinskij E. S., Lande D. V., Noskov A. A., Peskova O. V., Yagunova E. V. Natural Language Processing and Computational Linguistics. Moscow, Russia. Moscow, MIEM publ. 2011. p. 272. (In Russian)
4. Bol’shakova E. I., Voroncov K. V., Lukashevich N. V., Sapin A. S. Natural Language Processing and Data Mining. Moscow, Russia. Moscow, HSE publ. 2017. p. 268. (In Russian)
5. Barsegyan A. A., Kupriyanov M. S., Holod I. I. Data Mining and process analysis. Saint-Petersburg, Russia. BHV-Peterburg publ. 2009. p. 512.(In Russian)
6. Kalabin A. L., Tulyakov A. V. Text Mining computer software system. Proceedings of the 31st International Conference Matematicheskie metody v tekhnike i tekhnologiyah: Bol’shakov A. A. (ed.). Vol. 8. Saint-Petersburg, Russia. Izdatel’stvo politekhnicheskogo universiteta publ. 2018. P. 55–58. (In Russian)
7. Nguyen M. T. Machine Learning methods testing within http requests classification problem with the use of TF-IDF algorithm. Proceedings of Voronezh State University. Series: Systems analysis and information technologies. 2019. (4). P. 119–131. (In Russian)
8. Kim S. Gil L. Research paper classification systems based on TF-IDF and LDA schemes. Human-centric Computing and Information Sciences 9, 30 (2019). DOI
9. Havrlant L., Kreinovich V. A simple probabilistic explanation of term frequency-inverse document frequency (tf-idf) heuristic (and variations motivated by this explanation). International Journal of General Systems, 2017. V. 46 (1). P. 27–36. DOI
10. Asir D., Appavu S., Jebamalar E. Literature Review on Feature Selection Methods for High-Dimensional Data. International Journal of Computer Applications, 2016. V. 136 (1). P. 9–17. DOI
11. Cai J., Luo J., Wang S., Yang S. Feature selection in machine learning: A new perspective. Neurocomputing, vol. 300 (26 July 2018). 2018. P. 70–79. DOI
12. Mikhaylov D. V., Kozlov A. P., Emelyanov G. M. An approach based on tf-idf metrics to extract the knowledge and relevant linguistic means on subject-oriented text sets. Computer Optics, 2015. V. 39, iss. 3. P. 429–435. DOI
13. Lande D. V. (ed.) Web Knowledge Retrieval. Specialized work. Moscow, Russia. Moscow, Izdatel’skij dom “Vil’yams” publ., 2005. 272 p. (In Russian)
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).