Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов
Аннотация
Одной из актуальных задач компьютерной лингвистики, решаемой в рамках комплекса инструментов автоматизированного анализа текстов, является автоматическая классификация текстов. Для обучения классификатора на большом наборе предметных областей актуальной является задача полной автоматизации этого процесса, что требует наличия размеченного корпуса текстов. В статье описывается создание корпуса текстов с расширяемому разметкой и приложения для работы с ним, которое позволяет создавать субкорпуса по настраиваемому набору признаков. Это дает возможность использоваться корпус, как для обучения при решении других задач анализа текста, так и для автоматизации проверки получаемых результатов при исследовании различных методов компьютерной лингвистики.
Скачивания
Литература
2. Портал «Автоматизированный анализ текста» [Электронный ресурс]. URL: http://textanalysis.ru/
3. Полицына, Е. В. Создание настраиваемого сервиса классификации в составе открытой системы автоматизированного анализа текста // Материалы XIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 1. Воронеж, 2013. – С. 73–77.
4. Козлова, Н. В. Лингвистические корпуса: определение основных понятий и типология / Н. В. Козлова // Вестник НГУ, Лингвистика и межкультурная коммуникация. – 2013. – Т. 11, выпуск 1. – С. 79–88.
5. Гаинева, И. Ф. Об использовании корпусов в лингвистических исследованиях / И. Ф. Ганиева // Вестник Башкирского университета. – 2007. – Т. 4, No 12. – С. 104–106.
6. Рубцова Ю. В. Построение корпуса текстов для настройки тонового классификатора / Ю. В. Рубцова // Программные продукты и системы. –2015. – No 1. – С. 72–78.
7. Национальный корпус русского языка [Электронный ресурс] – URL: http://ruscorpora.ru
8. Ханко-хельсинкский аннотированный корпус [Электронный ресурс] – URL: http://www.ling.helsinki.fi/projects/hanco/
9. General Internet-Corpus of Russian [Электронный ресурс] – URL: http://www.webcorpora.ru
10. «Открытый корпус» (OpenCorpora) [Электронный ресурс] – : URL: http://opencorpora.org/
11. Корпус коротких текстов на русском языке на основе постов twitter – URL: http://study.mokoron.com/
12. Применение современных методов корпусной лингвистики при анализе текста // Молодежный научный форум: Гуманитарные науки: электр. сб. ст. по материалам XXV студ. междунар. заочной науч.-практ. конф. – М. : «МЦНО». – 2015. – No 6(24) [Электронный ресурс]. – URL: http://nauchforum.ru/archive/MNF_humanities/6(24).pdf
13. Иващенко, М. В. Анализ методов автоматизированного выделения ключевых слов из текстов на естественном языке / М. В. Иващенко // Материалы XVIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 6, Воронеж. – 2018. – С. 19–24.
14. Пряженцева, А. А. Анализ методов автоматизированного выделения ключевых слов из текстов на естественном языке / А. А. Пряженцева // Материалы XVIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 6, Воронеж. – 2018. – С. 56–60.
15. Белов, С. М. Создание программной системы классификации текстов / С. М. Белов // Материалы XVIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 6, Воронеж. – 2018. – С. 8–12.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).