Выявление метафорической сочетаемости методами машинного обучения

  • О. В. Донина Воронежский государственный университет
Ключевые слова: машинное обучение, Text Mining, Natural Language Processing, автоматическое выявление метафор, криптоклассный анализ, нейронные сети, обучение с учителем


В рамках данной статьи рассмотрены возможности создания классификатора по автоматическому определению метафор методами машинного обучения. Нами был собран представительный датасет из 389 857 примеров, размеченных вручную, на основе которого и происходило обучение модели. В статье описана серия экспериментов, возникшие сложности, а также способы их решения. Так, для решения поставленной задачи были применены: наивный байесовский классификатор, логистическая регрессия и искусственные нейронные сети. Эксперименты происходили при изменении следующих параметров: наличие стоп-слов, лемматизация, стемминг, количество N-gram; для нейронных сетей также корректировались параметры: количество эпох, размер партии, количество примеров для обучения и валидации и пр. Лучшие результаты (Accuracy = 0,88, F1-score = 0,87) были достигнуты при помощи сверхточной нейронной сети со следующими параметрами: эпохи = 10, слои = 6 (в том числе 2 слоя dropout), batch_size = 500, обучение – на 70 % данных, валидация – на 30 % данных, векторизация = 2 и 3 символа, функция активации = relu и sigmoid, оптимизатор = Adamax, loss_func = binary_crossentropy. В результате проделанной работы удалось разработать средства автоматизации классификации корпусных примеров метафорической сочетаемости, что в перспективе должно содействовать интенсификации и популяризации исследований в области изучения метафор в связи с уменьшением трудо- и времязатрат исследователей по обработке корпусных примеров.


Биография автора

О. В. Донина, Воронежский государственный университет

кандидат филологических наук, доцент кафедры теоретической и прикладной лингвистики


Компьютерная лингвистика