Исследование лексики текстов жанра 2.0 методами квантитативной и корпусной лингвистики (на примере текстов Истаграм)

О. В. Донина

doi:10.17308/lic.2020.3/2928

Авторы

О. В. Донина Воронежский государственный университет

DOI:

https://doi.org/10.17308/lic.2020.3/2928

Ключевые слова:

Instagram, количественный анализ, АntConc, стилеметрия, R, Voyant Tools, визуализация данных, жанр 2.0

Аннотация

В рамках данной статьи рассмотрены возможности использования инструментария квантитативной и корпусной лингвистики для анализа текстов жанра 2.0 на примере социальной сети Инстаграм. Объем исследовательского корпуса составил 43 000 словоупотреблений. Все рассматриваемые тексты были разделены на три группы по количеству подписчиков у их авторов (100 тыс. – 400 тыс.; 500 тыс. – 900 тыс.; 1 млн – ∞). Целью исследования была апробация средств компьютерной лингвистики для анализа текстового материала жанра 2.0. Среди решаемых в рамках статьи задач стоит указать: 1) предварительную обработку данных (лемматизация, удаление стоп-слов); 2) выявление ключевых слов при помощи корпусного менеджера AntConc, 3) визуализацию данных при помощи Voyant Tools; 4) проведение кластеризации ресурсами языка R; 5) сопоставление полученных показателей по авторам и по указанным выше группам. Согласно гипотезе исследования, выделенные группы инстаграм-блогеров должны кластеризоваться по авторам в зависимости от количества подписчиков. Подтверждение гипотезы позволило бы в дальнейшем разработать автоматический классификатор инстаграм-текстов. Самыми частотными словами для всего исследовательского корпуса оказались: свой; очень; самый; большой; год. Были сопоставлены частоты использования этих слов по группам (самое существенное отклонение при этом составило 0,26 %) и по авторам внутри групп (где указанная величина варьировалась от 0,5 до 0,75 %). Множественный коэффициент корреляции также показал, что сходство частотного распределения слов выше между группами (45 %), чем между авторами внутри одной группы (варьируется от 15 до 35 %). Далее были сопоставлены топ-20 самых частотных слов каждой группы и указаны частеречные предпочтения: в первой группе половина слов представлена прилагательными, в то время как в третьей группе 45 % составляют существительные. Далее был рассчитан процент уникальной и совпадающей лексики по группам (уникальная лексика составила 74,9 %) и по авторам (уникальная лексика составила 70,6 %). На последнем этапе проверки гипотезы было решено выяснить, существуют ли уникальные для каждой группы стилевые характеристики; для чего был применен метод стилеметрии, который также не выявил зависящих от количества подписчиков групп. Подводя итоги проведенному анализу, стоит отметить, что, несмотря на то, что гипотеза исследования не подтвердилась и никаких статистически значимых отличительных особенностей групп инстаграм-аккаунтов в зависимости от количества подписчиков выявить не удалось, в рамках данной статьи был предложен комплексный инструментарий для квантитативного анализа текстов, в том числе жанра 2.0. Учитывая полученные в рамках текущей работы результаты, показавшие, что индивидуальные особенности инстаграм-блогеров являются более существенными, чем предполагаемые внутригрупповые сходства, в качестве перспектив исследования стоит указать возможность изучения индивидуальных характеристик авторов в Инстаграм и поиск возможных закономерностей, в том числе повлиявших на результаты стилеметрии.