Исследование лексики текстов жанра 2.0 методами квантитативной и корпусной лингвистики (на примере текстов Истаграм)

  • О. В. Донина Воронежский государственный университет
Ключевые слова: Instagram, количественный анализ, АntConc, стилеметрия, R, Voyant Tools, визуализация данных, жанр 2.0

Аннотация

В рамках данной статьи рассмотрены возможности использования инструментария квантитативной и корпусной лингвистики для анализа текстов жанра 2.0 на примере социальной сети Инстаграм. Объем исследовательского корпуса составил 43 000 словоупотреблений. Все рассматриваемые тексты были разделены на три группы по количеству подписчиков у их авторов (100 тыс. – 400 тыс.; 500 тыс. – 900 тыс.; 1 млн – ∞). Целью исследования была апробация средств компьютерной лингвистики для анализа текстового материала жанра 2.0. Среди решаемых в рамках статьи задач стоит указать: 1) предварительную обработку данных (лемматизация, удаление стоп-слов); 2) выявление ключевых слов при помощи корпусного менеджера AntConc, 3) визуализацию данных при помощи Voyant Tools; 4) проведение кластеризации ресурсами языка R; 5) сопоставление полученных показателей по авторам и по указанным выше группам. Согласно гипотезе исследования, выделенные группы инстаграм-блогеров должны кластеризоваться по авторам в зависимости от количества подписчиков. Подтверждение гипотезы позволило бы в дальнейшем разработать автоматический классификатор инстаграм-текстов. Самыми частотными словами для всего исследовательского корпуса оказались: свой; очень; самый; большой; год. Были сопоставлены частоты использования этих слов по группам (самое существенное отклонение при этом составило 0,26 %) и по авторам внутри групп (где указанная величина варьировалась от 0,5 до 0,75 %). Множественный коэффициент корреляции также показал, что сходство частотного распределения слов выше между группами (45 %), чем между авторами внутри одной группы (варьируется от 15 до 35 %). Далее были сопоставлены топ-20 самых частотных слов каждой группы и указаны частеречные предпочтения: в первой группе половина слов представлена прилагательными, в то время как в третьей группе 45 % составляют существительные. Далее был рассчитан процент уникальной и совпадающей лексики по группам (уникальная лексика составила 74,9 %) и по авторам (уникальная лексика составила 70,6 %). На последнем этапе проверки гипотезы было решено выяснить, существуют ли уникальные для каждой группы стилевые характеристики; для чего был применен метод стилеметрии, который также не выявил зависящих от количества подписчиков групп. Подводя итоги проведенному анализу, стоит отметить, что, несмотря на то, что гипотеза исследования не подтвердилась и никаких статистически значимых отличительных особенностей групп инстаграм-аккаунтов в зависимости от количества подписчиков выявить не удалось, в рамках данной статьи был предложен комплексный инструментарий для квантитативного анализа текстов, в том числе жанра 2.0. Учитывая полученные в рамках текущей работы результаты, показавшие, что индивидуальные особенности инстаграм-блогеров являются более существенными, чем предполагаемые внутригрупповые сходства, в качестве перспектив исследования стоит указать возможность изучения индивидуальных характеристик авторов в Инстаграм и поиск возможных закономерностей, в том числе повлиявших на результаты стилеметрии.

Скачивания

Данные скачивания пока не доступны.

Биография автора

О. В. Донина, Воронежский государственный университет

кандидат филологических наук, преподаватель кафедры теоретической и прикладной лингвистики

Литература

1. Kukueva G. V. Internet-zhanr ili kommunikativnaya praktika? (k voprosu o terminologicheskom opredelenii tekstov, funktsioniruyushhikh v virtual’nom prostranstve) [Internet genre or communicative practice? (on the issue of terminologically accessible texts functioning in the virtual space)]. In Ekologiya jazyka i kommunikativnaya praktika. 2018. No. 1. Pp. 44–48.
2. Goroshko E. I. Lingvistika Interneta: formirovanie distsiplinarnoj paradigm [Linguistics of the Internet: scientific discipline and paradigm]. In Zhanry i tipy teksta v nauchnom i medijnom diskurse. Vyp. 5. Orel: Kartush, 2007. Pp. 223–237.
3. Goroshko E. I., Zhigalina E. А. Virtual’noe zhanrovedenie : ustoyavsheesya i spornoe [Virtual genre studies: well-established and controversial]. In Voprosy psikholingvistiki. 2010. No. 12. Pp. 105–124.
4. Goroshko E. I. «Chirikayushhij» zhanr 2.0 Tvitter ili chto novogo poyavilos’ v virtual’nom zhanrovedenii? [The “Tweet” genre 2.0 Twitter or what’s new in virtual genre science?]. In Vestnik Tverskogo gos. un-ta. 2011. No. 3. Pp. 11–20.
5. Goroshko E. I., Polyakova T. L. K postroeniyu tipologii zhanrov sotsial’nykh medij [Toward the construction of a typology of social media genres]. In Zhanry rechi. 2015. No. 2 (12). Pp. 119–127.
6. Shchurina Y. V. Zhanrovoe svoeobrazie sotsial’noj seti Instagram [Genre originality of the social network Instagram]. In Zhanry rechi. 2016. No. 1 (13). Pp. 156–168.
7. Аsmus N. G. Lingvisticheskie osobennosti virtual’nogo kommunikativnogo prostranstva [Linguistic features of the virtual communicative space]: PhD Dissertation. CHelyabinsk, 2005. 266 p.
8. Swales J. M. Genre Analysis English in academic and research settings. Cambridge : Cambridge University Press, 1990. 260 p.
9. Askehave I., Nielsen A. What are the Characteristics of Digital Genres? – Genre Theory from a Multimodal Perspective. Proceedings of the 38th Hawaii International Conference on System Sciences. 2005. Pp. 120–141.
10. Yates J., Orlikowski W. J. Genre Systems: Structuring Interaction through Communicative Norms. Cambridge, Massachusetts, 1998. URL
11. Ihlstrom C. The Evolution of a New(s) Genre: Doctoral Dissertation. School of Information Science, Computer and Electronic Engineering, Halmstad University; Department of Informatics, Goteborg University. Gothenburg Studies in Informatics. 2004. 164 p.
12. Kompantseva L. F. Internet-lingvistika kognitivno-pragmaticheskij i lingvokul’torologicheskij podkhody [Internet linguistics cognitive-pragmatic and linguocultural approaches]. Lugansk : Znanie, 2008. 528 p.
13. Shchipitsina L. Y. ZHanry komp’yuterno-oposredovannoj kommunikatsii [Genres of computer-mediated communication]. Аrkhangel’sk: Pomor. un-t, 2009. 238 p.
14. Goroshko E. I., Polyakova T. L. Instagram kak zhanr 2.0 (na primere politicheskoj kommunikatsii) [Instagram as a genre 2.0 (on the example of public communications)]. In Zhanry rechi. 2019. No. 4 (24). Pp. 300–313.
15. Mamonova N.V. Klassifikatsiya postov v angloyazychnoj sotsial’noj seti Instagram (lingvosinergeticheskij aspekt) [Classification of posts in the Russian-speaking social network Instagram (linguosynergetic aspect)]. In Vestnik ChelGU. 2019. No. 4 (426). Pp. 137–142.
16. Anthony L. (2019). AntConc (Version 3.5.8) [Computer Software]. Tokyo, Japan: Waseda University. URL
17. Donina O. V. Sposoby vizualizatsii rezul’tatov kriptoklassnogo issledovaniya [Methods of visualizing the results of cryptoclass studies]. In Vestnik Voronezhskogo gosudarstvennogo universiteta. Ser. Lingvistikamezhkul’turnaya kommunikatsiya. 2015. No. 3. Pp. 105–112.
Опубликован
2020-06-15
Как цитировать
Донина, О. В. (2020). Исследование лексики текстов жанра 2.0 методами квантитативной и корпусной лингвистики (на примере текстов Истаграм). Вестник ВГУ. Серия: Лингвистика и межкультурная коммуникация, (3), 25-33. https://doi.org/10.17308/lic.2020.3/2928
Раздел
Теория языка