Возможный алгоритм вычисления предельного размера словаря писателя

Ключевые слова: коэффициент лексического разнообразия, закон Ципфа, экстраполяция, лемматизированный частотный словарь, предельный размер словаря

Аннотация

В работе предлагается метод оценивания предельного размера словаря писателя с помощью экстраполяции эмпирически задаваемой функции, выражающей зависимость коэффициента лексического разнообразия от объема текстового корпуса. Обсуждаются возникающие проблемы адекватности выбираемого способа экстраполяции. На примере творчества Л. Н. Толстого произведены расчеты с помощью логарифмических базисных функций для аппроксимации и экстраполяции.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Алексей Александрович Кретов, Воронежский государственный университет

д-р филол. наук, проф., профессор кафедры теоретической и прикладной лингвистики Воронежского государственного университета

Мария Викторовна Ломец, Воронежский государственный университет

студентка кафедры теоретической и прикладной лингвистики факультета Романо-германской филологии Воронежского государственного университета

Игорь Петрович Половинкин, Воронежский государственный университет

д-р физ.-матем. наук, профессор кафедры математического и прикладного анализа, доцент кафедры теоретической и прикладной лингвистики Воронежского государственного университета

Литература

1. Mandelbrot B. B. & Hudson R. L. (2004) The (mis)Behavior of Markets: A Fractal View of Risk, Ruin, and Reward. New York: Basic Books.
2. McKee G., Malvern D., & Richards B. (2000) Measuring Vocabulary Diversity Using Dedicated Software. Literary and Linguistic Computing. No 15(3). P. 323–337. DOI
3. Papp F. (1961) Quantitative analysis of the vocabulary structure of some Russian texts. Problems of Linguistics. (6). P. 93–100. (In Russian).
4. Suprun A. E. (1979) To the quantitative assessment of the lexical richness of the text. Philological Sciences. 1. (In Russian).
5. Suprun A. E. (1995) Repeat in the lexical structure of the text. Language — a system. Language is text. Language is an ability. On the occasion of the 60th anniversary of Corresponding Member of the RAS Yu. N. Karaulov. Moscow. P. 133–141. (In Russian)
6. Suprun A. E. (1996) Lectures on the theory of speech activity. A manual for students philologist fak. university. Minsk. Belorusskij fond Sorosa. P. 287. (In Russian)
7. URL
8. Templin M. (1957) Certain language skills in children. – Minneapolis: University of Minnesota Press. DOI
9. Johnson W. (1944) Language and speech hygiene, an application of general semantics, Ann Arbor.
10. Chotlos J. W. (1944) Studies in language-behavior, IV — A statistical and comparative analysis of individual written language samples. P. 75–111. («Psychologie monographie»). DOI
11. Miller G. A. (1951) Language and communication. New York.
12. Suprun A. E. (2001) Povtor v leksicheskoi strukture teksta [Repetition in the lexical structure of the text]. In: Research on text linguistics: a collection of articles. Minsk. P. 108–117.
13. Kretov A. A., Matycina L. N. (1999) Morpheme-morphological dictionary of the language A. S. Pushkin: approx. 23,000 words. Voronezh. Central Chernozemnoe book publishing house. 208 p. (In Russian).
14. Avdeeva A. A., Borodin V. V., Bykova N. Ya., Kozokina S. M., Gordeeva N. A., Makarova L. A., SHajkevich A. Ya. (1981) Frequency Dictionary of the Language M. Yu. Lermontov. Lermontov Encyclopedia / USSR Academy of Sciences. Inst. Rus. lit. (Pushkin. House); Scientific Ed. Council of the publishing house “Sov. Encycl”. Moscow. Sov. Encikl. P. 717–774. (In Russian).
15. Tuldava Yu. (1987) Problems and Methods of the Quantitative Systemic Study of Vocabulary, Tallin. Valgus. (In Russian)
Опубликован
2021-04-29
Как цитировать
Кретов, А. А., Ломец, М. В., & Половинкин, И. П. (2021). Возможный алгоритм вычисления предельного размера словаря писателя. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 133-145. https://doi.org/10.17308/sait.2021.1/3378
Раздел
Компьютерная лингвистика и обработка естественного языка