Выбор варианта из множества решений при нечетком сравнении строк

Авторы

DOI:

https://doi.org/10.17308/sait/1995-5499/2023/2/181-191

Ключевые слова:

нечеткое сравнение строк, редакционное расстояние Левенштейна, редакционное расстояние Дамерау — Левенштейна, расстояние Джаро — Винклера, расстояние Хэмминга, исправление опечаток, исправление орфографических ошибок

Аннотация

Рассматривается актуальная проблема исправления опечаток и орфографических ошибок при анализе комментариев в социальных и корпоративных сетях. В качестве предмета исследования выбраны алгоритмы нечеткого сравнения строк, а именно алгоритмы поиска редакционного расстояния Левенштейна, Дамерау — Левенштейна, Джаро — Винклера и Хемминга. Проводится сравнение скорости работы методов и оценка их алгоритмической сложности. Предлагается метод контекстно-независимого выбора варианта из множества решений при нечетком сравнении строк. Сформированы гипотезы, релевантность которых доказана в результате выполнения вычислительного эксперимента. В качестве оценки предлагаемого линейного алгоритма приведена метрика точности. Теоретическая значимость исследования заключается в приведении оценки качества существующих алгоритмов нечеткого сравнения строк и выдвижения гипотез с целью разработки алгоритма исправления опечаток и орфографических ошибок в тексте. Практическая значимость заключается в программной реализации алгоритма исправления опечаток и орфографических ошибок в тексте, а также в проведении вычислительного эксперимента с получением словаря частотности замен символов. Новизна результата заключается в разработке реализации алгоритма решения задачи исправления опечаток и орфографических ошибок, отличающегося высокими показателями качества работы.

Биографии авторов

  • Ирина Евгеньевна Воронина, Воронежский государственный университет

    д-р техн. наук, доц., профессор кафедры программного обеспечения и администрирования информационных систем Воронежского государственного университета

  • Никита Андреевич Экерт, Воронежский государственный университет

    аспирант кафедры программного обеспечения и администрирования информационных систем Воронежского государственного университета

Библиографические ссылки

Загрузки

Опубликован

2023-09-29

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Выбор варианта из множества решений при нечетком сравнении строк. (2023). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 2, 181-191. https://doi.org/10.17308/sait/1995-5499/2023/2/181-191

Наиболее читаемые статьи этого автора (авторов)