Выбор варианта из множества решений при нечетком сравнении строк
DOI:
https://doi.org/10.17308/sait/1995-5499/2023/2/181-191Ключевые слова:
нечеткое сравнение строк, редакционное расстояние Левенштейна, редакционное расстояние Дамерау — Левенштейна, расстояние Джаро — Винклера, расстояние Хэмминга, исправление опечаток, исправление орфографических ошибокАннотация
Рассматривается актуальная проблема исправления опечаток и орфографических ошибок при анализе комментариев в социальных и корпоративных сетях. В качестве предмета исследования выбраны алгоритмы нечеткого сравнения строк, а именно алгоритмы поиска редакционного расстояния Левенштейна, Дамерау — Левенштейна, Джаро — Винклера и Хемминга. Проводится сравнение скорости работы методов и оценка их алгоритмической сложности. Предлагается метод контекстно-независимого выбора варианта из множества решений при нечетком сравнении строк. Сформированы гипотезы, релевантность которых доказана в результате выполнения вычислительного эксперимента. В качестве оценки предлагаемого линейного алгоритма приведена метрика точности. Теоретическая значимость исследования заключается в приведении оценки качества существующих алгоритмов нечеткого сравнения строк и выдвижения гипотез с целью разработки алгоритма исправления опечаток и орфографических ошибок в тексте. Практическая значимость заключается в программной реализации алгоритма исправления опечаток и орфографических ошибок в тексте, а также в проведении вычислительного эксперимента с получением словаря частотности замен символов. Новизна результата заключается в разработке реализации алгоритма решения задачи исправления опечаток и орфографических ошибок, отличающегося высокими показателями качества работы.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













