Формирование корпуса пользовательских соглашений на русском языке

Авторы

DOI:

https://doi.org/10.17308/sait/1995-5499/2024/3/138-152

Ключевые слова:

текстовый корпус, формирование корпуса, пользовательское соглашение, очистка текстового корпуса

Аннотация

В настоящее время сбор и обработка персональных данных широко применяется при предоставлении цифровых услуг в сети Интернет. Информация о том, каким образом осуществляется их сбор и обработка, должна быть представлена в политиках конфиденциальности и/или пользовательских соглашения. Несмотря на то, что число утечек персональных данных у операторов различных цифровых сервисов с каждым годом растет, пользователи невнимательно читают данные документы, и часто, давая согласие на обработку персональных данных, они не знают, какие данные собираются, сколько они хранятся и в каких целях они используются. Одним из возможных решений данной проблемы является повышение читаемости пользовательских соглашений с помощью средств поддержки принятия решений, представляющих пользовательские соглашения в более простом для понимания виде, например, в виде инфографики, краткого описания или количественных оценок рисков, связанных с обработкой персональных данных. Однако, разработка таких средств требует использования структурированного и размеченного набора данных. Корпусы документов, которые удовлетворяют данным требованиям, существуют, однако все они состоят из соглашений, написанных на английском языке, аналогичных наборов данных на русском языке нет. В настоящей работе представлены методика формирования корпуса пользовательских соглашений на русском языке, методика его очистки, а также инструменты, реализующих данные методики. В результате применения разработанных программных средств был создан корпус, состоящий из 7510 очищенных русскоязычных пользовательских соглашений. Кроме того, в работе приведены результаты статистического анализа корпуса, проясняющего его некоторые особенности, что может быть использовано в дальнейших исследованиях, нацеленных на повышение прозрачности пользовательских соглашений для конечных пользователей.

Биография автора

  • Михаил Дмитриевич Кузнецов, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук

    м.н.с лаборатории Проблем компьютерной безопасности Санкт-Петербургского Федерального исследовательского центра Российской академии наук

Библиографические ссылки

Загрузки

Опубликован

2024-11-14

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Формирование корпуса пользовательских соглашений на русском языке. (2024). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 3, 138-152. https://doi.org/10.17308/sait/1995-5499/2024/3/138-152