Формирование корпуса пользовательских соглашений на русском языке
DOI:
https://doi.org/10.17308/sait/1995-5499/2024/3/138-152Ключевые слова:
текстовый корпус, формирование корпуса, пользовательское соглашение, очистка текстового корпусаАннотация
В настоящее время сбор и обработка персональных данных широко применяется при предоставлении цифровых услуг в сети Интернет. Информация о том, каким образом осуществляется их сбор и обработка, должна быть представлена в политиках конфиденциальности и/или пользовательских соглашения. Несмотря на то, что число утечек персональных данных у операторов различных цифровых сервисов с каждым годом растет, пользователи невнимательно читают данные документы, и часто, давая согласие на обработку персональных данных, они не знают, какие данные собираются, сколько они хранятся и в каких целях они используются. Одним из возможных решений данной проблемы является повышение читаемости пользовательских соглашений с помощью средств поддержки принятия решений, представляющих пользовательские соглашения в более простом для понимания виде, например, в виде инфографики, краткого описания или количественных оценок рисков, связанных с обработкой персональных данных. Однако, разработка таких средств требует использования структурированного и размеченного набора данных. Корпусы документов, которые удовлетворяют данным требованиям, существуют, однако все они состоят из соглашений, написанных на английском языке, аналогичных наборов данных на русском языке нет. В настоящей работе представлены методика формирования корпуса пользовательских соглашений на русском языке, методика его очистки, а также инструменты, реализующих данные методики. В результате применения разработанных программных средств был создан корпус, состоящий из 7510 очищенных русскоязычных пользовательских соглашений. Кроме того, в работе приведены результаты статистического анализа корпуса, проясняющего его некоторые особенности, что может быть использовано в дальнейших исследованиях, нацеленных на повышение прозрачности пользовательских соглашений для конечных пользователей.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













