Формирование корпуса пользовательских соглашений на русском языке

Михаил Дмитриевич Кузнецов

doi:10.17308/sait/1995-5499/2024/3/138-152

Михаил Дмитриевич Кузнецов Санкт-Петербургский Федеральный исследовательский центр Российской академии наук https://orcid.org/0000-0002-0970-8473

DOI: https://doi.org/10.17308/sait/1995-5499/2024/3/138-152

Ключевые слова: текстовый корпус, формирование корпуса, пользовательское соглашение, очистка текстового корпуса

Аннотация

В настоящее время сбор и обработка персональных данных широко применяется при предоставлении цифровых услуг в сети Интернет. Информация о том, каким образом осуществляется их сбор и обработка, должна быть представлена в политиках конфиденциальности и/или пользовательских соглашения. Несмотря на то, что число утечек персональных данных у операторов различных цифровых сервисов с каждым годом растет, пользователи невнимательно читают данные документы, и часто, давая согласие на обработку персональных данных, они не знают, какие данные собираются, сколько они хранятся и в каких целях они используются. Одним из возможных решений данной проблемы является повышение читаемости пользовательских соглашений с помощью средств поддержки принятия решений, представляющих пользовательские соглашения в более простом для понимания виде, например, в виде инфографики, краткого описания или количественных оценок рисков, связанных с обработкой персональных данных. Однако, разработка таких средств требует использования структурированного и размеченного набора данных. Корпусы документов, которые удовлетворяют данным требованиям, существуют, однако все они состоят из соглашений, написанных на английском языке, аналогичных наборов данных на русском языке нет. В настоящей работе представлены методика формирования корпуса пользовательских соглашений на русском языке, методика его очистки, а также инструменты, реализующих данные методики. В результате применения разработанных программных средств был создан корпус, состоящий из 7510 очищенных русскоязычных пользовательских соглашений. Кроме того, в работе приведены результаты статистического анализа корпуса, проясняющего его некоторые особенности, что может быть использовано в дальнейших исследованиях, нацеленных на повышение прозрачности пользовательских соглашений для конечных пользователей.

Скачивания

Данные скачивания пока не доступны.

Биография автора

Михаил Дмитриевич Кузнецов, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук

м.н.с лаборатории Проблем компьютерной безопасности Санкт-Петербургского Федерального исследовательского центра Российской академии наук

Литература

1. Yandex Blog. (2022) Personal data leak from Yandex.Eda. URL
2. Irkutsk Online. (2022) Personal data leak from Gemotest. DOI
3. Karegar F., Pettersson J. S. and Fischer-Hübner S. (2020) The Dilemma of User Engagement in Privacy Notices: Effects of Interaction Modes and Habituation on User Attention. ACM Trans. Priv. Secur. New York, NY, USA. 23 (1). 1–38. DOI
4. Pandit H. J. [et al.] (2019) GConsent – A Consent Ontology Based on the GDPR. Proceedings of the 16th European Semantic Web Conference (ESWC). Switzerland, Cham, Springer. P. 270–282. DOI
5. Novikova E., Doynikova E. and Kotenko I. (2020) P2Onto: Making Privacy Policies Transparent. Lecture Notes in Computer Science. Switzerland, Cham, Springer. 12501. 235–252. DOI
6. Gharib M., Mylopoulos J. and Giorgini P. (2020) COPri — A Core Ontology for Privacy Requirements Engineering. Lecture Notes in Business Information Processing. Switzerland, Cham, Springer. 472–489. DOI
7. Gharib M., Giorgini P. and Mylopoulos J. (2021) COPri v.2 — A core ontology for privacy requirements. Data & Knowledge Engineering. Amsterdam, Netherlands, Elsevier. 133. DOI
8. Tang Y. and Meersman R. (2005) Judicial Support Systems: Ideas for a Privacy Ontology-Based Case Analyzer. Lecture Notes in Computer Science. Heideberg, Berlin, Germany, Springer. 3762. 800–807. DOI
9. Harkous H. [et al.] (2018) Polisis: automated analysis and presentation of privacy policies using deep learning. Proceedings of the 27th USENIX Security Symposium. Baltimore, MD, USA, USENIX Association. 531–548. DOI
10. Hamid A. [et al.] (2023) PrivacyLens: A Framework to Collect and Analyze the Landscape of Past, Present, and Future Smart Device Privacy Policies. arXiv. DOI
11. Wilson Ah. [et al.] (2016) The Creation and Analysis of a Website Privacy Policy Corpus. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany. 1330–1340. DOI
12. Amazon Alexa. Web-sites popularity raiting. DOI
14. Amos R. [et al.] (2021) Privacy Policies over Time: Curation and Analysis of a Million-Document Dataset. Proceedings of the Web Conference 2021. New York, NY, USA, Association for Computing Machinery. 2165–2176. DOI
15. Zaeem R. N. and Barber K. S. (2021) A Large Publicly Available Corpus of Website Privacy Policies Based on DMOZ. Proceedings of the Eleventh ACM Conference on Data and Application Security and Privacy. New York, NY, USA, Association for Computing Machinery. P. 143– 148. DOI
16. Srinath M. [et al.] (2021) PrivaSeer: A Privacy Policy Search Engine. Lecture Notes in Computer Science. Switzerland, Cham, Springer. 12706. DOI
17. Jensen C. [et al.] (2007) Tracking website data-collection and privacy practices with the iWatch web crawler. ACM International Conference Proceeding Series. 229. P. 29–40. DOI
18. Ahmad W. [et al.] (2020) PolicyQA: A Reading Comprehension Dataset for Privacy Policies. Findings of the Association for Computational Linguistics. 743–749. DOI
19. Kuznetsov M. [et al.] (2022) Privacy Policies of IoT Devices: Collection and Analysis. Molecular Diversity Preservation International (MDPI), Sensors. 22 (5). DOI
20. Nikitin A. G. (2022) User agreements as a legal rule of virtal space access. Proceedings of the Bachilovskie chteniya conference. Moscow 05–06 February 2022. Saratov. P. 199–206. (in Russian)
21. Dubrovin O. V. and Kovaleva I. Yu. (2014) Protection of personal data in the Internet: user agreements. Vestnik Yuzhno-Ural’skogo gosudarstvennogo universiteta. Law Series. 14 (2). P. 64–70. (in Russian)
22. Poletaeva E. L. and Samsonova E. D. (2022) Legal nature of user agreement of the “V Kontakte” social network. BAIKAL RESEARCH JOURNAL. 13 (4). P. 1–9. DOI
23. Curlie. Largest and most complete web-directory edited by people. URL
24. Mail.ru. Web-analytics platform Mail. ru Top. URL
25. Rambler. Web-analytics platform Rambler Top-100. URL
26. Selenium library. The documentation of Selenium library for Python. URL
27. Beautiful soup library. The documentation of Beautiful soup library for Python. URL
28. Bird S., Klein E. and Loper E. (2009) Natural Language Processing with Python. Sebastopol, California, USA, O’Reilly Media Inc.
29. Segalovich I. (2003) A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. Conference (International) on Machine Learning: Models, Technologies and Applications Proceedings. Las Vegas, Nevada, USA, CSREA Press. P. 273–280.