Алгоритм классификации псевдослучайных последовательностей

Ключевые слова: статистический анализ данных, машинное обучение, классификация бинарных последовательностей, DLP системы, защита информации от утечки

Аннотация

В последнее время увеличилось количество утечек информации, произошедших по вине внутренних нарушителей, одной из возможных причин может являться не способность современных DLP систем противостоять утечкам информации в зашифрованном или сжатом виде. Был предложен алгоритм классификации последовательностей, сформированных алгоритмами шифрования, сжатия и генераторами псевдослучайных чисел. Для решения задачи классификации предлагается использовать методы машинного обучения на основе алгоритма построения дерева решений. В качестве признакового пространства использовался массив частот встречаемости двоичных подпоследовательностей длины N бит. При построении признакового пространства не использовались заголовки файлов или какая-либо другая контекстная информация. Был обоснован выбор гиперпараметров классификатора. Представленный алгоритм показал точность классификации указанных в работе последовательностей 0.98. Представленный алгоритм может быть реализован в DLP системах для предотвращения передачи информации в зашифрованном или сжатом виде.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Александр Васильевич Козачок, Академия ФСО России

д-р техн. наук сотрудник, Академия ФСО России

Андрей Андреевич Спирин, Академия ФСО России

сотрудник, Академия ФСО России

Литература

1. Data Breach Report: A Study on Global Data Leaks in H1 2018 / InfoWatch. Access mode: URL. (accessed 14.01.2020).
2. Babu B. M., Bhanu M. S. Prevention of Insider Attacks by Integrating Behavior Analysis with Risk based Access Control Model to Protect Cloud. Procedia Computer Science. 2015. V. 54. P. 157–166. DOI
3. Kolevski D., Michael K. Cloud computing data breaches a socio-technical review of literature. 2015 International Conference on Green Computing and Internet of Things (ICGCIoT). Greater Noida, India, 2015. P. 1486–1495. DOI
4. Alneyadi S., Sithirasenan E., Muthukkumarasamy V. Detecting Data Semantic: A Data Leakage Prevention Approach. 2015 IEEE Trustcom/BigDataSE/ISPA. Helsinki, Finland, 2015. V. 1. P. 910–917. DOI
5. Alneyadi S., Sithirasenan E., Muthukkumarasamy V. Discovery of potential data leaks in email communications. 2016 10th International Conference on Signal Processing and Communication Systems (ICSPCS). Gold Coast, Australia, 2016. P. 1–10. DOI
6. Huang X., Lu Y., Li D., Ma M. A novel mechanism for fast detection of transformed data leakage. IEEE Access. 2018. V. 6. P. 35926–35936. DOI
7. Kaur K., Gupta I., Singh A. K. A Comparative Evaluation of Data Leakage/Loss prevention Systems (DLPS). In Proc. 4th Int. Conf. Computer Science & Information Technology (CS & IT-CSCP). 2017. P. 87–95. DOI
8. Cheng L., Liu F., Yao D. Enterprise data breach: causes, challenges, prevention, and future directions. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2017. V. 7, No 5. P. 1211. DOI
9. Shu X., Yao D., Bertino E. Privacy-Preserving Detection of Sensitive Data Exposure. IEEE Transactions on Information Forensics and Security. 2015. V. 10, No 5. P. 1092–1103. DOI
10. Liu F., Shu X., Yao D., Butt A. R. Privacy-preserving scanning of big content for sensitive data exposure with MapReduce. Proceedings of the 5th ACM Conference on Data and Application Security and Privacy. 2015. P. 195–206. DOI
11. Shu X., Zhang J., Yao D., Feng W. Rapid and parallel content screening for detecting transformed data exposure. Proceedings of the Third International Workshop on Security and Privacy in Big Data. 2015. P. 191–196. DOI
12. Shu X. [et al] Fast Detection of Transformed Data Leaks. IEEE Transactions on Information Forensics and Security. – 2016. V. 11, No 3. P. 528–542. DOI
13. Yu X. [et al] A data leakage prevention method based on the reduction of confidential and context terms for smart mobile devices. Wireless Communications and Mobile Computing. 2018. DOI
14. Shu X., Yao D., Bertino E. Privacy-Preserving Detection of Sensitive Data Exposure. IEEE Transactions on Information Forensics and Security. 2015. V. 10, No 5. P. 1092–1103. DOI
15. Shvartzshnaider Y. [et al] VACCINE: Using Contextual Integrity For Data Leakage Detection. The World Wide Web Conference. 2019. P. 1702–1712. DOI
16. Kavitha T. [et al] Classification of encryption algorithms based on ciphertext using pattern recognition techniques. International conference on Computer Networks, Big data and IoT. 2018. P. 540-545. DOI
17. Tan C., Ji Q. An approach to identifying cryptographic algorithm from ciphertext. 8th IEEE International Conference on Communication Software and Networks. 2016. P. 19–23. DOI
18. Tan C., Li Y., Yao S. A Novel Identification Approach to Encryption Mode of Block Cipher. 4th International Conference on Sensors, Mechatronics and Automation. Zhuhai, China, 2016. DOI
19. Tan C., Deng X., Zhang L. Identification of Block Ciphers under CBC Mode. Procedia Computer Science. 2018. Vol. 131. P. 65–71. DOI
20. Ray P. K. [et al] Classification of Encryption Algorithms using Fisher’s Discriminant Analysis. Defence Science Journal. 2017. V. 67, No 1. P. 59–65. DOI
21. Pan J. Encryption scheme classification: a deep learning approach. International Journal of Electronic Security and Digital Forensics. 2017. V. 9, No 4. P. 381–395. DOI
22. Wang W. [et al] Malware traffic classification using convolutional neural network for representation learning. International Conference on Information Networking (ICOIN). 2017. P. 712–717. DOI
23. Wang W. [et al] End-to-end encrypted traffic classification with one-dimensional convolution neural networks. IEEE International Conference on Intelligence and Security Informatics (ISI). 2017. P. 43–48. DOI
24. Lotfollahi M. [et al] Deep packet: A novel approach for encrypted traffic classification using deep learning. Soft Computing. – 2017. – P. 1–14.
25. Zhang J. [et al] Robust network traffic classification. IEEE/ACM Transactions on Networking. 2015. V. 23, No 4. P. 1257–1270. DOI
26. Pacheco F. [et al] Towards the deployment of machine learning solutions in network traffic classification: a systematic survey. IEEE Communications Surveys & Tutorials. 2018. V. 21. No 2. P. 1988–2014. DOI
27. Hahn D., Apthorpe N., Feamster N. Detecting compressed cleartext traffic from consumer internet of things devices //arXiv preprintarXiv:1805.02722. 2018.
28. Konyshev M. U. [et al] Formation of probability distributions of binary vectors of the error source of a Markov discrete memory link using the method of “grouping probabilities” of error vectors. Industrial ACS and controllers. 2018. No 3. P. 42.
29. Konyshev M. U. [et al] Algorithm for compression of a distribution series of binary multi-dimensional random variables. Industrial ACS and controllers. 2016. No 8. P. 47–50.
30. Toolkit for the transport layer security and secure sockets layer protocols. Available at: URL. (accessed: 14.01.2020).
31. Archive manager WinRAR. Available at: URL (accessed: 14.01.2020).
32. Linux programmer’s manual. Available at: URL (accessed: 14.01.2020).
33. Programm environment Anaconda. Available at: URL (accessed: 14.01.2020).
34. Breiman, L. Classification and regression trees. Routledge, 2017. 358 p.
Опубликован
2020-03-24
Как цитировать
Козачок, А. В., & Спирин, А. А. (2020). Алгоритм классификации псевдослучайных последовательностей. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 87-98. https://doi.org/10.17308/sait.2020.1/2595
Раздел
Информационная безопасность

Наиболее читаемые статьи этого автора (авторов)