Алгоритм классификации псевдослучайных последовательностей
Аннотация
В последнее время увеличилось количество утечек информации, произошедших по вине внутренних нарушителей, одной из возможных причин может являться не способность современных DLP систем противостоять утечкам информации в зашифрованном или сжатом виде. Был предложен алгоритм классификации последовательностей, сформированных алгоритмами шифрования, сжатия и генераторами псевдослучайных чисел. Для решения задачи классификации предлагается использовать методы машинного обучения на основе алгоритма построения дерева решений. В качестве признакового пространства использовался массив частот встречаемости двоичных подпоследовательностей длины N бит. При построении признакового пространства не использовались заголовки файлов или какая-либо другая контекстная информация. Был обоснован выбор гиперпараметров классификатора. Представленный алгоритм показал точность классификации указанных в работе последовательностей 0.98. Представленный алгоритм может быть реализован в DLP системах для предотвращения передачи информации в зашифрованном или сжатом виде.
Скачивания
Литература
2. Babu B. M., Bhanu M. S. Prevention of Insider Attacks by Integrating Behavior Analysis with Risk based Access Control Model to Protect Cloud. Procedia Computer Science. 2015. V. 54. P. 157–166. DOI
3. Kolevski D., Michael K. Cloud computing data breaches a socio-technical review of literature. 2015 International Conference on Green Computing and Internet of Things (ICGCIoT). Greater Noida, India, 2015. P. 1486–1495. DOI
4. Alneyadi S., Sithirasenan E., Muthukkumarasamy V. Detecting Data Semantic: A Data Leakage Prevention Approach. 2015 IEEE Trustcom/BigDataSE/ISPA. Helsinki, Finland, 2015. V. 1. P. 910–917. DOI
5. Alneyadi S., Sithirasenan E., Muthukkumarasamy V. Discovery of potential data leaks in email communications. 2016 10th International Conference on Signal Processing and Communication Systems (ICSPCS). Gold Coast, Australia, 2016. P. 1–10. DOI
6. Huang X., Lu Y., Li D., Ma M. A novel mechanism for fast detection of transformed data leakage. IEEE Access. 2018. V. 6. P. 35926–35936. DOI
7. Kaur K., Gupta I., Singh A. K. A Comparative Evaluation of Data Leakage/Loss prevention Systems (DLPS). In Proc. 4th Int. Conf. Computer Science & Information Technology (CS & IT-CSCP). 2017. P. 87–95. DOI
8. Cheng L., Liu F., Yao D. Enterprise data breach: causes, challenges, prevention, and future directions. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2017. V. 7, No 5. P. 1211. DOI
9. Shu X., Yao D., Bertino E. Privacy-Preserving Detection of Sensitive Data Exposure. IEEE Transactions on Information Forensics and Security. 2015. V. 10, No 5. P. 1092–1103. DOI
10. Liu F., Shu X., Yao D., Butt A. R. Privacy-preserving scanning of big content for sensitive data exposure with MapReduce. Proceedings of the 5th ACM Conference on Data and Application Security and Privacy. 2015. P. 195–206. DOI
11. Shu X., Zhang J., Yao D., Feng W. Rapid and parallel content screening for detecting transformed data exposure. Proceedings of the Third International Workshop on Security and Privacy in Big Data. 2015. P. 191–196. DOI
12. Shu X. [et al] Fast Detection of Transformed Data Leaks. IEEE Transactions on Information Forensics and Security. – 2016. V. 11, No 3. P. 528–542. DOI
13. Yu X. [et al] A data leakage prevention method based on the reduction of confidential and context terms for smart mobile devices. Wireless Communications and Mobile Computing. 2018. DOI
14. Shu X., Yao D., Bertino E. Privacy-Preserving Detection of Sensitive Data Exposure. IEEE Transactions on Information Forensics and Security. 2015. V. 10, No 5. P. 1092–1103. DOI
15. Shvartzshnaider Y. [et al] VACCINE: Using Contextual Integrity For Data Leakage Detection. The World Wide Web Conference. 2019. P. 1702–1712. DOI
16. Kavitha T. [et al] Classification of encryption algorithms based on ciphertext using pattern recognition techniques. International conference on Computer Networks, Big data and IoT. 2018. P. 540-545. DOI
17. Tan C., Ji Q. An approach to identifying cryptographic algorithm from ciphertext. 8th IEEE International Conference on Communication Software and Networks. 2016. P. 19–23. DOI
18. Tan C., Li Y., Yao S. A Novel Identification Approach to Encryption Mode of Block Cipher. 4th International Conference on Sensors, Mechatronics and Automation. Zhuhai, China, 2016. DOI
19. Tan C., Deng X., Zhang L. Identification of Block Ciphers under CBC Mode. Procedia Computer Science. 2018. Vol. 131. P. 65–71. DOI
20. Ray P. K. [et al] Classification of Encryption Algorithms using Fisher’s Discriminant Analysis. Defence Science Journal. 2017. V. 67, No 1. P. 59–65. DOI
21. Pan J. Encryption scheme classification: a deep learning approach. International Journal of Electronic Security and Digital Forensics. 2017. V. 9, No 4. P. 381–395. DOI
22. Wang W. [et al] Malware traffic classification using convolutional neural network for representation learning. International Conference on Information Networking (ICOIN). 2017. P. 712–717. DOI
23. Wang W. [et al] End-to-end encrypted traffic classification with one-dimensional convolution neural networks. IEEE International Conference on Intelligence and Security Informatics (ISI). 2017. P. 43–48. DOI
24. Lotfollahi M. [et al] Deep packet: A novel approach for encrypted traffic classification using deep learning. Soft Computing. – 2017. – P. 1–14.
25. Zhang J. [et al] Robust network traffic classification. IEEE/ACM Transactions on Networking. 2015. V. 23, No 4. P. 1257–1270. DOI
26. Pacheco F. [et al] Towards the deployment of machine learning solutions in network traffic classification: a systematic survey. IEEE Communications Surveys & Tutorials. 2018. V. 21. No 2. P. 1988–2014. DOI
27. Hahn D., Apthorpe N., Feamster N. Detecting compressed cleartext traffic from consumer internet of things devices //arXiv preprintarXiv:1805.02722. 2018.
28. Konyshev M. U. [et al] Formation of probability distributions of binary vectors of the error source of a Markov discrete memory link using the method of “grouping probabilities” of error vectors. Industrial ACS and controllers. 2018. No 3. P. 42.
29. Konyshev M. U. [et al] Algorithm for compression of a distribution series of binary multi-dimensional random variables. Industrial ACS and controllers. 2016. No 8. P. 47–50.
30. Toolkit for the transport layer security and secure sockets layer protocols. Available at: URL. (accessed: 14.01.2020).
31. Archive manager WinRAR. Available at: URL (accessed: 14.01.2020).
32. Linux programmer’s manual. Available at: URL (accessed: 14.01.2020).
33. Programm environment Anaconda. Available at: URL (accessed: 14.01.2020).
34. Breiman, L. Classification and regression trees. Routledge, 2017. 358 p.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).