О КРИТЕРИЯХ ВЫБОРА НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ВИЗУАЛЬНЫХ  ТРАНСФОРМЕРОВ ДЛЯ РЕАЛИЗАЦИИ НА ВЫЧИСЛИТЕЛЬНЫХ  УСТРОЙСТВАХ С ОГРАНИЧЕННЫМИ РЕСУРСАМИ

Роман Борисович Рыбка; Артём Викторович Грязнов; Иван Александрович Молошников; Максим Сергеевич Скороходов; Александр Георгиевич Сбоев

doi:10.17308/sait/1995-5499/2025/4/198-218

Авторы

Роман Борисович Рыбка Национальный исследовательский центр «Курчатовский институт» https://orcid.org/0000-0002-5595-6398 (unauthenticated)
Артём Викторович Грязнов Национальный исследовательский центр «Курчатовский институт» https://orcid.org/0000-0003-0449-4549 (unauthenticated)
Иван Александрович Молошников Национальный исследовательский центр «Курчатовский институт» https://orcid.org/0000-0002-5000-7257 (unauthenticated)
Максим Сергеевич Скороходов Национальный исследовательский центр «Курчатовский институт» https://orcid.org/0000-0001-9399-9332 (unauthenticated)
Александр Георгиевич Сбоев Национальный исследовательский центр «Курчатовский институт» https://orcid.org/0000-0002-6921-4133 (unauthenticated)

DOI:

https://doi.org/10.17308/sait/1995-5499/2025/4/198-218

Ключевые слова:

трансформеры, сверточные сети, классификация изображений, ImageNet, edge-устройства, ресурсоемкость моделей

Аннотация

Развитие интеллектуальных средств анализа данных и их повсеместное внедрение актуализирует необходимость развития процедур повышения эффективности исполнения нейросетевых моделей на конечных устройствах. В данной работе предлагаются критерии выбора моделей нейронных сетей для последующего исполнения на вычислительных устройствах в условиях ограниченных ресурсов, например на edge-устройствах. Набор критериев, помимо точности и размера сети, содержит показатели глубины нейросетевой модели и суммарного числа параметров весов и активаций наибольшего слоя, определяющих скорость получения ответа модели и требования к размеру памяти конечного вычислительного устройства. Составленный набор критериев позволил рас смотреть несколько подходов сравнения и отбора моделей, которые включали формирование границы Парето и ранжирование по метрике TOPSIS с введением коэффициентов значимости. На задаче классификации изображений ImageNet продемонстрирован пример сравнительной оценки высокоточных моделей малого размера, основанных на трансформерных и сверточных архитектурах. Среди них рассматривались различные конфигурации, отличающиеся по методам кодирования входного изображения и работы с признаками во внутренних представлениях сети. Проведенный анализ позволил выбрать модели с высокой точностью классификации на уровне 0.81 Acc: EVA-02 Ti и RepViT M1.1. Выбранные модели сбалансированы по глубине сети и максимальному размеру слоев, что для малоразмерных моделей является значительным. Представленные результаты показывают возможности гибкого использования критериев для выбора моделей под конкретное устройство и определяют узкие места для последующей модификации моделей с целью повышения утилизации используемых ресурсов.

Биографии авторов

Роман Борисович Рыбка, Национальный исследовательский центр «Курчатовский институт»

канд. техн. наук, ведущий научный сотрудник
Артём Викторович Грязнов, Национальный исследовательский центр «Курчатовский институт»

младший научный сотрудник
Иван Александрович Молошников, Национальный исследовательский центр «Курчатовский институт»

научный сотрудник
Максим Сергеевич Скороходов, Национальный исследовательский центр «Курчатовский институт»

младший научный сотрудник
Александр Георгиевич Сбоев, Национальный исследовательский центр «Курчатовский институт»

д-р физ.-мат. наук, старший научный сотрудник, главный научный сотрудник

Библиографические ссылки

Vaswani A. [et al.] Attention is all you need // Advances in neural information processing systems. – 2017. – Т. 30.

Svoboda F. [et al.] Deep learning on microcontrollers: A study on deployment costs and challenges // Proceedings of the 2nd European Workshop on Machine Learning and Systems. – 2022. – C. 54–63.

Lin J. [et al.] Memory-efficient patch-based inference for tiny deep learning // Advances in Neural Information Processing Systems. – 2021. – Т. 34. – С. 2346–2358.

Yang J. [et al.] TinyFormer: Efficient Transformer Design and Deployment on Tiny Devices // arXiv preprint arXiv:2311.01759. – 2023.

Deng J. [et al.] Imagenet: A large-scale hierarchical image database // 2009 IEEE conference on computer vision and pattern recognition. – Ieee, 2009. – С. 248–255.

Nauen T. C. [et al.] Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers // 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). – IEEE, 2025. – С. 6955–6966.

Kim S. [et al.] Full stack optimization of transformer inference: a survey // arXiv preprint arXiv:2302.14017. – 2023.

Khan S. [et al.] Transformers in vision: A survey // ACM computing surveys (CSUR). – 2022. – Т. 54, № 10s. – С. 1-41.

Lin T. Y. [et al.] Microsoft coco: Common objects in context // European conference on computer vision. – Cham : Springer International Publishing, 2014. – С. 740–755.

Zhou B. [et al.] Semantic understanding of scenes through the ade20k dataset // International Journal of Computer Vision. – 2019. – Т. 127, № 3. – С. 302–321.

Cordts M. [et al.] The cityscapes dataset for semantic urban scene understanding // Proceedings of the IEEE conference on computer vision and pattern recognition. – 2016. – С. 3213–3223.

Kay W. [et al.] The kinetics human action video dataset // arXiv preprint arXiv:1705.06950. – 2017.

Patro B. N., Agneeswaran V. S. Efficiency 360: Efficient vision transformers // arXiv preprint arXiv:2302.08374. – 2023.

Han K. [et al.] A survey on visual transformer // arXiv preprint arXiv:2012.12556. – 2020.

Yang Y. [et al.] Transformers meet visual learning understanding: A comprehensive review // arXiv preprint arXiv:2203.12944. – 2022.

Krizhevsky A. [et al.] Learning multiple layers of features from tiny images. – 2009.

Dendorfer P. [et al.] Motchallenge: A benchmark for single-camera multiple target tracking // arXiv preprint arXiv:2010.07548. – 2020.

Wang Y. [et al.] Vision transformers for image classification: A comparative survey // Technologies. – 2025. – Т. 13, № 1. – С. 32.

Liu Y. [et al.] A survey of visual transformers // IEEE transactions on neural networks and learning systems. – 2023. – Т. 35, №. 6. – С. 74787498.

Sun C. [et al.] Revisiting unreasonable effectiveness of data in deep learning era // Proceedings of the IEEE international conference on computer vision. – 2017. – С. 843–852.

Khalil M., Khalil A., Ngom A. A comprehensive study of vision transformers in image classification tasks // arXiv preprint arXiv:2312.01232. – 2023.

Khan A. [et al.] A survey of the vision transformers and their CNN-transformer based variants // Artificial Intelligence Review. – 2023. – Т. 56, № Suppl 3. – С. 2917-2970.

Dosovitskiy A. An image is worth 16x16 words: Transformers for image recognition at scale // arXiv preprint arXiv:2010.11929. – 2020.

Steiner A. [et al.] How to train your vit? data, augmentation, and regularization in vision transformers // arXiv preprint arXiv:2106.10270. – 2021.

Model card for vit_tiny_patch16_384.augreg_in21k_ft_in1k. – Режим доступа: https://huggingface.co/timm/vit_tiny_patch16_384.augreg_in21k_ft_in1k

Ali A. [et al.] Xcit: Cross-covariance image transformers // Advances in neural information processing systems. – 2021. – Т. 34. – С. 20014-20027.

Model card for xcit_tiny_12_p8_384.fb_dist_in1k – Режим доступа: https://huggingface.co/timm/xcit_tiny_12_p8_384.fb_dist_in1k

Maaz M. [et al.] Edgenext: efficiently amalgamated cnn-transformer architecture for mobile vision applications // European conference on computer vision. – Cham : Springer Nature Switzerland, 2022. – С. 3-20.

Model card for edgenext_small.usi_in1k. – Режим доступа: https://huggingface.co/timm/edgenext_small.usi_in1k

Wu K. [et al.] Tinyvit: Fast pretraining distillation for small vision transformers // European conference on computer vision. – Cham : Springer Nature Switzerland, 2022. – С. 68–85.

Model card for tiny_vit_5m_224.dist_in22k_ft_in1k. – Режим доступа: https://huggingface.co/timm/tiny_vit_5m_224.dist_in22k_ft_in1k

Fang Y. [et al.] Eva-02: A visual representation for neon genesis // Image and Vision Computing. – 2024. – Т. 149. – С. 105171.

Model card for eva02_tiny_patch14_336.mim_in22k_ft_in1k. – Режим доступа: https://huggingface.co/timm/eva02_tiny_patch14_336.mim_in22k_ft_in1k

Vasu P. K. A. [et al.] Fastvit: A fast hybrid vision transformer using structural reparameterization // Proceedings of the IEEE/CVF international conference on computer vision. – 2023. – С. 5785–5795.

Model card for fastvit_s12.apple_dist_in1k. – Режим доступа: https://huggingface.co/timm/fastvit_s12.apple_dist_in1k

Wang A. [et al.] Repvit: Revisiting mobile cnn from vit perspective // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2024. – С. 15909–15920.

Model card for repvit_m1_1.dist_450e_in1k. – Режим доступа: https://huggingface.co/timm/repvit_m1_1.dist_450e_in1k

Woo S. [et al.] Convnext v2: Co-designing and scaling convnets with masked autoencoders // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2023. – С. 16133–16142.

Model card for convnextv2_pico.fcmae_ft_in1k. – Режим доступа: https://huggingface.co/timm/convnextv2_pico.fcmae_ft_in1k

Li Y. [et al.] Rethinking vision transformers for mobilenet size and speed // Proceedings of the IEEE/CVF international conference on computer vision. – 2023. – С. 16889–16900.

Model card for efficientformerv2_s1.snap_dist_in1k – Режим доступа: https://huggingface.co/timm/efficientformerv2_s1.snap_dist_in1k

Tan M., Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks // International conference on machine learning. – PMLR, 2019. – С. 6105-6114.

Xie Q. [et al.] Self-training with noisy student improves imagenet classification // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2020. – С. 10687–10698.

Model card for tf_efficientnet_b2.ns_jft_in1k. – Режим доступа: https://huggingface.co/timm/tf_efficientnet_b2.ns_jft_in1k

Qin D. [et al.] MobileNetV4: Universal models for the mobile ecosystem // Europan Conference on Computer Vision. – Cham : Springer Nature Switzerland, 2024. – С. 78–96.

Model card for mobilenetv4_conv_medium.e500_r256_in1k. – Режим доступа: https://huggingface.co/timm/mobilenetv4_conv_medium.e500_r256_in1k

Dollár P., Singh M., Girshick R. Fast and accurate model scaling // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. – 2021. – С. 924–932.

Model card for regnetz_b16.ra3_in1k. – Режим доступа: https://huggingface.co/timm/regnetz_b16.ra3_in1k

Wightman R. PyTorch Image Models. – Режим доступа: https://github.com/huggingface/pytorch-image-models

Fvcore. – Режим доступа: https://github.com/facebookresearch/fvcore

Taylor J. M., Kriegeskorte N. Extracting and visualizing hidden activations and computational graphs of PyTorch models with TorchLens // Scientific Reports. – 2023. – Т. 13, № 1. – С. 14375.