О КРИТЕРИЯХ ВЫБОРА НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ВИЗУАЛЬНЫХ ТРАНСФОРМЕРОВ ДЛЯ РЕАЛИЗАЦИИ НА ВЫЧИСЛИТЕЛЬНЫХ УСТРОЙСТВАХ С ОГРАНИЧЕННЫМИ РЕСУРСАМИ
Аннотация
Развитие интеллектуальных средств анализа данных и их повсеместное внедрение актуализирует необходимость развития процедур повышения эффективности исполнения нейросетевых моделей на конечных устройствах. В данной работе предлагаются критерии выбора моделей нейронных сетей для последующего исполнения на вычислительных устройствах в условиях ограниченных ресурсов, например на edge-устройствах. Набор критериев, помимо точности и размера сети, содержит показатели глубины нейросетевой модели и суммарного числа параметров весов и активаций наибольшего слоя, определяющих скорость получения ответа модели и требования к размеру памяти конечного вычислительного устройства. Составленный набор критериев позволил рас смотреть несколько подходов сравнения и отбора моделей, которые включали формирование границы Парето и ранжирование по метрике TOPSIS с введением коэффициентов значимости. На задаче классификации изображений ImageNet продемонстрирован пример сравнительной оценки высокоточных моделей малого размера, основанных на трансформерных и сверточных архитектурах. Среди них рассматривались различные конфигурации, отличающиеся по методам кодирования входного изображения и работы с признаками во внутренних представлениях сети. Проведенный анализ позволил выбрать модели с высокой точностью классификации на уровне 0.81 Acc: EVA-02 Ti и RepViT M1.1. Выбранные модели сбалансированы по глубине сети и максимальному размеру слоев, что для малоразмерных моделей является значительным. Представленные результаты показывают возможности гибкого использования критериев для выбора моделей под конкретное устройство и определяют узкие места для последующей модификации моделей с целью повышения утилизации используемых ресурсов.
Скачивания
Литература
Vaswani A. [et al.] Attention is all you need // Advances in neural information processing systems. – 2017. – Т. 30.
Svoboda F. [et al.] Deep learning on microcontrollers: A study on deployment costs and challenges // Proceedings of the 2nd European Workshop on Machine Learning and Systems. – 2022. – C. 54–63.
Lin J. [et al.] Memory-efficient patch-based inference for tiny deep learning // Advances in Neural Information Processing Systems. – 2021. – Т. 34. – С. 2346–2358.
Yang J. [et al.] TinyFormer: Efficient Transformer Design and Deployment on Tiny Devices // arXiv preprint arXiv:2311.01759. – 2023.
Deng J. [et al.] Imagenet: A large-scale hierarchical image database // 2009 IEEE conference on computer vision and pattern recognition. – Ieee, 2009. – С. 248–255.
Nauen T. C. [et al.] Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers // 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). – IEEE, 2025. – С. 6955–6966.
Kim S. [et al.] Full stack optimization of transformer inference: a survey // arXiv preprint arXiv:2302.14017. – 2023.
Khan S. [et al.] Transformers in vision: A survey // ACM computing surveys (CSUR). – 2022. – Т. 54, № 10s. – С. 1-41.
Lin T. Y. [et al.] Microsoft coco: Common objects in context // European conference on computer vision. – Cham : Springer International Publishing, 2014. – С. 740–755.
Zhou B. [et al.] Semantic understanding of scenes through the ade20k dataset // International Journal of Computer Vision. – 2019. – Т. 127, № 3. – С. 302–321.
Cordts M. [et al.] The cityscapes dataset for semantic urban scene understanding // Proceedings of the IEEE conference on computer vision and pattern recognition. – 2016. – С. 3213–3223.
Kay W. [et al.] The kinetics human action video dataset // arXiv preprint arXiv:1705.06950. – 2017.
Patro B. N., Agneeswaran V. S. Efficiency 360: Efficient vision transformers // arXiv preprint arXiv:2302.08374. – 2023.
Han K. [et al.] A survey on visual transformer // arXiv preprint arXiv:2012.12556. – 2020.
Yang Y. [et al.] Transformers meet visual learning understanding: A comprehensive review // arXiv preprint arXiv:2203.12944. – 2022.
Krizhevsky A. [et al.] Learning multiple layers of features from tiny images. – 2009.
Dendorfer P. [et al.] Motchallenge: A benchmark for single-camera multiple target tracking // arXiv preprint arXiv:2010.07548. – 2020.
Wang Y. [et al.] Vision transformers for image classification: A comparative survey // Technologies. – 2025. – Т. 13, № 1. – С. 32.
Liu Y. [et al.] A survey of visual transformers // IEEE transactions on neural networks and learning systems. – 2023. – Т. 35, №. 6. – С. 74787498.
Sun C. [et al.] Revisiting unreasonable effectiveness of data in deep learning era // Proceedings of the IEEE international conference on computer vision. – 2017. – С. 843–852.
Khalil M., Khalil A., Ngom A. A comprehensive study of vision transformers in image classification tasks // arXiv preprint arXiv:2312.01232. – 2023.
Khan A. [et al.] A survey of the vision transformers and their CNN-transformer based variants // Artificial Intelligence Review. – 2023. – Т. 56, № Suppl 3. – С. 2917-2970.
Dosovitskiy A. An image is worth 16x16 words: Transformers for image recognition at scale // arXiv preprint arXiv:2010.11929. – 2020.
Steiner A. [et al.] How to train your vit? data, augmentation, and regularization in vision transformers // arXiv preprint arXiv:2106.10270. – 2021.
Model card for vit_tiny_patch16_384.augreg_in21k_ft_in1k. – Режим доступа: https://huggingface.co/timm/vit_tiny_patch16_384.augreg_in21k_ft_in1k
Ali A. [et al.] Xcit: Cross-covariance image transformers // Advances in neural information processing systems. – 2021. – Т. 34. – С. 20014-20027.
Model card for xcit_tiny_12_p8_384.fb_dist_in1k – Режим доступа: https://huggingface.co/timm/xcit_tiny_12_p8_384.fb_dist_in1k
Maaz M. [et al.] Edgenext: efficiently amalgamated cnn-transformer architecture for mobile vision applications // European conference on computer vision. – Cham : Springer Nature Switzerland, 2022. – С. 3-20.
Model card for edgenext_small.usi_in1k. – Режим доступа: https://huggingface.co/timm/edgenext_small.usi_in1k
Wu K. [et al.] Tinyvit: Fast pretraining distillation for small vision transformers // European conference on computer vision. – Cham : Springer Nature Switzerland, 2022. – С. 68–85.
Model card for tiny_vit_5m_224.dist_in22k_ft_in1k. – Режим доступа: https://huggingface.co/timm/tiny_vit_5m_224.dist_in22k_ft_in1k
Fang Y. [et al.] Eva-02: A visual representation for neon genesis // Image and Vision Computing. – 2024. – Т. 149. – С. 105171.
Model card for eva02_tiny_patch14_336.mim_in22k_ft_in1k. – Режим доступа: https://huggingface.co/timm/eva02_tiny_patch14_336.mim_in22k_ft_in1k
Vasu P. K. A. [et al.] Fastvit: A fast hybrid vision transformer using structural reparameterization // Proceedings of the IEEE/CVF international conference on computer vision. – 2023. – С. 5785–5795.
Model card for fastvit_s12.apple_dist_in1k. – Режим доступа: https://huggingface.co/timm/fastvit_s12.apple_dist_in1k
Wang A. [et al.] Repvit: Revisiting mobile cnn from vit perspective // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2024. – С. 15909–15920.
Model card for repvit_m1_1.dist_450e_in1k. – Режим доступа: https://huggingface.co/timm/repvit_m1_1.dist_450e_in1k
Woo S. [et al.] Convnext v2: Co-designing and scaling convnets with masked autoencoders // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2023. – С. 16133–16142.
Model card for convnextv2_pico.fcmae_ft_in1k. – Режим доступа: https://huggingface.co/timm/convnextv2_pico.fcmae_ft_in1k
Li Y. [et al.] Rethinking vision transformers for mobilenet size and speed // Proceedings of the IEEE/CVF international conference on computer vision. – 2023. – С. 16889–16900.
Model card for efficientformerv2_s1.snap_dist_in1k – Режим доступа: https://huggingface.co/timm/efficientformerv2_s1.snap_dist_in1k
Tan M., Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks // International conference on machine learning. – PMLR, 2019. – С. 6105-6114.
Xie Q. [et al.] Self-training with noisy student improves imagenet classification // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2020. – С. 10687–10698.
Model card for tf_efficientnet_b2.ns_jft_in1k. – Режим доступа: https://huggingface.co/timm/tf_efficientnet_b2.ns_jft_in1k
Qin D. [et al.] MobileNetV4: Universal models for the mobile ecosystem // Europan Conference on Computer Vision. – Cham : Springer Nature Switzerland, 2024. – С. 78–96.
Model card for mobilenetv4_conv_medium.e500_r256_in1k. – Режим доступа: https://huggingface.co/timm/mobilenetv4_conv_medium.e500_r256_in1k
Dollár P., Singh M., Girshick R. Fast and accurate model scaling // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. – 2021. – С. 924–932.
Model card for regnetz_b16.ra3_in1k. – Режим доступа: https://huggingface.co/timm/regnetz_b16.ra3_in1k
Wightman R. PyTorch Image Models. – Режим доступа: https://github.com/huggingface/pytorch-image-models
Fvcore. – Режим доступа: https://github.com/facebookresearch/fvcore
Taylor J. M., Kriegeskorte N. Extracting and visualizing hidden activations and computational graphs of PyTorch models with TorchLens // Scientific Reports. – 2023. – Т. 13, № 1. – С. 14375.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













