Модели глубокого обучения для синтеза изображений с включением атмосферных осадков с целью решения задач компьютерного зрения в различных погодных условиях

Ключевые слова: генерация изображений, синтез изображений, стилизация изображений, обработка изображений в различных погодных условиях, нейронные сети, трансформеры, аугментация данных

Аннотация

Проводится анализ известных и исследование новых алгоритмов генерации изображений реальных сцен в условиях атмосферных осадков с целью их аугментации и стилизации. Отмечается, что генерация изображений с внесением преднамеренных искажений в виде атмосферных осадков на основе классических (эвристических) алгоритмов имеет недостатки, связанные с возможным нарушением структуры получаемых изображений и частичной потери реалистичности. Современный подход, позволяющий обойти эту проблему, основан на обучении глубоких нейронных сетей для конкретной задачи. Однако такие решения часто теряют в обобщающей способности, достаточно сложны, а их применение связано с большими вычислительными затратами. В настоящей работе предлагается новый, относительно простой алгоритм включения в исходное изображение артефактов в виде атмосферных осадков на основе использования модели двухвходового трансформера. Предложенная модель обеспечивает извлечение искажений в виде атмосферных осадков из одного изображения и их внесение в другое при обработке и аугментации датасетов изображений реальных сцен применительно к различным погодным условиям. Проводится исследование архитектуры модели на оптимальность параметров, определяется количество слоёв нейронной сети, принцип формирования карт внимания. Демонстрируется возможность аугментации данных для задач детектирования объектов, сегментации и восстановления изображений. Показано, что синтезированные таким образом изображения позволяют решить проблему нехватки данных при обучении нейронных сетей и уменьшают их предвзятость на этапе тестирования. Установлено, что предложенная модель глубокого обучения может быть применена для любой области, где имеется пара изображений: оригинал и шаблон. В качестве шаблона выбирались любые фотографические изображения, содержащие разнообразные искажения, помехи или атмосферные осадки. На примере задачи восстановления изображений показано, что, имея только зашумлённые изображения, можно выделить на них необходимые искажения и перенести их на оригинал.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Никита Игоревич Бережнов, Воронежский государственный университет

аспирант кафедры технологий обработки и защиты информации, факультет компьютерных наук, Воронежский государственный университет

Александр Анатольевич Сирота, Воронежский государственный университет

д-р техн. наук, проф., заведующий кафедрой технологий обработки и защиты информации, факультет компьютерных наук, Воронежский государственный университет

Литература

1. Isola P., Zhu J., Zhou T. and Efros A. A. (2016) Image-to-Image Translation with Conditional Adversarial Networks. arXiv preprint. arXiv:1611.07004.
2. Zhu J.-Y. , Park T., Isola P. and Efros A. A. (2017) Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv preprint. arXiv:1703.10593.
3. Huang X., Liu M.-Y., Belongie S. and Kautz J. (2018) Multimodal Unsupervised Image-to-Image Translation. arXiv preprint. arXiv:1804.04732. DOI
4. Lee H.-Y., Tseng H.-Y., Mao Q., Huang J.-B., Lu Y.-D., Singh M. and Yang M.-H. (2020) DRIT++: Diverse Image-to-Image Translation via Disentangled Representations. arXiv preprint. arXiv:1905.01270. DOI
5. Zhou K., Zhao S., Deng H. and Zhang L. (2025) High-resolution Rainy Image Synthesis: Learning from Rendering. arXiv preprint. № arXiv:2502.16421.
6. Wei M., Shen Y., Wang Y., Xie H., Qin J. and Wang F. L. (2024) RainDiffusion: When Unsupervised Learning Meets Diffusion Models for Real-world Image Deraining. Nanjing University of Aeronautics and Astronautics; Lingnan University; The Hong Kong Polytechnic University; Hong Kong Metropolitan University.
7. Parmar P., Kundurthy S. and Lee Y. (2024) One-Step Image Translation with Text-to-Image Models (CycleGAN-Turbo). arXiv preprint. № arXiv:2403.12036.
8. Zhang L., Rao A. and Agrawala M. (2023) Adding Conditional Control to Text-to-Image Diffusion Models. arXiv preprint. arXiv:2302.05543. DOI
9. Greenberg A., Elidan G. and Shocher A. (2024) Seed-to-Seed: Image Translation in Diffusion Seed Space. arXiv preprint.
10. Qian C., Lin Y., Zhang X. [et al.] (2024) WeatherDG: LLM-assisted Diffusion Model for Procedural Weather Generation. arXiv preprint.
11. Pang L., Liu Y., Yang Y. and Zhang Y. (2024) TRG-Net: An Interpretable and Controllable Rain Generator. arXiv preprint. № arXiv:2403.09993.
12. Wang C., Li Y., Chen J. [et al.] (2024) Mask-DerainGAN: Learning to remove rain streaks by learning to generate rainy images. Pattern Recognition. Vol. 156.
13. Dosovitskiy A., Beyer L., Kolesnikov A. [et al.] (2021) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR). URL
14. Liang J., Cao J., Sun G. [et al.] (2021) SwinIR: Image Restoration Using Swin Transformer. Proc. IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). P. 1833– 1844. DOI
15. Zamir S. W., Arora A., Khan S. [et al.] (2022) Restormer: Efficient Transformer for High-Resolution Image Restoration. Proc. IEEE/ CVF Conf. on Computer Vision and Pattern Recognition (CVPR). P. 5728–5739. DOI
16. Smith L. N. and Topin N. (2017) Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates. arXiv preprint. arXiv:1708.07120. URL
17. Gatys L. A., Ecker A. S. and Bethge M. (2016) Image Style Transfer Using Convolutional Neural Networks. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). P. 2414–2423. DOI
18. Buslaev A., Parinov A., Khvedchenya E. [et al.] (2020) Albumentations: Fast and Flexible Image Augmentations. Information. Vol. 11, No 2. P. 125. DOI
Опубликован
2025-09-02
Как цитировать
Бережнов, Н. И., & Сирота, А. А. (2025). Модели глубокого обучения для синтеза изображений с включением атмосферных осадков с целью решения задач компьютерного зрения в различных погодных условиях. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (2), 89-104. https://doi.org/10.17308/sait/1995-5499/2025/2/89-104
Раздел
Интеллектуальные системы, анализ данных и машинное обучение

Наиболее читаемые статьи этого автора (авторов)

<< < 1 2