Модели и методы N-Shot обучения и их применение в задачах семантической сегментации изображений: систематизированный обзор, часть i – Zero-Shot обучение

Ключевые слова: N-Shot обучение, Zero-Shot обучение, One-Shot/Few-Shot обучение, семантическая сегментация, глубокие нейронные сети

Аннотация

В работе представлен систематизированный обзор моделей и методов N-Shot обучения в контексте задачи семантической сегментации изображений с использованием глубоких нейронных сетей. N-Shot обучение представляет собой совокупность методов и алгоритмов глубокого обучения, преимущественно применяемых в задачах обработки изображений, ориентированных на реализацию способности нейросетевой модели быстро и эффективно обучаться под новую задачу при отсутствии обучающих примеров (Zero-Shot обучение) или при весьма малом их количестве (One-Shot/Few-Shot обучение). Следует отметить, что отечественные научные издания не содержат достаточно полного и систематизированного анализа результатов, полученных в рамках данного направления. Данная первая часть обзора посвящена Zero-Shot обучению, являющаяся одним из направлением N-Shot методологии и осуществляющая сегментацию изображений с новыми классами объектов исключительно на основе целевого изображения и его текстового описания. В работе разобрана постановка задачи Zero-Shot обучения, а также детально проанализированы наиболее известные подходы и реализации, начиная с первоначальных концепций и заканчивая последними инновационными исследованиями. Представленные на рисунках модели глубоких нейронных сетей отображены с сохранением наиболее существенных компонентов, отражающих принципы реализации предлагаемого подхода в каждом случае. При необходимости точного воспроизведения архитектуры читателю следует обратиться к первоисточнику. Для лучшего понимания преимуществ и недостатков анализируемых моделей было осуществлено сравнение полученных авторами результатов тестирования на общих наборах данных Pascal-VOC 2012 и COCO-Stuff. Проведенный анализ позволил выделить наиболее перспективные и эффективные модели, которые могут быть рекомендованы для практического применения в задачах семантической сегментации изображений. В последующей второй части обзора будет представлено исследование методов OneShot и Few-Shot обучения в задаче семантической сегментации. Эта часть обзора будет посвящена методам, способным выполнять сегментацию изображений с новыми классами объектов на основе всего нескольких обучающих примеров.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Ростислав Русланович Отырба, Воронежский государственный университет

аспирант кафедры технологий обработки и защиты информации, факультета компьютерных наук, Воронежского государственного университета

Александр Анатольевич Сирота, Воронежский государственный университет

д-р техн. наук, проф., заведующий кафедрой технологий обработки и защиты информации, факультета компьютерных наук, Воронежского государственного университета

Литература

1. Lake B., Salakhutdinov R. and Tenenbaum J. (2015) Human-level concept learning through probabilistic program induction. Science. 350(6266). P. 1332–1338. DOI
2. Palatucci M., Pomerleau D. A., Hinton G. E. and Mitchell T. M. (2009) Zero-shot Learning with Semantic Output Codes. Advances in Neural Information Processing Systems, 7–10 December 2009, Vancouver, British Columbia, Canada, Curran Associates, Inc, P. 1410–1418. DOI
3. Xian Y., Choudhury S., He Y., Schiele B. and Akata Z. (2019) Semantic Projection Network for Zero- and Few-Label Semantic Segmentation. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 15-20 June 2019, Long Beach, CA, USA, IEEE. P. 8248–8257. DOI
4. Mikolov T., Sutskever I., Chen K., Corrado G. S. and Dean J. M. (2013) Distributed Representations of Words and Phrases and their Compositionality. Advances in Neural Information Processing Systems, 5–10 December 2013, Lake Tahoe, Nevada, US, Curran Associates, Inc. P. 3111–3119.
5. Joulin A., Grave E., Bojanowski P., Douze M., Jégou H., and Mikolov T. (2016) FastText.zip: Compressing text classification models, arXiv preprint: arXiv:1612.03651
6. Kato N., Yamasaki T., and Aizawa K. (2019) Zero-Shot Semantic Segmentation via Variational Mapping. 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), 27–28 October 2019, Seoul, Korea (South), IEEE. P. 1363–1370. DOI
7. Bucher M., Vu T., Cord M., and Pérez P. (2019) Zero-Shot Semantic Segmentation. Advances in Neural Information Processing Systems. P 468–479.
8. Li Y., Swersky K., and Zemel R. S. (2015) Generative Moment Matching Networks. In Proceedings of the 32nd International Conference on Machine Learning. P. 1718–1727.
9. Zhang Y. and Khriyenko O. (2021) Zero-shot Semantic Segmentation Using Rela-tion Network. In Proceedings of the 28th Conference of Open Innovations Association FRUCT (FRUCT ‘28), 27–29 January 2021, Moscow, Russia, FRUCT. P. 516–527. DOI
10. Lv F., Liu H., Wang Y., Zhao J. and Yang G. (2020) Learning Unbiased Zero-Shot Semantic Seg-mentation Networks Via Transductive Transfer. IEEE Signal Processing Letters. 27. P. 1640–1644. DOI
11. Gu Z., Zhou S., Niu L., Zhao Z. and Zhang L. (2020) Context-aware Feature Generation For Zero-shot Semantic Segmentation. In Proceedings of the 28th ACM International Conference on Multimedia. 12–16 October 2020, Seattle, US, ACM, P. 1921–1929. DOI
12. Gu Z., Zhou S., Niu L., Zhao Z. and Zhang L. (2023) From pixel to patch: Synthesize context-aware features for zero-shot semantic segmentation. IEEE Transactions on Neural Networks and Learning Systems, 34(10). P. 7689–7703. DOI
13. Oord A. V., Kalchbrenner N. and Kavukcuoglu K. (2016) Pixel Recurrent Neural Networks. In Proceedings of the IEEE International Conference on Machine Learning, June 19–24 2016, New York, NY, USA, IEEE. pp. 1747–1756.
14. Li P., Wei Y. and Yang Y. (2020) Consistent Structural Relation Learning for Zero-Shot Segmentation. Advances in Neural Information Processing Systems. P. 10317–10327.
15. Hu P., Sclaroff S. and Saenko K. (2020) Uncertainty-Aware Learning for Zero-Shot Se-mantic Segmentation. Advances in Neural Information Processing Systems. P. 21713–21724.
16. Le Q. V., Smola A. J. and Canu S. (2005) Heteroscedastic Gaussian Process Regression. In Proceedings of the 22nd International Conference on Machine Learning. P. 489-496. DOI
17. Milletari F., Navab N. and Ahmadi S. A. (2016) V-Net: Fully Convolutional Neural Net- works for Volumetric Medical Image Segmentation. 2016 Fourth International Conference on 3D Vision (3DV), 25-28 October 2016, Stanford, CA, USA, IEEE. P. 565–571. DOI
18. Baek D., Oh Y. and Ham B. (2021) Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic Segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). P. 9536–9545. DOI
19. Ding J., Xue N., Xia G. and Dai D. (2022) Decoupling Zero-Shot Semantic Segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18–24 June 2022, New Orleans, LA, USA, IEEE. P. 11573–11582. DOI
20. Cheng B., Schwing A. G. and Kirillov A. (2021) Per-Pixel Classification is Not All You Need for Semantic Segmentation. Advances in Neural Information Processing Systems. P. 17864– 17875.
21. Lin T., Dollár P., Girshick R. B., He K., Hariharan B. and Belongie S. J. (2017) Feature Pyramid Networks for Object Detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 21–26 July 2017, Honolulu, HI, USA, IEEE. P. 936–944. DOI
22. Carion N., Massa F., Synnaeve G., Usunier N., Kirillov A. and Zagoruyko S. (2020) End-toEnd Object Detection with Transformers. arXiv preprint arXiv:2005.12872.
23. Radford A., Kim J. W., Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., Krueger G. and Sutskever I. (2021) Learning Transferable Visual Models From Natural Language Supervision. arXiv preprint arXiv:2103.00020.
24. Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., Uszkoreit J. and Houlsby N. (2020). An Image is Worth 16 × 16 Words: Transformers for Image Recognition at Scale. arXiv preprint arXiv:2010.11929.
25. Xu M., Zhang Z., Wei F., Lin Y., Cao Y., Hu H. and Bai X. (2022) Simple Baseline for Open Vocabulary Semantic Segmentation with Pretrained Vision-language Model. In Proceedings of the IEEE/CVF European Conference on Computer Vision (ECCV), October 23–24 2022, Tel Aviv, Israel, IEEE. P. 898–916. DOI
26. Arbeláez P., Maire M., Fowlkes C. C. and Malik J. (2010) Contour Detection and Hierarchical Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(5). P. 898–916. DOI
27. Uijlings J. R. R. (2013) Selective Search for Object Recognition. International Journal of Computer Vision, 104(2). P. 154–171. DOI
Опубликован
2024-05-28
Как цитировать
Отырба, Р. Р., & Сирота, А. А. (2024). Модели и методы N-Shot обучения и их применение в задачах семантической сегментации изображений: систематизированный обзор, часть i – Zero-Shot обучение. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 149-165. https://doi.org/10.17308/sait/1995-5499/2024/1/149-165
Раздел
Интеллектуальные системы, анализ данных и машинное обучение

Наиболее читаемые статьи этого автора (авторов)