Модели и методы N-Shot обучения и их применение в задачах семантической сегментации изображений: систематизированный обзор, часть II, ONE-Shot и FEW-Shot обучение
Аннотация
В работе представлен систематизированный обзор моделей и методов N-Shot обучения в контексте задачи семантической сегментации изображений с использованием глубоких нейронных сетей. N-Shot обучение представляет собой совокупность методов и алгоритмов глубокого обучения, применяемых в задачах обработки изображений и ориентированных на реализацию способности нейросетевой модели быстро и эффективно обучаться под новую задачу при отсутствии обучающих примеров (Zero-Shot обучение) или при весьма малом их количестве (One-Shot/Few-Shot обучение). Следует отметить, что отечественные научные издания не содержат достаточно полного и систематизированного анализа результатов, полученных в рамках данного направления. В статье, ранее опубликованной в настоящем журнале, была представлена первая часть обзора, посвященная исключительно методам и алгоритмам Zero-Shot обучения, т.е. обучения в отсутствии обучающих примеров. Данная статья является второй частью обзора и посвящена методам One-Shot/Few-Shot обучения. Она, с одной стороны, теснейшим образом связана с опубликованной ранее первой частью, но, в то же время, раскрывает суть принципиально другого подхода. В отличие от Zero-Shot обучения, где модель не имеет обучающих примеров для новых классов, данный подход предполагает обучение либо на основе одного обучающего примера в виде размеченного изображения (One-Shot-обучение), либо на основе использования небольшого количества обучающих примеров (Few-Shot-обучение). На сегодняшний день данное направление развивается ещё более активно, чем Zero-Shot, и демонстрирует впечатляющие результаты. В работе разобрана постановка задачи One-Shot и Few-Shot обучения, а также детально проанализированы наиболее известные подходы и реализации, начиная с первоначальных концепций и заканчивая последними инновационными исследованиями. Представленные на рисунках модели глубоких нейронных сетей отображены с сохранением наиболее существенных компонентов, отражающих принципы реализации предлагаемого подхода в каждом случае. При необходимости точного воспроизведения архитектуры читателю следует обратиться к первоисточнику. Для лучшего понимания преимуществ и недостатков анализируемых моделей было осуществлено сравнение полученных авторами результатов тестирования на общих наборах данных PASCAL-5i и COCO-20i. Проведенный анализ позволил выделить наиболее перспективные и эффективные модели, которые могут быть рекомендованы для практического применения в задачах семантической сегментации изображений при ограниченном количестве обучающих примеров.
Скачивания
Литература
2. Vinyals O., Blundell C., Lillicrap T. and Wierstra D. (2016). Matching networks for one shot learning. Advances in neural information processing systems. P. 3630–3638.
3. Shaban A., Bansal S., Liu Z., Essa I. and Boots B. (2017) One-Shot Learning for Semantic Segmentation. arXiv preprint arXiv:1709.03410
4. Zhang X., Wei Y., Yang Y. and Huang T. S. (2020) SG-One: Similarity Guidance Network for One-Shot Semantic Segmentation. In IEEE Transactions on Cybernetics. 50(9). P. 3855–3865. DOI
5. Zhang C., Lin G., Liu F., Yao R. and Shen C. Segmentation Networks With Iterative Refinement and Attentive Few-Shot Learning. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 15–20 June 2019, Long Beach, CA, USA, IEEE. P. 5212–5221. DOI
6. Chen L. C., Papandreou G., Schroff F. and Adam H. (2017) Rethinking Atrous Convolution For Semantic Image Segmentation. arXiv preprint arXiv:1706.05587.
7. Nguyen K. and Todorovic S. (2019) Feature Weighting and Boosting for Few-Shot Segmentation. IEEE/CVF International Conference on Computer Vision (ICCV), 27 October-02 November 2019, Seoul, Korea (South), IEEE. P. 622–631. DOI
8. Yang Y., Meng F., Li H., Wu Q., Xu X. and Chen S. (2020) New Local Transformation Module for Few-Shot Segmentation. In Proceedings MultiMedia Modeling: 26th International Conference, 5–8 January 2020. Daejeon, South Korea, SpringerLink. P. 26–87.
9. Zhang C., Lin G., Liu F., Guo J., Wu Q. and Yao R. Pyramid Graph Networks With Connection Attentions for Region-Based One-Shot Semantic Segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 27 October – 02 November 2019, Seoul, Korea (South), IEEE. pp. 9586-9594. DOI
10. Velickovic P., Cucurull G., Casanova A., Romero A., Lio P. and Bengio Y. (2017) Graph attention networks. arXiv preprint arXiv:1710.10903.
11. Tian Z., Zhao H., Shu M., Yang Z., Li R. and Jia J. (2020) Prior Guided Feature Enrichment Network for Few-Shot Segmentation. In IEEE Transactions on Pattern Analysis and Machine Intelligence. 44(2). P. 1050–1065. DOI
12. Min J., Kang D. and Cho M. Hypercorrelation Squeeze for Few-Shot Segmenation. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 10–17 October 2021, Montreal, QC, Canada, IEEE. P. 6921–6932. DOI
13. Lin T. Y., Dollár P., Girshick R., He K., Hariharan B. and Belongie S. Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 21–26 July 2017, Honolulu, HI, USA, IEEE. P. 936–944. DOI
14. Lang C., Cheng G., Tu B. and Han J. Learning What Not to Segment: A New Perspective on Few-Shot Segmentation. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18–24 June 2022, New Orleans, LA, USA, IEEE. P. 8047–8057. DOI
15. Zhao H., Shi J., Qi X., Wang X. and Jia J. (2017) Pyramid Scene Parsing Network. In Proceedings of the IEEE conference on computer vision and pattern recognition. P. 2881–2890.
16. Shi X., Wei D., Zhang Y., Lu D., Ning M., Chen J., Ma K. and Zheng Y. (2022) Support Attention Weighted Mask Aggregation for FewShot Segmentation. In European Conference on Computer Vision. P. 151–168.
17. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł. and Polosukhin I. (2017) Attention is all you need. In Advances in Neural Information Processing Systems. P. 5998–6008.
18. Peng B., Tian Z., Wu X., Wang C., Liu S., Su J. and Jia J. Hierarchical Dense Correlation Distillation for Few-Shot Segmentation. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 17–24 June 2023, Vancouver, BC, Canada, IEEE. P. 23641–23651. DOI
19. Wang X., Zhang X., Cao Y., Wang W., Shen C. and Huang T. SegGPT: Towards Segmenting Everything In Context. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), 01–06 October 2023, Paris, France, IEEE. P. 1130– 1140. DOI
20. Wang X., Wang W., Cao Y., Shen C. and Huang T. Images Speak in Images: A General- ist Painter for In-Context Visual Learning. 2023 IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition (CVPR), 17–24 June 2023, Vancouver, BC, Canada, IEEE. P. 6830–6839. doi: 10.1109/CVPR52729.2023.00660" target="_blank">DOI
21. Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S. and Uszkoreit J. (2020) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv preprint arXiv:2010.11929.
22. Girshick R. (2015) Fast R-CNN. In Proceedings of the IEEE international conference on computer vision. P. 1440–1448.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).