СИАМСКАЯ АРХИТЕКТУРА ТРАНСФОРМЕРА С ЛОКАЛЬНЫМ ОКОННЫМ И ГЛОБАЛЬНЫМ ДЕФОРМИРУЕМЫМ ВНИМАНИЕМ ДЛЯ ОБНАРУЖЕНИЯ ЭЛЕМЕНТОВ НОВИЗНЫ НА ИЗОБРАЖЕНИЯХ

Авторы

DOI:

https://doi.org/10.17308/sait/1995-5499/2025/3/123-139

Ключевые слова:

компьютерное зрение, обнаружение элементов новизны, глубокие нейронные сети, трансформеры, механизм внимания

Аннотация

Рассмотрена задача обнаружения элементов новизны на изображениях на примере обработки данных аэрокосмического мониторинга поверхности земли. Для решения задачи предлагается оригинальная модель сиамской глубокой нейронной сети X-ChangeNet на основе иерархического трансформера. В рамках модели представлен и обоснован комплексный механизм сопоставления разновременных признаков, включающего три ключевых модуля, которые последовательно выявляют изменения от локального уровня до глобального. К ним относятся: модуль многомасштабной попарной корреляции, который обнаруживает базовые структурные изменения посредством попарной конкатенации и многомасштабной групповой свёртки; многомасштабный трансформер на основе локальных окон, выявляющий сложные локальные и региональные зависимости с помощью многомасштабного оконного внимания; трансформер с деформируемым вниманием на уровне патчей, позволяющий захватывать глобальный контекст и фокусироваться на структурных изменениях при значительно меньших вычислительных затратах по сравнению с традиционным глобальным самовниманием. Проведены сравнительные эксперименты предложенной модели на типовых аэрокосмических наборах данных LEVIR-CD и CDD Dataset по отношению к известным моделям. Показано, что X-ChangeNet обеспечивает высокие и конкурентоспособные показатели точности, превосходя большинство современных моделей при значительно меньшем количестве обучаемых параметров. В частности, модель достигла F1-Score 91,91 % на LEVIR-CD и 97,81 % на CDD Dataset, имея всего 5,8 миллиона параметров. Полученные результаты демонстрируют потенциал предложенной модели для эффективного решения задач обнаружения элементов новизны в различных сценариях.

Биография автора

  • Ростислав Русланович Отырба, Воронежский государственный университет

    аспирант кафедры технологий обработки и защиты информации, факультета компьютерных наук

Библиографические ссылки

Загрузки

Опубликован

2025-09-26

Выпуск

Раздел

Интеллектуальные системы, анализ данных и машинное обучение

Как цитировать

СИАМСКАЯ АРХИТЕКТУРА ТРАНСФОРМЕРА С ЛОКАЛЬНЫМ ОКОННЫМ И ГЛОБАЛЬНЫМ ДЕФОРМИРУЕМЫМ ВНИМАНИЕМ ДЛЯ ОБНАРУЖЕНИЯ ЭЛЕМЕНТОВ НОВИЗНЫ НА ИЗОБРАЖЕНИЯХ. (2025). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 3, 123-139. https://doi.org/10.17308/sait/1995-5499/2025/3/123-139

Наиболее читаемые статьи этого автора (авторов)