Семантический анализ и синтез текстовых данных

Оксана Игоревна Захарова

doi:10.17308/sait/1995-5499/2023/4/182-208

Авторы

Оксана Игоревна Захарова Поволжский государственный университет телекоммуникаций и информатики https://orcid.org/0000-0003-3371-4344 (unauthenticated)

DOI:

https://doi.org/10.17308/sait/1995-5499/2023/4/182-208

Ключевые слова:

семантический анализ, синтез данных, автоматическая обработка текста, анализ разнородных данных

Аннотация

Данная статья носит обзорный характер. Изучение представлений отечественных и зарубежных исследователей имеет важное значение, что определено современными требованиями к изучению систем обработки данных. Цель — попытаться определить в чем может состоять машинное понимание текста/речи. Кроме того, такие LLM как ChatGPT подчеркивают важность и своевременность такого обзора. С другой стороны, несмотря на ежедневный прирост общемирового объема данных, их использование в необработанном (сыром) виде как правило не представляется возможным. Для решения ряда прикладных задач требуется в той или иной мере произвести их обработку. Решение прикладных задач обработки естественного языка невозможно без использования методов семантического анализа и синтеза данных. Возрастающие объемы генерируемой пользователями информации и цифровизация общества требуют совершенствования указанных методов, что обуславливает актуальность обзора на данную тему. Целью работы является рассмотрение основных трендов в области обработки естественного языка, использования семантического анализа, онтологий и синтеза данных. Описана суть семантического анализа, его применения и существующие подходы к реализации как традиционными способами, так и с применением методов искусственного интеллекта. Определены основные преимущества использования семантического анализа при работе с данными. В основе работы лежит метод анализа и обработки данных, так, был проведен обзор подходов к классификации текстов в информационных системах. Рассмотрены вопросы обеспечения доступа к обобщенной информации из различных баз данных с помощью семантического подхода и онтологии данных. Описаны варианта синтеза данных как из наборов структурированных данных, так и с использованием метаданных. В результате проведенного исследования выделены основные проблемы при обработке естественного языка такие, как доступ к данным, открытость данных исследований, определение тональности, иронии и сарказма. Представленная информация может быть использована при планировании решения задач обработки естественного языка, разработке программных продуктов для автоматизации данного процесса, разработке реляционных баз данных, систем поддержки принятия решений, информационных и аналитических систем.

Биография автора

Оксана Игоревна Захарова, Поволжский государственный университет телекоммуникаций и информатики

канд. техн. наук, доцент, доцент кафедры Информационные системы и технологии Поволжского государственного университета телекоммуникаций и информатики