Семантический анализ и синтез текстовых данных
DOI:
https://doi.org/10.17308/sait/1995-5499/2023/4/182-208Ключевые слова:
семантический анализ, синтез данных, автоматическая обработка текста, анализ разнородных данныхАннотация
Данная статья носит обзорный характер. Изучение представлений отечественных и зарубежных исследователей имеет важное значение, что определено современными требованиями к изучению систем обработки данных. Цель — попытаться определить в чем может состоять машинное понимание текста/речи. Кроме того, такие LLM как ChatGPT подчеркивают важность и своевременность такого обзора. С другой стороны, несмотря на ежедневный прирост общемирового объема данных, их использование в необработанном (сыром) виде как правило не представляется возможным. Для решения ряда прикладных задач требуется в той или иной мере произвести их обработку. Решение прикладных задач обработки естественного языка невозможно без использования методов семантического анализа и синтеза данных. Возрастающие объемы генерируемой пользователями информации и цифровизация общества требуют совершенствования указанных методов, что обуславливает актуальность обзора на данную тему. Целью работы является рассмотрение основных трендов в области обработки естественного языка, использования семантического анализа, онтологий и синтеза данных. Описана суть семантического анализа, его применения и существующие подходы к реализации как традиционными способами, так и с применением методов искусственного интеллекта. Определены основные преимущества использования семантического анализа при работе с данными. В основе работы лежит метод анализа и обработки данных, так, был проведен обзор подходов к классификации текстов в информационных системах. Рассмотрены вопросы обеспечения доступа к обобщенной информации из различных баз данных с помощью семантического подхода и онтологии данных. Описаны варианта синтеза данных как из наборов структурированных данных, так и с использованием метаданных. В результате проведенного исследования выделены основные проблемы при обработке естественного языка такие, как доступ к данным, открытость данных исследований, определение тональности, иронии и сарказма. Представленная информация может быть использована при планировании решения задач обработки естественного языка, разработке программных продуктов для автоматизации данного процесса, разработке реляционных баз данных, систем поддержки принятия решений, информационных и аналитических систем.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













