Автоматическое построение двуязычного словаря на основе вывода GIZA++

Авторы

DOI:

https://doi.org/10.17308/sait/1995-5499/2022/4/189-201

Ключевые слова:

перевод фраз, перевод коллокаций, машинный перевод, автоматическое построение словаря, двуязычный словарь, фразовый словарь, языковые ресурсы

Аннотация

Современные модели нейронного машинного перевода (НМП) на основе энкодера-декодера, как правило, обучают на корпусах параллельных предложений. Соответственно, такие модели выдают наилучшие результаты при переводе полных предложений, а не их частей. Таким образом, подобные модели не решают задачи перевода устойчивых выражений, которая часто возникает при изучении языка. И если для высокоресурсных языковых пар бывают доступны словари фраз и выражений, созданные вручную, для более низкоресурсных пар их чаще всего просто не существует. В этой работе мы предлагаем автоматический подход к созданию такого словаря на основе вывода статистического инструмента GIZA++ с последующей фильтрацией с помощью эвристик. Мы анализируем качество перевода, полученного с помощью данного подхода, и сравниваем его с эталонным переводом и с переводом фраз с помощью системы НМП, обученной на предложениях. Результаты показывают, что несмотря на выявленные проблемы, переводы фраз чаще всего корректны, и даже если они не совпадают с эталонным переводом, представляют собой возможные альтернативные переводы. Также важным результатом является то, что данный подход работает значительно лучше, чем перевод фраз с помощью системы НМП. Используя предложенный подход, мы получили русско-английский словарь лексических оборотов, который можно использовать как в готовом виде, так и в качестве исходного материала для составления словаря вручную. Полученный русско-английский фразовый словарь был размещен в сети Интернет в качестве лингвистического ресурса.

Биографии авторов

  • Альбина Маратовна Хусаинова, Автономная некоммерческая организация высшего образования Университет Иннополис

    аспирант 4-го года обучения, ассистент в лаборатории машинного обучения и представления данных Университета Иннополис

  • Виталий Анатольевич Романов, Автономная некоммерческая организация высшего образования Университет Иннополис

    аспирант 4-го года обучения, ассистент в лаборатории промышленной разработки ПО Университета Иннополис

  • Адил Мехмуд Хан, Автономная некоммерческая организация высшего образования Университет Иннополис

    кандидат физ.-мат. наук, профессор, начальник лаборатории машинного обучения и представления данных Университета Иннополис

Библиографические ссылки

Загрузки

Опубликован

2022-12-26

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Автоматическое построение двуязычного словаря на основе вывода GIZA++. (2022). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 4, 189-201. https://doi.org/10.17308/sait/1995-5499/2022/4/189-201

Наиболее читаемые статьи этого автора (авторов)