TY - JOUR AU - Альбина Маратовна Хусаинова AU - Виталий Анатольевич Романов AU - Адил Мехмуд Хан PY - 2022/12/26 Y2 - 2024/03/29 TI - Автоматическое построение двуязычного словаря на основе вывода GIZA++ JF - Вестник ВГУ. Серия: Системный анализ и информационные технологии JA - sait VL - 0 IS - 4 SE - Компьютерная лингвистика и обработка естественного языка DO - 10.17308/sait/1995-5499/2022/4/189-201 UR - https://journals.vsu.ru/sait/article/view/10819 AB - Современные модели нейронного машинного перевода (НМП) на основе энкодера-декодера, как правило, обучают на корпусах параллельных предложений. Соответственно, такие модели выдают наилучшие результаты при переводе полных предложений, а не их частей. Таким образом, подобные модели не решают задачи перевода устойчивых выражений, которая часто возникает при изучении языка. И если для высокоресурсных языковых пар бывают доступны словари фраз и выражений, созданные вручную, для более низкоресурсных пар их чаще всего просто не существует. В этой работе мы предлагаем автоматический подход к созданию такого словаря на основе вывода статистического инструмента GIZA++ с последующей фильтрацией с помощью эвристик. Мы анализируем качество перевода, полученного с помощью данного подхода, и сравниваем его с эталонным переводом и с переводом фраз с помощью системы НМП, обученной на предложениях. Результаты показывают, что несмотря на выявленные проблемы, переводы фраз чаще всего корректны, и даже если они не совпадают с эталонным переводом, представляют собой возможные альтернативные переводы. Также важным результатом является то, что данный подход работает значительно лучше, чем перевод фраз с помощью системы НМП. Используя предложенный подход, мы получили русско-английский словарь лексических оборотов, который можно использовать как в готовом виде, так и в качестве исходного материала для составления словаря вручную. Полученный русско-английский фразовый словарь был размещен в сети Интернет в качестве лингвистического ресурса. ER -