Автоматическое построение двуязычного словаря на основе вывода GIZA++
DOI:
https://doi.org/10.17308/sait/1995-5499/2022/4/189-201Ключевые слова:
перевод фраз, перевод коллокаций, машинный перевод, автоматическое построение словаря, двуязычный словарь, фразовый словарь, языковые ресурсыАннотация
Современные модели нейронного машинного перевода (НМП) на основе энкодера-декодера, как правило, обучают на корпусах параллельных предложений. Соответственно, такие модели выдают наилучшие результаты при переводе полных предложений, а не их частей. Таким образом, подобные модели не решают задачи перевода устойчивых выражений, которая часто возникает при изучении языка. И если для высокоресурсных языковых пар бывают доступны словари фраз и выражений, созданные вручную, для более низкоресурсных пар их чаще всего просто не существует. В этой работе мы предлагаем автоматический подход к созданию такого словаря на основе вывода статистического инструмента GIZA++ с последующей фильтрацией с помощью эвристик. Мы анализируем качество перевода, полученного с помощью данного подхода, и сравниваем его с эталонным переводом и с переводом фраз с помощью системы НМП, обученной на предложениях. Результаты показывают, что несмотря на выявленные проблемы, переводы фраз чаще всего корректны, и даже если они не совпадают с эталонным переводом, представляют собой возможные альтернативные переводы. Также важным результатом является то, что данный подход работает значительно лучше, чем перевод фраз с помощью системы НМП. Используя предложенный подход, мы получили русско-английский словарь лексических оборотов, который можно использовать как в готовом виде, так и в качестве исходного материала для составления словаря вручную. Полученный русско-английский фразовый словарь был размещен в сети Интернет в качестве лингвистического ресурса.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













