Автоматическое построение двуязычного словаря на основе вывода GIZA++
Аннотация
Современные модели нейронного машинного перевода (НМП) на основе энкодера-декодера, как правило, обучают на корпусах параллельных предложений. Соответственно, такие модели выдают наилучшие результаты при переводе полных предложений, а не их частей. Таким образом, подобные модели не решают задачи перевода устойчивых выражений, которая часто возникает при изучении языка. И если для высокоресурсных языковых пар бывают доступны словари фраз и выражений, созданные вручную, для более низкоресурсных пар их чаще всего просто не существует. В этой работе мы предлагаем автоматический подход к созданию такого словаря на основе вывода статистического инструмента GIZA++ с последующей фильтрацией с помощью эвристик. Мы анализируем качество перевода, полученного с помощью данного подхода, и сравниваем его с эталонным переводом и с переводом фраз с помощью системы НМП, обученной на предложениях. Результаты показывают, что несмотря на выявленные проблемы, переводы фраз чаще всего корректны, и даже если они не совпадают с эталонным переводом, представляют собой возможные альтернативные переводы. Также важным результатом является то, что данный подход работает значительно лучше, чем перевод фраз с помощью системы НМП. Используя предложенный подход, мы получили русско-английский словарь лексических оборотов, который можно использовать как в готовом виде, так и в качестве исходного материала для составления словаря вручную. Полученный русско-английский фразовый словарь был размещен в сети Интернет в качестве лингвистического ресурса.
Скачивания
Литература
2. Vasiljevic Z. (2014) Teaching collocations in a second language: Why, what and how. Elta Journal. 2 P. 48–73.
3. Brown P. F., Pietra V. J. D., Pietra S. A. D. and Mercer R. L. (1993) The Mathematics of Statistical Machine Translation: Parameter Estimation. Comput. Linguist. 1993 Jun. 19. P. 263–311.
4. Och F. J. and Ney H. (2003) A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics. 2003 Mar. 29. P. 19–51. – DOI
5. Garcia M., García-Salido M. and AlonsoRamos M. (2019) Towards the Automatic Construction of a Multilingual Dictionary of Collocations using Distributional Semantics. 6. Smadja F., McKeown K. and Hatzivassiloglou V. (1996) Translating Collocations for Bilingual Lexicons: A Statistical Approach. Comput. Linguistics. 22. P. 1–38.
7. Kupiec J. (1993) An Algorithm for Finding Noun Phrase Correspondences in Bilingual Corpora. In 31st Annual Meeting of the Association for Computational Linguistics; 1993 Jun; Columbus: Association for Computational Linguistics. P. 17–22. DOI
8. Rivera O. M., Mitkov R. and Corpas Pastor G. (2013) A flexible framework for collocation retrieval and translation from parallel and comparable corpora. In Proceedings of the Workshop on Multi-word Units in Machine Translation and Translation Technologies. 2013 Sep. Nice. 9. Seretan V. and Wehrli É. (2007) Collocation translation based on sentence alignment and parsing. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs; 2007 Jun; Toulouse: ATALA. P. 375–384.
10. Zenkel T., Wuebker J. and DeNero J. (2020) End-to-End Neural Word Alignment Outperforms GIZA++. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics; 2020 Jul; Online: Association for Computational Linguistics. P. 1605–1617. – DOI
11. Chen Y., Liu Y., Chen G., Jiang X. and Liu Q. (2020) Accurate Word Alignment Induction from Neural Machine Translation. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP); 2020 Nov; Online: Association for Computational Linguistics. P. 566–576. – DOI
12. Koehn P., Axelrod A., Birch A., Callison-Burch C., Osborne M. and Talbot D. (2005) Edinburgh system description for the 2005 IWSLT speech translation evaluation. International Workshop on Spoken Language Translation. 2005 Jan.
13. Richardson J., Nakazawa T. and Kurohashi S. (2014) Bilingual Dictionary Construction with Transliteration Filtering. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14); 2014 May; Reykjavik: European Language Resources Association (ELRA). P. 1013–1017.
14. Daiga Deksne A. V. (2018) A Workflow for Supplementing a Latvian-English Dictionary with Data from Parallel Corpora and a Reversed English-Latvian Dictionary. In Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts; 2018 Jul; Ljubljana: Ljubljana University Press, Faculty of Arts. P. 127-135.
15. Chen Y. J., Yang C. Y. H. and Chang J. S. Improving Phrase Translation Based on Sentence Alignment of Chinese-English Parallel Corpus. In Proceedings of the 32nd Conference on Computational Linguistics and Speech Processing (ROCLING 2020); 2020 Sep; Taipei: The Association for Computational Linguistics and Chinese Language Processing (ACLCLP). p. 6–7.
16. Schwenk H., Wenzek G., Edunov S., Grave E., Joulin A. and Fan A. (2021) CCMatrix: Mining Billions of High-Quality Parallel Sentences on the Web. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers); 2021 Aug; Online: Association for Computational Linguistics. P. 6490–6500. – DOI
17. Tiedemann J. (2012) Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12); 2012 May; Istanbul: European Language Resources Association (ELRA). P. 2214–2218.
18. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N. [et al.] (2007) Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions; 2007 Jun; Prague: Association for Computational Linguistics. P. 177–180.
19. Moses. – Available at: URL
20. Corpus dictionary of multiword lexical units (expressions). – Available at: URL
21. Russian-english dictionary of collocations and phrases. – Available at: URL
22. Tiedemann J. and Thottingal S. (2020) OPUS-MT – Building open translation services for the World. In Proceedings of the 22nd Annual Conference of the European Association for Machine Translation; 2020 Nov; Lisboa: European Association for Machine Translation. P. 479–480.
23. MarianMT. – Available at: URL
24. Helsinki-NLP/opus-mt-ru-en. – Available at: URL
25. Pecina P. (2005) An Extensive Empirical Study of Collocation Extraction Methods. In Proceedings of the ACL Student Research Workshop; 2005 Jun; Ann: Association for Computational Linguistics. p. 13–18.
26. Bhalla V. and Klimcikova K. (2019) Evaluation of automatic collocation extraction methods for language learning. In Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications; 2019 Aug; Florence: Association for Computational Linguistics. P. 264–274. – DOI
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).