РАЗРАБОТКА МЕТОДА ОБЪЯСНИМОГО НЕСТРОГОГО СОПОСТАВЛЕНИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ В УСЛОВИЯХ «ХОЛОДНОГО СТАРТА» С ОБРАТНОЙ СВЯЗЬЮ
Аннотация
В данной работе рассматривается задача нестрогого сопоставления текстовых документов, заключающаяся в определении степени их семантического сходства. Задача актуальна для случаев поиска документов в корпусе, похожих на данный; в данной работе рассмотрен подбор вакансий, подходящих под описание дисциплины. Целью работы является разработка метода объяснимого нестрогого сопоставления текстовых документов, работающий в условиях «холодного старта» (без размеченного набора данных для изначального обучения) с возможностью улучшения через обратную связь. Метод основан на сравнении эмбеддингов ключевых слов (или именованных сущностей), извлеченных из текстов, и дополнен постобработкой с использованием би-кодировщика и механизмом обучения на основе обратной связи. Оба дополнения заключаются в фильтрации неподходящих документов. В отличие от традиционных подходов на основе токенов, метод обучаем и учитывает семантическое сходство, а в отличие от нейросетевых подходов (сравнение эмбеддингов текстов или применение кросс-кодировщиков) – обе спечивает объяснимость результатов. Проведена экспериментальная оценка метода на корпусе из 691 вакансии и 3860 описаний дисциплин. Из различных методов извлечения ключевых слов лучшие результаты показало использование модели извлечения именованных сущностей (NER), что соответствует большему количеству извлеченных ключевых слов на текст. При использовании NER-модели, word2vec для эмбеддинга ключевых слов и LaBSE-ru-turbo в качестве би-кодировщика оценка показала F1-меру 0,79, что превосходит как простое сравнение с помощью би-кодировщика (F1=0,76), так и версию метода без обратной связи и би-кодировщика (F1=0.75).
Скачивания
Литература
Damerau F. J. A technique for computer detection and correction of spelling errors // Communications of the ACM. – 1964. – V. 7, No 3. – P. 171–176. – DOI: 10.1145/363958.363994.
Jaro M. A. Probabilistic linkage of large public health data files // Statistics in Medicine. – 1995. – V. 14, No 5–7. – С. 491–498. – DOI: 10.1002/sim.4780140510.
Winkler W. The state of record linkage and current research problems // Statist. Med. – 1999. – V. 14.
How different are different diff algorithms in Git?: Use –histogram for code changes // Empirical Software Engineering. – 2020. – V. 25, No 1. – P. 790–823. – DOI: 10.1007/s10664-01909772-z.
A General Edit Distance between RNA Structures / T. Jiang, G. Lin, B. Ma, K. Zhang // Journal of Computational Biology. – 2002. – V. 9, No 2. – P. 371–388. – DOI: 10.1089/10665270252935511.
Henzinger M. Finding near-duplicate web pages: a large-scale evaluation of algorithms // Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR06: The 29th Annual International SIGIR Conference). – Seattle Washington USA : ACM, 06.08.2006. – P. 284–291. – DOI: 10.1145/1148170.1148222.
Broder A. On the resemblance and containment of documents // Proceedings. Compression and Complexity of SEQUENCES 1997 – Salerno, Italy : IEEE. – P. 21–29. – DOI: 10.1109/SEQUEN.1997.666900.
Manku G. S., Jain A., Das Sarma A. Detecting near-duplicates for web crawling // Proceedings of the 16th international conference on World Wide Web (WWW’07: 16th International World Wide Web Conference). – Banff Alberta Canada : ACM, 08.05.2007. – P. 141–150. – DOI: 10.1145/1242572.1242592.
Approximate String Matching Techniques // Proceedings of the 16th International Conference on Enterprise Information Systems (16th International Conference on Enterprise Information Systems). – Lisbon, Portugal : SCITEPRESS – Science and Technology Publications, 2014. – P. 217–224. – DOI: 10.5220/0004892802170224.
A comparison of string distance metrics for name-matching tasks // Proceedings of the 2003 international conference on information integration on the web. – Acapulco, Mexico : AAAI Press, 2003. – P. 73–78. – (IIWEB’03).
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). – Hong Kong, China : Association for Computational Linguistics, 2019. – P. 39823992. – DOI: 10.18653/v1/D19-1410.
Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks / N. Thakur, N. Reimers, J. Daxenberger, I. Gurevych // Proceedings of the 2021 Conference of the North American Chapterof the Association for Computational Linguistics: Human Language Technologies (Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies). – Association for Computational Linguistics, 2021. – P. 296–310. – DOI: 10.18653/v1/2021.naacl-main.28.
MTEB: Massive Text Embedding Benchmark / N. Muennighoff, N. Tazi, L. Magne, N. Reimers // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. – Dubrovnik, Croatia: Association for Computational Linguistics, 2023. – P. 2014–2037. – DOI: 10.18653/v1/2023.eacl-main.148.
Boudin F. pke: an open source python-based keyphrase extraction toolkit // Proceedings of COLING 2016, the 26th international conference on computational linguistics: System demonstrations. – Osaka, Japan, 12.2016. – P. 69–73.
Bougouin A., Boudin F., Daille B. TopicRank: Graph-based topic ranking for keyphrase extraction // Proceedings of the sixth international joint conference on natural language processing. – Nagoya, Japan : Asian Federation of Natural Language Processing, 2013. – P. 543–551.
YAKE! Keyword extraction from single documents using multiple local features / R. Campos [и др.] // Information Sciences. – 2020. – V. 509. – P. 257–289. – DOI: 10.1016/j.ins.2019.09.013.
Florescu C., Caragea C. PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). – Vancouver, Canada : Association for Computational Linguistics, 2017. – С. 11051115. – DOI: 10.18653/v1/P17-1102.
Analysis of Approaches for Identifying Key Skills in Vacancies / P. V. Korytov, E. A. Andreeva, Y. Y. Gribetsky, I. I. Kholod // 2024 XXVII International Conference on Soft Computing and Measurements (SCM-2024). – Saint-Petersburg: IEEE, 2024. – P. 242–245. – DOI: 10.1109/SCM62608.2024.10554269
Kholod I. I., Korytov P. V., Sorochina M. V. Application of Neural Network Keyword Extraction Methods for Student’s CV Compilation from Discipline Work Programs // 2023 XXVI International Conference on Soft Computing and Measurements (SCM) – Saint-Petersburg : IEEE, 2023. – С. 143–146.– DOI: 10.1109/SCM58628.2023.10159061.
Потапов А. T-Lite и T-Pro – открытые русскоязычные опенсорс-модели на 7 и на 32 млрд параметров – Режим доступа: https://habr.com/ru/companies/tbank/articles/865582/ (Дата обращения: 03.01.2025).
Wan X., Xiao J. CollabRank: Towards a Collaborative Approach to Single Document Keyphrase Extraction // Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). – Coling 2008 Organizing Committee, 2008. – С. 969–976.
Mihalcea R., Tarau P. TextRank: Bringing order into text // Proceedings of the 2004 conference on empirical methods in natural language processing. – Barcelona, Spain : Association for Computational Linguistics, 2004. – С. 404–411.
Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K.Chen, G. Corrado, J. Dean // Proceedings of the International Conference on Learning Representations (ICLR 2013). – 2013.
Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. // Proc. of MLMTA-2003. –2003.
The Faiss library / Matthijs Douze [и др.] // arXiv preprint. – 2024. Режим доступа: https://arxiv.org/abs/2401.08281 (дата обр. 31.05.2025)
The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design / A. Snegirev [и др.] // arXiv preprint. – 2024. Режим доступа: https://arxiv.org/abs/2408.12503 (дата обр. 31.05.2025)
Dale D. Маленький и быстрый BERT для русского языка. – Режим доступа: https://habr.com/ru/articles/562064/ (дата обр. 31.05.2025).
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













