Алгоритм именования кластеров при автоматизированном формировании критериев оценивания программного продукта

Ключевые слова: большие языковые модели, Large Language Model, LLM, оценка отзывов, Llama, GPT, Claude, Gemini, GigaChat, Phi3, Gemma, Mistral, DeepSeek, сравнение языковых моделей, суммаризация текстов, извлечение смыслов, кластеризация, RetrievalAugmented Generation, формирование критериев оценивания

Аннотация

Рассматривается актуальная проблема настройки входных параметров алгоритма для разделения корпуса текста на кластеры и выдачи наименований для выявленных кластеров. В качестве предмета исследования выбраны подходы к обучению больших языковых моделей (Large Language Model). Приводятся результаты исследования по оценке применимости наиболее популярных подходов (fine-tuning и Retrieval-Augmented Generation) к обозначенной задаче. Предлагается алгоритм именования кластеров при автоматизированном формировании критериев оценивания программного продукта. Теоретическая значимость исследования заключается в приведении оценки качества существующих языковых моделей и возможности их применения при решении поставленной задачи. Практическая значимость исследования заключается в программной реализации алгоритма именования кластеров при автоматизированном формировании критериев оценивания программного продукта, а также в проведении вычислительного эксперимента по оценке точности работы алгоритма. Новизна результата заключается в доработке существующего алгоритма оценки обратной связи с пользователями.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Никита Андреевич Экерт, Воронежский государственный университет

аспирант кафедры программного обеспечения и администрирования информационных систем Воронежского государственного университета

Ирина Евгеньевна Воронина, Воронежский государственный университет

д-р техн. наук, доц., профессор кафедры программного обеспечения и администрирования информационных систем Воронежского государственного университета

Литература

1. Voronina I. E. and Ekert N. A. (2023) Choice Of Variant In Case Of Fuzzy String Comparison. Vestnik of Voronezh State University. Series: System Analysis and Information Technologies. 2. P. 181–191.
2. Voronina I. E. and Ekert N. A. (2023) Automated formation of evaluation criteria for software reviews. In: Proceedings of the International Scientific Conference «Topical Problems of Applied Mathematics, Computer Science and Mechanics». P.169–174.
3. Ingersoll G. S., Morton T. S. and Farris E. L. (2015) Unstructured text processing. Moscow : DMK Press.
4. Hobson L., Hannes H. and Cole H. (2020) Natural Language Processing in Action. St. Petersburg : Piter.
5. OpenAI (2024) GPT-4 Omni Documentation. [online] URL
6. Anthropic (2024) Claude 3.5 Sonnet Documentation. [online] URL
7. Google (2024) Gemini 1.5 Pro Documentation. [online] URL
8. Llama API (2025). LLaMA 3.3 Documentation. [online] URL
9. Sber (2024) GigaChat Pro Documentation. [online] URL
10. DeepSeek (2025) DeepSeek V3 API Documentation. [online] URL
11. Xu Z. (2021) RoBERTa-wwm-ext Fine-Tuning for Chinese Text Classification. [online] arXiv. DOI
12. Liao X., Zhu B., He J., Liu G., Zheng H. and Gao J. (2025) A Fine-Tuning Approach for T5 Using Knowledge Graphs to Address Complex Tasks. [online] arXiv. DOI
13. Gekhman Z., Yona G., Aharoni R., Eyal M., Feder A., Reichart R. and Herzig J. (2024) Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? [online] arXiv. DOI
14. Kang D., Cho J., Jeon Y., Jang S., Lee M., Cho J. and Lee G. G. (2025) Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation. [online] arXiv. DOI
15. Hu J., Liao X., Gao J., Qi Z., Zheng H. and Wang C. (2024) Optimizing Large Language Models with an Enhanced LoRA Fine-Tuning Algorithm for Efficiency and Robustness in NLP Tasks. [online] arXiv. DOI
16. Sarkar D. (2023) Viz: A QLoRA-based Copyright Marketplace for Legally Compliant Generative AI. [online] arXiv. DOI
17. Balaguer A., Benara V., Cunha R.L.F., Estevão Filho R. M., Hendry T., Holstein D., Marsman J., Mecklenburg N., Malvar S., Nunes L. O., Padilha R., Sharp M., Silva B., Sharma S., Aski V. and Chandra R. (2024) RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture. [online] arXiv. DOI
18. Jin B., Yoon J., Han J. and Arik S. O. (2024) Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG. [online] arXiv. DOI
19. Arslan M., Munawar S. and Cruz C. (2025) Sustainable Digitalization of Business with Multi-Agent RAG and LLM. [online] arXiv. DOI
20. Khan U. A., Khan E., Khan F. and Moinuddin A. A. (2025) Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks. [online] arXiv. DOI
21. Baqar M. and Khanda R. (2025) Hallucinations and Truth: A Comprehensive Accuracy Evaluation of RAG, LoRA and DoRA. [online] arXiv. DOI
22. Kellen O. and Blete M. (2024) Developing Applications Based on GPT-4 and ChatGPT. St. Petersburg : Piter.
Опубликован
2025-09-02
Как цитировать
Экерт, Н. А., & Воронина, И. Е. (2025). Алгоритм именования кластеров при автоматизированном формировании критериев оценивания программного продукта. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (2), 78-88. https://doi.org/10.17308/sait/1995-5499/2025/2/78-88
Раздел
Интеллектуальные системы, анализ данных и машинное обучение