Реалізація обчислення схожості назв компаній

Копилов, Вадим Олександрович

Please use this identifier to cite or link to this item: https://dspace.znu.edu.ua/jspui/handle/12345/19899

Title:	Реалізація обчислення схожості назв компаній
Other Titles:	Implementation of calculating the similarity of company names
Authors:	Копилов, Вадим Олександрович
Keywords:	аналіз даних косинусна схожість машинне навчання обробка природної мови схожість текстів модель BERT data analysis machine learning
Issue Date:	2024
Abstract:	UA : Робота викладена на 57 сторінках друкованого тексту, містить 30 рисунків,15 джерел, 1 додаток. Об’єкт дослідження – задача порівняння схожості назв компаній за допомогою методів обробки природної мови. Мета роботи: визначення ефективності застосування моделі BERT для обчислення схожості між правильними та зіпсованими назвами компаній з використанням косинусної схожості. Метод дослідження – аналітичний. Щоб досягти поставленої мети, був розроблений метод порівняння назв компаній за схожістю, що базується на використанні моделі BERT для отримання векторних представлень тексту та обчислення косинусної схожості між ними. Було визначено підхід для генерації зіпсованих назв компаній шляхом додавання загальних слів до правильних назв. Метод перевірено на реальних даних з різними форматами назв компаній. Отримані результати свідчать про високу ефективність використання моделі BERT для обчислення схожості між назвами компаній. Застосування цього методу дозволяє точно визначати схожість навіть у випадках, коли назви компаній містять загальні слова або незначні помилки. Створений підхід до обчислення схожості між назвами компаній може бути використаний для автоматизації процесів обробки текстової інформації, покращення якості пошукових систем та систем перевірки достовірності інформації. Застосування цього підходу є особливо актуальним у сферах обробки природної мови, де важливо враховувати нюанси та варіації тексту для точного розпізнавання та порівняння інформації. EN : The work is presented on 57 pages of printed text, 30 figures, 15 references, 1 annex. Object of the study – the task of comparing the similarity of company names using natural language processing methods. Aim of the study: to determine the effectiveness of using the BERT model to calculate the similarity between correct and spoofed company names using cosine similarity. Method of research – analytical. To achieve this goal, a method for comparing company names by similarity was developed, based on the use of the BERT model to obtain vector representations of text and calculate the cosine similarity between them. An approach was defined to generate corrupted company names by adding common words to the correct names. The method is tested on real data with different company name formats. The results obtained show the high efficiency of using the BERT model to calculate the similarity between company names. The application of this method allows to accurately determine the similarity even in cases where company names contain common words or minor errors. The developed approach to calculating the similarity between company names can be used to automate text information processing, improve the quality of search engines and information verification systems. This approach is especially relevant in natural language processing, where it is important to take into account the nuances and variations of text for accurate recognition and comparison of information.
Description:	Копилов В. О. Реалізація обчислення схожості назв компаній : кваліфікаційна робота бакалавра спеціальності 122 "Комп'ютерні науки" / наук. керівник Г. А. Добровольський. Запоріжжя : ЗНУ, 2024. 57 с.
URI:	https://dspace.znu.edu.ua/jspui/handle/12345/19899
Appears in Collections:	Кваліфікаційні випускні роботи здобувачів бакалаврського рівня кафедри комп’ютерних наук

Files in This Item:

File	Description	Size	Format
Kopylov_V_O.pdf	Робота бакалавра	1.77 MB	Adobe PDF	View/Open

Show full item record