ZNU Institutional Repository

Реалізація обчислення схожості назв компаній

Show simple item record

dc.contributor.author Копилов, Вадим Олександрович
dc.date.accessioned 2024-07-04T10:41:45Z
dc.date.available 2024-07-04T10:41:45Z
dc.date.issued 2024
dc.identifier.uri https://dspace.znu.edu.ua/jspui/handle/12345/19899
dc.description Копилов В. О. Реалізація обчислення схожості назв компаній : кваліфікаційна робота бакалавра спеціальності 122 "Комп'ютерні науки" / наук. керівник Г. А. Добровольський. Запоріжжя : ЗНУ, 2024. 57 с. uk
dc.description.abstract UA : Робота викладена на 57 сторінках друкованого тексту, містить 30 рисунків,15 джерел, 1 додаток. Об’єкт дослідження – задача порівняння схожості назв компаній за допомогою методів обробки природної мови. Мета роботи: визначення ефективності застосування моделі BERT для обчислення схожості між правильними та зіпсованими назвами компаній з використанням косинусної схожості. Метод дослідження – аналітичний. Щоб досягти поставленої мети, був розроблений метод порівняння назв компаній за схожістю, що базується на використанні моделі BERT для отримання векторних представлень тексту та обчислення косинусної схожості між ними. Було визначено підхід для генерації зіпсованих назв компаній шляхом додавання загальних слів до правильних назв. Метод перевірено на реальних даних з різними форматами назв компаній. Отримані результати свідчать про високу ефективність використання моделі BERT для обчислення схожості між назвами компаній. Застосування цього методу дозволяє точно визначати схожість навіть у випадках, коли назви компаній містять загальні слова або незначні помилки. Створений підхід до обчислення схожості між назвами компаній може бути використаний для автоматизації процесів обробки текстової інформації, покращення якості пошукових систем та систем перевірки достовірності інформації. Застосування цього підходу є особливо актуальним у сферах обробки природної мови, де важливо враховувати нюанси та варіації тексту для точного розпізнавання та порівняння інформації. uk
dc.description.abstract EN : The work is presented on 57 pages of printed text, 30 figures, 15 references, 1 annex. Object of the study – the task of comparing the similarity of company names using natural language processing methods. Aim of the study: to determine the effectiveness of using the BERT model to calculate the similarity between correct and spoofed company names using cosine similarity. Method of research – analytical. To achieve this goal, a method for comparing company names by similarity was developed, based on the use of the BERT model to obtain vector representations of text and calculate the cosine similarity between them. An approach was defined to generate corrupted company names by adding common words to the correct names. The method is tested on real data with different company name formats. The results obtained show the high efficiency of using the BERT model to calculate the similarity between company names. The application of this method allows to accurately determine the similarity even in cases where company names contain common words or minor errors. The developed approach to calculating the similarity between company names can be used to automate text information processing, improve the quality of search engines and information verification systems. This approach is especially relevant in natural language processing, where it is important to take into account the nuances and variations of text for accurate recognition and comparison of information. uk
dc.language.iso uk uk
dc.subject аналіз даних uk
dc.subject косинусна схожість uk
dc.subject машинне навчання uk
dc.subject обробка природної мови uk
dc.subject схожість текстів uk
dc.subject модель BERT uk
dc.subject data analysis uk
dc.subject machine learning uk
dc.title Реалізація обчислення схожості назв компаній uk
dc.title.alternative Implementation of calculating the similarity of company names uk
dc.type Робота бакалавра uk


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics