Інституційний репозитарій ЗНУ

Реалізація видалення із неформатованого тексту випадкових груп символів

Показати скорочений опис матеріалу

dc.contributor.author Копосова, Валерія Ігорівна
dc.date.accessioned 2023-06-29T05:50:27Z
dc.date.available 2023-06-29T05:50:27Z
dc.date.issued 2023
dc.identifier.uri https://dspace.znu.edu.ua/jspui/handle/12345/12531
dc.description Копосова В. І. Реалізація видалення із неформатованого тексту випадкових груп символів : кваліфікаційна робота бакалавра спеціальності 122 "Комп'ютерні науки" / наук. керівник Г. А. Добровольський. Запоріжжя : ЗНУ, 2023. 66 с. uk
dc.description.abstract UA : Робота викладена на 66 сторінках друкованого тексту, містить 9 рисунків, 14 джерело, 2 додатки. Об’єкт дослідження – текст природної мови з помилковими словами. Предмет дослідження - застосування символьної мовної моделі для обчислення функції належності слова у мові. Мета роботи: створення та оцінка якості мовної моделі на рівні символів для покращення видобутого тексту. Метод дослідження – теоретичний, експериментальний. Створено нейромережеву мовну модель LSTM, навчену на англійському тексті як послідовності символів. Метою моделі є розділення слів які належать мові, та не належать їй. Розроблена модель призначена для виявлення у вхідних даних помилкових слів з метою покращення якості англійського тексту перед його аналізом іншими методами машинного навчання. Точність отриманої моделі 74-89%, але її можна покращити за рахунок інших навчальних вибірок та оптимізації параметрів нейронної мережі. Символьні мовні моделі дозволяють впізнавати слова, яких не було в навчальних даних. uk
dc.description.abstract EN : The work is presented on 66 pages of printed text, 9 figures, 14 references, 2 annexes. Object of the study – natural language text with misspelled words. Subject of the study – applying a symbolic language model to calculate the word membership function in a language. Aim of the study: creating and evaluating the quality of the language model at the character level to improve the extracted text. Methods of research – theoretical, experimental . An LSTM neural network language model trained on English text as a sequence of characters is created. The goal of the model is to separate words that belong to the language from those that do not. The developed model is designed to detect false words in the input data in order to improve the quality of the English text before analyzing it with other machine learning methods. The accuracy of the resulting model is 74-89%, but it can be improved by using other training samples and optimizing the neural network parameters. Symbolic language models allow you to recognize words that were not in the training data. uk
dc.language.iso uk uk
dc.subject обробка природного тексту uk
dc.subject метод виявлення помилок uk
dc.subject мовні моделі uk
dc.subject LSTM uk
dc.title Реалізація видалення із неформатованого тексту випадкових груп символів uk
dc.type Робота бакалавра uk


Долучені файли

Даний матеріал зустрічається у наступних фондах

Показати скорочений опис матеріалу