Реалізація видалення із неформатованого тексту випадкових груп символів

Копосова, Валерія Ігорівна

Please use this identifier to cite or link to this item: https://dspace.znu.edu.ua/jspui/handle/12345/12531

Title:	Реалізація видалення із неформатованого тексту випадкових груп символів
Authors:	Копосова, Валерія Ігорівна
Keywords:	обробка природного тексту метод виявлення помилок мовні моделі LSTM
Issue Date:	2023
Abstract:	UA : Робота викладена на 66 сторінках друкованого тексту, містить 9 рисунків, 14 джерело, 2 додатки. Об’єкт дослідження – текст природної мови з помилковими словами. Предмет дослідження - застосування символьної мовної моделі для обчислення функції належності слова у мові. Мета роботи: створення та оцінка якості мовної моделі на рівні символів для покращення видобутого тексту. Метод дослідження – теоретичний, експериментальний. Створено нейромережеву мовну модель LSTM, навчену на англійському тексті як послідовності символів. Метою моделі є розділення слів які належать мові, та не належать їй. Розроблена модель призначена для виявлення у вхідних даних помилкових слів з метою покращення якості англійського тексту перед його аналізом іншими методами машинного навчання. Точність отриманої моделі 74-89%, але її можна покращити за рахунок інших навчальних вибірок та оптимізації параметрів нейронної мережі. Символьні мовні моделі дозволяють впізнавати слова, яких не було в навчальних даних. EN : The work is presented on 66 pages of printed text, 9 figures, 14 references, 2 annexes. Object of the study – natural language text with misspelled words. Subject of the study – applying a symbolic language model to calculate the word membership function in a language. Aim of the study: creating and evaluating the quality of the language model at the character level to improve the extracted text. Methods of research – theoretical, experimental . An LSTM neural network language model trained on English text as a sequence of characters is created. The goal of the model is to separate words that belong to the language from those that do not. The developed model is designed to detect false words in the input data in order to improve the quality of the English text before analyzing it with other machine learning methods. The accuracy of the resulting model is 74-89%, but it can be improved by using other training samples and optimizing the neural network parameters. Symbolic language models allow you to recognize words that were not in the training data.
Description:	Копосова В. І. Реалізація видалення із неформатованого тексту випадкових груп символів : кваліфікаційна робота бакалавра спеціальності 122 "Комп'ютерні науки" / наук. керівник Г. А. Добровольський. Запоріжжя : ЗНУ, 2023. 66 с.
URI:	https://dspace.znu.edu.ua/jspui/handle/12345/12531
Appears in Collections:	Кваліфікаційні випускні роботи здобувачів бакалаврського рівня кафедри комп’ютерних наук

Files in This Item:

File	Description	Size	Format
Koposova_V_I.pdf	Робота бакалавра	904.95 kB	Adobe PDF	View/Open

Show full item record