Реалізація видалення із неформатованого тексту випадкових груп символів

Копосова, Валерія Ігорівна

Головна сторінка DSpace
→
Факультет математичний
→
Кафедра комп’ютерних наук
→
Кваліфікаційні випускні роботи здобувачів бакалаврського рівня кафедри комп’ютерних наук
→
Перегляд матеріалів

dc.contributor.author	Копосова, Валерія Ігорівна
dc.date.accessioned	2023-06-29T05:50:27Z
dc.date.available	2023-06-29T05:50:27Z
dc.date.issued	2023
dc.identifier.uri	https://dspace.znu.edu.ua/jspui/handle/12345/12531
dc.description	Копосова В. І. Реалізація видалення із неформатованого тексту випадкових груп символів : кваліфікаційна робота бакалавра спеціальності 122 "Комп'ютерні науки" / наук. керівник Г. А. Добровольський. Запоріжжя : ЗНУ, 2023. 66 с.	uk
dc.description.abstract	UA : Робота викладена на 66 сторінках друкованого тексту, містить 9 рисунків, 14 джерело, 2 додатки. Об’єкт дослідження – текст природної мови з помилковими словами. Предмет дослідження - застосування символьної мовної моделі для обчислення функції належності слова у мові. Мета роботи: створення та оцінка якості мовної моделі на рівні символів для покращення видобутого тексту. Метод дослідження – теоретичний, експериментальний. Створено нейромережеву мовну модель LSTM, навчену на англійському тексті як послідовності символів. Метою моделі є розділення слів які належать мові, та не належать їй. Розроблена модель призначена для виявлення у вхідних даних помилкових слів з метою покращення якості англійського тексту перед його аналізом іншими методами машинного навчання. Точність отриманої моделі 74-89%, але її можна покращити за рахунок інших навчальних вибірок та оптимізації параметрів нейронної мережі. Символьні мовні моделі дозволяють впізнавати слова, яких не було в навчальних даних.	uk
dc.description.abstract	EN : The work is presented on 66 pages of printed text, 9 figures, 14 references, 2 annexes. Object of the study – natural language text with misspelled words. Subject of the study – applying a symbolic language model to calculate the word membership function in a language. Aim of the study: creating and evaluating the quality of the language model at the character level to improve the extracted text. Methods of research – theoretical, experimental . An LSTM neural network language model trained on English text as a sequence of characters is created. The goal of the model is to separate words that belong to the language from those that do not. The developed model is designed to detect false words in the input data in order to improve the quality of the English text before analyzing it with other machine learning methods. The accuracy of the resulting model is 74-89%, but it can be improved by using other training samples and optimizing the neural network parameters. Symbolic language models allow you to recognize words that were not in the training data.	uk
dc.language.iso	uk	uk
dc.subject	обробка природного тексту	uk
dc.subject	метод виявлення помилок	uk
dc.subject	мовні моделі	uk
dc.subject	LSTM	uk
dc.title	Реалізація видалення із неформатованого тексту випадкових груп символів	uk
dc.type	Робота бакалавра	uk