Please use this identifier to cite or link to this item:
https://essuir.sumdu.edu.ua/handle/123456789/99211
Or use following links to share this resource in social networks:
Tweet
Recommend this item
Title | Класифікація кіберзагроз на основі аналізу текстових описів з використанням методів обробки природної мови |
Authors |
Шаламай, Д.С.
Євсеєв, С.П. Kushnerov, Oleksandr Serhiiovych ![]() |
ORCID |
http://orcid.org/0000-0001-8253-5698 |
Keywords |
кіберзагрози cyber threats класифікація classification обробка природної мови natural language processing машинне навчання machine learning аугментація даних data augmentation |
Type | Conference Papers |
Date of Issue | 2025 |
URI | https://essuir.sumdu.edu.ua/handle/123456789/99211 |
Publisher | ПП «Новий Світ-2000» |
License | Creative Commons Attribution 4.0 International License |
Citation | Шаламай Д. С., Євсеєв С. П., Кушнерьов О. С. Класифікація кіберзагроз на основі аналізу текстових описів з використанням методів обробки природної мови // Матеріали V Міжнародної науково-практичної конференції «Інформаційна безпека та інформаційні технології» (Харків, Одеса, Луцьк, 9–11 червня 2025 р.). – 2025. – С. 56–58. |
Abstract |
Дослідження присвячене розробці системи для автоматичної класифікації кіберзагроз на основі текстових описів, наданих у довільній формі. Через недостатню оперативність традиційних підходів до документування загроз , була створена система, що використовує методи обробки природної мови (NLP) та машинного навчання. Початковий набір з 220 загроз банківського сектору було розширено до 1078 описів за допомогою технік аугментації даних, зокрема парафразування. Розроблений конвеєр обробки даних включає очищення та лематизацію тексту за допомогою бібліотеки Stanza , перетворення тексту у вектори TF-IDF та багатовихідну класифікацію з використанням RandomForestClassifier. Створена система здатна категоризувати загрози за вісьмома параметрами і спершу перевіряє схожість введеного опису з існуючими в базі за допомогою косинусної подібності, перш ніж задіяти модель машинного навчання. This research is dedicated to the development of a system for the automatic classification of cyber threats based on textual descriptions provided in a free-form manner. Due to the insufficient speed of traditional approaches to threat documentation , a system was created that utilizes natural language processing (NLP) and machine learning methods. An initial dataset of 220 threats from the banking sector was expanded to 1078 descriptions using data augmentation techniques, particularly paraphrasing. The developed data processing pipeline includes text cleaning and lemmatization with the Stanza library , text-to-vector conversion using TF-IDF , and multi-output classification using RandomForestClassifier. The resulting system can categorize threats across eight parameters and first checks the similarity of an input description against an existing database using cosine similarity before engaging the machine learning model. This research is dedicated to the development of a system for the automatic classification of cyber threats based on textual descriptions provided in a free-form manner. Due to the insufficient speed of traditional approaches to threat documentation , a system was created that utilizes natural language processing (NLP) and machine learning methods. An initial dataset of 220 threats from the banking sector was expanded to 1078 descriptions using data augmentation techniques, particularly paraphrasing. The developed data processing pipeline includes text cleaning and lemmatization with the Stanza library , text-to-vector conversion using TF-IDF , and multi-output classification using RandomForestClassifier. The resulting system can categorize threats across eight parameters and first checks the similarity of an input description against an existing database using cosine similarity before engaging the machine learning model. |
Appears in Collections: |
Наукові видання (ННІ БіЕМ) |
Views
Downloads
Files
File | Size | Format | Downloads |
---|---|---|---|
Kushnerov_.Klasifikazij.pdf | 1.59 MB | Adobe PDF | 0 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.