Please use this identifier to cite or link to this item:
https://essuir.sumdu.edu.ua/handle/123456789/99523
Or use following links to share this resource in social networks:
Tweet
Recommend this item
Title | Моделі та методи інформаційної технології інтелектуального аналізу даних для комп’ютерно-технічної експертизи електронних документів |
Other Titles |
Models and methods of information technology of intelligent data analysis for digital forensic examination of electronic documents |
Authors |
Boiko, Maksym Volodymyrovych
|
ORCID | |
Keywords |
комп’ютерно-технічна експертиза кібербезпека інформаційна технологія аналіз даних обробка даних карвінг файлів фрагментовані файли штучний інтелект машинне навчання нейронні мережі датасет класифікація виявлення ідентифікація кластеризація електронні документи digital forensics cybersecurity information technology data analysis data processing file carving fragmented files artificial intelligence machine learning neural networks dataset classification detection identification clustering electronic documents |
Type | PhD Thesis |
Date of Issue | 2025 |
URI | https://essuir.sumdu.edu.ua/handle/123456789/99523 |
Publisher | Сумський державний університет |
License | Copyright not evaluated |
Citation | Бойко М. В. Моделі та методи інформаційної технології інтелектуального аналізу даних для комп’ютерно-технічної експертизи електронних документів : дис. ... д-ра філософії : 122. Суми, 2025. 170 с. |
Abstract |
Дисертаційна робота присвячена вирішенню задачі відновлення даних із високим рівнем фрагментації на персональних робочих станціях користувачів за умов відсутності метаданих файлових систем шляхом розроблення та вдосконалення моделей і методів інформаційної технології карвінгу файлів електронних документів. Застосування пропонованої інформаційної технології дозволяє підвищити ефективність карвінгу вище зазначених даних після спроб знищення цифрових слідів або кібератак.
Аналіз наукових джерел показує, що відновлення даних є складною з технічної точки зору задачею, вирішення якої залежить від файлової системи, характеру та порядку дій користувача при видаленні даних, часу, що минув з моменту подій, тощо. Найбільш важкі випадки трапляються при відновленні файлів за умов відсутності метаданих файлової системи. Карвінг нефрагментованих або розбитих на два фрагменти файлів, як правило, не становить проблем при цифрових дослідженнях. Тоді як карвінг файлів із високим рівнем фрагментації є однією з найбільш складних задач. Водночас при розслідуванні кримінальних проваджень і подоланні наслідків кібератак великий інтерес становлять електронні документи, з якими вели роботу особи на своїх робочих станціях. Тому один із напрямків, якому приділено увагу в даній дисертаційній роботі, є створення інформаційної технології карвінгу файлів електронних документів із високим рівнем фрагментації.
Об’єкт дослідження – процес відновлення файлів електронних документів із високим ступенем фрагментації за умов відсутності метаданих файлової системи, пов’язаних із блоками даних.
Предмет дослідження – моделі та методи інформаційної технології карвінгу файлів електронних документів із високим рівнем фрагментації.
Мета дослідження – підвищити ефективність карвінгу файлів електронних документів із високим рівнем фрагментації.
Наукова новизна отриманих результатів полягає в наступному:
- уперше розроблено моделі ідентифікації фрагментів файлів на основі багатошарових згорткових нейронних мереж із введенням додаткового відгалуження (голови) класифікатора з регуляризацією простору ознак та відновленням гіперсферичних контейнерів класів, що дозволило підвищити точністні показники класифікації блоків бінарних даних та виявляти блоки файлів нецільових типів;
- удосконалено модель класифікації блоків бінарних даних за рахунок введення адаптерів, що підлаштовуються на маржинальній ентропії, оціненій на виході нейромережі під час тестування, що дозволило підвищити точністні характеристики класифікатора на нових зразках блоків даних, що є мало представленими у навчальній вибірці;
- отримали подальшого розвитку методи реконструкції файлів OOXML за рахунок впровадження синтаксичних методів аналізу внутрішньої будови файлів, що забезпечує ефективний пошук розрізнених фрагментів OOXML-файлів у нерозподіленому просторі та відновлення цілісної структури файлів.
Результатом виконання даного дисертаційного дослідження також є розроблені в рамках запропонованої інформаційної технології карвінгу файлів електронних документів із високим рівнем фрагментації:
– онтологічна схема карвінгу для систематизації різних аспектів і підходів у розв’язанні задач карвінгу файлів;
– узагальнена та деталізована функціональні моделі процесу карвінгу файлів електронних документів із високим рівнем фрагментації;
– деталізована функціональна модель процесу оптимізації параметрів моделі ідентифікації блоків бінарних даних.
У ході проведення дисертаційного дослідження створено програмну реалізацію вище зазначеної інформаційної технології. До функціоналу розробленого програмного продукту входить здатність класифікувати блоки бінарних даних за типами, реконструювати файли документів OOXML та/або їх вміст, проводити пошук пропущених фрагментів фрагментованого файлу, а також визначати документи OOXML, які походять із одного першоджерела.
Результати наукових досліджень у вигляді методів і програмного забезпечення для роботи з файлами електронних документів та інформація щодо карвінгу файлів впроваджені та використовуються в діяльності та під час навчання експертів Експертної служби МВС. Окрім того, Науковою радою Експертної служби МВС схвалено та рекомендовано для впровадження в судово-експертну діяльність методичні рекомендації «Криміналістичне досліджування документів Microsoft Office і їхніх метаданих», де використано наукові результати зазначеного дисертаційного дослідження щодо роботи з файлами OOXML (протокол від 30.11.2023 № 82 засідання наукової ради Експертної служби МВС).
Також з метою автоматизації процесів карвінгу документів OOXML із високим рівнем фрагментації, обробки та аналізу файлів Microsoft Word, у діяльності Національного антикорупційного бюро України при проведенні цифрових досліджень і в навчальних цілях використовуються інформаційна технологія карвінгу файлів електронних документів із високим рівнем фрагментації, метод реконструкції файлів OOXML із високим рівнем фрагментації, що базується на аналізі внутрішньої будови цього типу файлів, а також програмне забезпечення для роботи з файлами OOXML.
У вступі обґрунтовано актуальність науково-прикладної задачі карвінгу файлів електронних документів із високим рівнем фрагментації та показано перелік наукових робіт світових дослідників у сфері, з якою є пов’язаною тематика даного дослідження.
У першому розділі здійснено аналітичний огляд сучасного стану та особливостей застосування інформаційних технологій при відновленні даних у сфері комп'ютерно-технічної експертизи. Зокрема проведено огляд особливостей застосування інформаційних технологій під час ідентифікації блоків бінарних даних і під час реконструкції файлів, відновленні їх вмісту та кластеризації. Також підбито підсумки вище зазначеного аналізу.
У другому розділі проведено аналіз процесу карвінгу файлів із високим рівнем фрагментації і обґрунтування вибору напрямків досліджень. Також представлено формалізовану постановку задачі дослідження, критерії оцінювання ефективності процесу карвінгу файлів, нові та удосконалені нейромережеві моделі для ідентифікації блоків бінарних даних і метод реконструкції файлів OOXML із високим рівнем фрагментації. У кінці підведено підсумки на основі отриманих результатів.
У третьому розділі представлено результати оптимізації параметрів розроблених нейромережевих моделей ідентифікації блоків бінарних даних, а також їх аналіз. Також показано особливості класифікації фрагментів файлів електронних документів як складених типів файлів. При цьому наведено деталі реалізації та аналіз результатів методу реконструкції файлів OOXML із високим рівнем фрагментації та підбито підсумки з одержаних результатів.
У четвертому розділі реалізовано інформаційну технологію карвінгу файлів електронних документів із високим рівнем фрагментації, наведено узагальнену та деталізовану функціональні моделі процесу карвінгу файлів електронних документів, а також деталізовану функціональну модель процесу оптимізації параметрів моделі ідентифікації блоків бінарних даних. Надалі в цьому розділі представлено програмну реалізацію інформаційної технології карвінгу файлів електронних документів із високим рівнем фрагментації та підбито підсумки.
Висновки містять наукові та практичні результати даного дисертаційного дослідження.
У додатках наведено наукові праці, в яких опубліковані основні наукові результати дисертації; наукові праці, які засвідчують апробацію матеріалів дисертації; наукові праці, які додатково відображають наукові результати дисертації; дані щодо апробації результатів дисертації; акти впровадження результатів дисертаційної роботи; лістинг програмного забезпечення. The dissertation is devoted to solving the problem of recovering highly fragmented data on users' workstations in the lack of file system metadata by developing and improving models and methods for information technology for carving files of electronic documents with a high level of fragmentation. The use of the proposed information technology makes it possible to increase the efficiency of carving the above data after attempts of destroying digital traces or cyberattacks. The analysis of scientific sources shows that data recovery is a technically complex task that depends on the file system, the character and manner of the user's actions when deleting data, the time that has passed since the events, etc. The most difficult cases occur when recovering files without file system metadata. Carving non-fragmented or two-fragmented files is generally not a problem in digital forensics. Instead, carving files with a high level of fragmentation is one of the most difficult tasks. At the same time, the investigation of criminal proceedings is of great interest to electronic documents stored on the workstations of the persons involved in the cases. Therefore, the development of information technology for carving files of electronic documents with a high level of fragmentation is one of the directions focused on in this thesis. The object of research is the process of recovering highly fragmented files of electronic documents in the lack of file system metadata associated with data blocks. The subject of the study is advanced models and methods of information technology for carving files of electronic documents with a high level of fragmentation. The goal of the study is to increase the efficiency of carving highly fragmented files of electronic documents. The scientific novelty of the results is as follows: – for the first time, models for file fragment identification based on multilayer convolutional neural networks have been developed, incorporating an additional classifier head with feature space regularization and reconstruction of hyperspherical class containers, which significantly improved classification accuracy for binary data blocks and detection of non-target file types; – the classification model for binary data blocks was improved through the introduction of adapters that adjust based on marginal entropy estimated at the neural network output during inference, which enabled enhanced accuracy on data block samples that are underrepresented in the training dataset; – methods for reconstructing OOXML files have been further advanced by introducing syntactical analysis techniques for examining the internal structure and content of files, enabling efficient identification of separate fragments of OOXML files in unallocated space and restoring the original file structure. The result of this dissertation research is also developed within the proposed information technology for carving files of electronic documents with a high level of fragmentation: - an ontological scheme of file carving for the systematization of various aspects and approaches to solving file carving tasks; - generalized and detailed functional models of the process of carving highly fragmented files of electronic documents; - a detailed functional model of the process of optimizing the parameters of the model for identifying binary data blocks. A software implementation of the above information technology was created as part of the dissertation research. The functionality of the developed software product includes the ability to classify binary data blocks by type, reconstruct OOXML document files and/or their contents, search for missing fragments of a fragmented file, and identify OOXML documents that originate from the same source. The results of scientific research in the form of methods and software for working with files of electronic documents and information on file carving are implemented and used in the work and training of experts of the Expert Service of the Ministry of Internal Affairs of Ukraine. In addition, the Scientific Board of the Expert Service of the Ministry of Internal Affairs of Ukraine approved and recommended for implementation in forensic activities the methodological recommendations "Forensic examination of Microsoft Office documents and their metadata," which uses the scientific results of the dissertation research on working with OOXML files (minutes No. 82 of the meeting of the Scientific Board of the Expert Service of the Ministry of Internal Affairs dated 30.11.2023). Also, to automate the processes of carving highly fragmented OOXML documents, processing and analyzing Microsoft Word files, the National Anti-Corruption Bureau of Ukraine uses information technology for carving highly fragmented files of electronic documents, a method of reconstructing highly fragmented OOXML files based on the analysis of their internal structure and content, as well as the software for handling OOXML files in its digital researches and for educational purposes. The introduction substantiates the relevance of the scientific and applied problem of carving files of electronic documents with a high level of fragmentation. Also, it shows a list of scientific works by world researchers in the field related to the subject of this study. The first section provides an analysis of the current state and peculiarities of the use of information technology in data recovery in digital forensics. In particular, the paper presents an overview of the specifics of information technology usage for identifying binary data blocks and reconstructing files, recovering their contents, and clustering. The results of the above analysis are also summarized. The second section analyzes the process of carving highly fragmented files and provides a reason for choosing research areas. It also presents a formalized statement of the research problem, criteria for evaluating the efficiency of the file carving process, new and improved neural network models for identifying binary data blocks, and a method for reconstructing highly fragmented OOXML files. Finally, it concludes based on the obtained results. The third section presents the results of optimizing the parameters of the developed neural network models for identifying binary data blocks, as well as their analysis. This section also shows the specifics of classifying fragments of electronic documents as compound file types. The details of the implementation and analysis of the results of the method for reconstructing highly fragmented OOXML files, and the results are summarized. The fourth section implements the information technology of carving files of electronic documents with a high level of fragmentation, presents generalized and detailed functional models of the process of carving highly fragmented files of electronic documents, as well as a detailed functional model of the process of optimizing the parameters of the model for identifying binary data blocks. Then, this section presents the software implementation of the information technology of carving files of electronic documents with a high level of fragmentation and summarizes the results. The conclusions contain the scientific and practical results of this dissertation research. The appendices contain scientific papers in which the main scientific results of the dissertation are published; scientific papers confirming the approbation of the dissertation materials; scientific papers that additionally show the scientific results of the dissertation; data on the approbation of the dissertation results; documents on the implementation of the dissertation results; software listing |
Appears in Collections: |
Дисертації |
Views
Downloads
Files
File | Size | Format | Downloads |
---|---|---|---|
Boiko_M_PhD_thesis.pdf | 4.26 MB | Adobe PDF | 0 |
Boiko_M_PhD_thesis.verified_Validation_Report.pdf | 50.55 kB | Adobe PDF | 0 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.