Creating the Educational Corpora of the War Lexicon: Scraping News of Opinion and Action in Ukraine
Date
2025
Journal Title
Journal ISSN
Volume Title
Publisher
Sumy State University
Відкриті освітні ресурси
Article
Date of Defense
Scientific Director
Speciality
Date of Presentation
Abstract
У цьому дослідженні описано способи укладання освітнього корпусу воєнної тематики та мануальні та програмні способи накопичення даних про війну в Україні. Корпус створено для того, щоб висвітлювати основні події та погляди на них в світі та Україні, від погляду на війну до спонукання до дій. Ми вивчаємо корпусні дослідження та впроваджуємо їх у освітній процес. Одним із напрямків дослідження є укладання українського військового корпусу (WCOA) в межах мультилінгвального корпусу для дослідження Європеїстики. Було укладено освітній корпус, який накопичували аспіранти Київського національного лінгвістичного університету. В процесі укладання корпусу були застосовані корпусні методи до обробки текстових даних. Оскільки Україна, на нашу точку зору, є майбутнім членом Європи (Асоціації), то ми вивчали європейську культуру та європейські цінності, європейську модель, європейські погляди та дії, що стали результатом реакції європейського суспільства на різні соціальні та воєнні виклики. У рамках наших досліджень нам вдалося зібрати бібліотеку думок (декларацій, меморандумів, конвенцій) та бібліотеку дій (реєстрація бомбардувань, нападів, воєнних злочинів, насильницької поведінки у воєнний час). Укладання освітнього корпусу WCOA аспіранти застосовали корпусний підхід, уклали бібліотеки текстів з карткою метаданих, які накопичувались в систему Microsoft teams. Метадані містили опис корпусної одиниці, було зазначення автора(ів) статті, список метаданих, що зазвичай враховує такі зазначені параметри як мова (наприклад, українська/англійська/німецька/французька), URL-адреса джерела, а формат статті зберігається в UTF-8. Ми пропонуємо створювати освітні дослідницькі корпуси, словники, бази даних словники на основі створеного підкорпусу WCOA.
This study presents the observation of the building of the new educational corpus, which aimed to capture the evolving war lexicon related to the war in Ukraine, with a particular focus on using computational techniques for corpus building, such as automatic scraping that enables future corpus analysis. As we can scrape limited sources due to technical limitations and copyright issues, we still try to compile the corpus automatically and semi-automatically using only open sources and using extracted elements, or libraries, only for educational purposes: learning MWUs, new terms, and understanding new opinions. As we follow the full-scale invasion of Ukraine, there has been a dramatic shift in public opinion, as the specific vocabulary has emerged, new memes of war have appeared, new ideological patterns have been added to our lexicon, and digital spaces have emerged to confront the enemy’s propaganda. This research aims to collect automatically, process automatically, and annotate semi-automaticallyreal-world language data from digital news media, where educators can find new opinion ideas and new platforms to support both linguistic interest and educational purposes. The resulting corpus not only facilitates empirical research in corpus linguisticsbut also serves as a splendid resource for teaching specific vocabulary, contextual meaning, and translation practices in war-related discourse. The study highlights methodological challenges in ensuring corpus representativeness and ethical concerns regarding data sensitivity and source attribution. It also underscores the importance of corpus-based resources for fostering linguistic awareness and digital literacy in contexts where language plays a critical role in shaping public opinion to support Ukraine. This study demonstrates how language technologies can support critical engagement with current events and provide tools for educational and linguistic analysis of the war lexicon.
This study presents the observation of the building of the new educational corpus, which aimed to capture the evolving war lexicon related to the war in Ukraine, with a particular focus on using computational techniques for corpus building, such as automatic scraping that enables future corpus analysis. As we can scrape limited sources due to technical limitations and copyright issues, we still try to compile the corpus automatically and semi-automatically using only open sources and using extracted elements, or libraries, only for educational purposes: learning MWUs, new terms, and understanding new opinions. As we follow the full-scale invasion of Ukraine, there has been a dramatic shift in public opinion, as the specific vocabulary has emerged, new memes of war have appeared, new ideological patterns have been added to our lexicon, and digital spaces have emerged to confront the enemy’s propaganda. This research aims to collect automatically, process automatically, and annotate semi-automaticallyreal-world language data from digital news media, where educators can find new opinion ideas and new platforms to support both linguistic interest and educational purposes. The resulting corpus not only facilitates empirical research in corpus linguisticsbut also serves as a splendid resource for teaching specific vocabulary, contextual meaning, and translation practices in war-related discourse. The study highlights methodological challenges in ensuring corpus representativeness and ethical concerns regarding data sensitivity and source attribution. It also underscores the importance of corpus-based resources for fostering linguistic awareness and digital literacy in contexts where language plays a critical role in shaping public opinion to support Ukraine. This study demonstrates how language technologies can support critical engagement with current events and provide tools for educational and linguistic analysis of the war lexicon.
Keywords
дослідницький корпус, воєнний корпус, погляди та дії, аспіранти, укладання корпусу, новини, база даних, web scraping,, corpus-based research, MWUs, corpus of war lexicon, WCOA
Citation
Anokhina T., Schvachko S., Kobyakova I., Melko K. (2025). Creating the Educational Corpora of the War Lexicon: Scraping News of Opinion and Action in Ukraine. Philological treatises17(2). 16-25. https://www.doi.org/10.21272/Ftrk.2025.17(2)-2
