Кластерний аналіз соціально-економічних детермінант здоров’я

Койбічук, Віталія Василівна; Дрозд, Сергій Анатолійович

Please use this identifier to cite or link to this item: https://essuir.sumdu.edu.ua/handle/123456789/88731

Or use following links to share this resource in social networks: Recommend this item

Title	Кластерний аналіз соціально-економічних детермінант здоров’я
Other Titles	Cluster analysis of social and economic determinants of health
Authors	Koibichuk, Vitaliia Vasylivna Drozd, Serhii Anatoliiovych
ORCID	http://orcid.org/0000-0002-3540-7922 http://orcid.org/0000-0002-0716-3078
Keywords	кластерний аналіз кластерный анализ cluster analysis коефіцієнт людської нерівності коэффициент человеческого неравенства coefficient of human inequality коефіцієнт Джині коэффициент Джини Gini coefficient метод Уорда Ward's method валовий національний дохід валовой национальный доход gross national income загальна кількість населення общая численность населения total population індекс освіти индекс образования education index
Type	Article
Date of Issue	2022
URI	https://essuir.sumdu.edu.ua/handle/123456789/88731
Publisher	Причорноморський науково-дослідний інститут економіки та інновацій
License	Copyright not evaluated
Citation	Койбічук В. В., Дрозд С. А. Кластерний аналіз соціально-економічних детермінант здоров’я // Причорноморські економічні студії. 2022. Вип. 75. С. 102-108
Abstract	Кластеризація даних є одним з найпопулярніших методів пошуку подібності статистичних даних в одному кластері даних та водночас відмінності даних в інших кластерах даних. Використання даного методу обумовлена кількістю статистичних даних які використовуються в процесі дослідження. Метою дослідження є здійснення кластерного аналізу для розподілу країн на групи за показниками: коефіцієнтом людської нерівності, коефіцієнтом Джині, нерівністю в очікуваній тривалості життя, очікуваній тривалості життя при народженні, валовим національним доходом, індексом очікуваної тривалості життя з поправкою на нерівність, загальною кількістю населення, міським населенням, індексом освіти, населенням віком від 15 до 64 років. Методика дослідження ґрунтуються на застосуванні методів аналізу даних з відкритих джерел за допомогою програмного забезпечення такого як Statgraphics Centurion та Microsoft Excel. У процесі дослідження використовувались методи компаративного аналізу, систематизації, логічного узагальнення, бібліометричного аналізу (з використанням інструментарію ScientoPy), кластерного та дискримінатного аналізу (з використанням інструментарію Statgraphics Centurion). Результати. Виявлено за допомогою формули Стерджеса необхідну кількість кластерів розподілу даних, також підтверджено оптимальну кількість кластерів за допомогою проміжків агломерації. Створено списки країн, що входять до кожного кластеру. Розроблено регресійну модель інструментарієм дискримінантного аналізу, за допомогою якої визначено вплив кожного індикатора в процедурі кластерізації даних. Значущість дискримінантних функцій обґрунтовано статистикою Лямбда Уілкса та рівнем значущості P-value, розрахованими за допомогою інструментарію Statgraphics Centurion. Кластеризация данных является одним из самых популярных методов поиска подобия статистических данных в одном кластере данных и одновременно отличия данных в других кластерах данных. Использование данного метода обусловлено количеством статистических данных, используемых в процессе исследования. Целью исследования является осуществление кластерного анализа для распределения стран на группы по показателям: коэффициентом человеческого неравенства, коэффициентом Джинни, неравенством в ожидаемой продолжительности жизни, ожидаемой продолжительности жизни при рождении, валовым национальным доходом, индексом ожидаемой продолжительности жизни с поправкой на неравенство, общим количеством населения, городским населением, индексом образования, населением в возрасте от 15 до 64 лет. Методика исследования основана на применении методов анализа данных из открытых источников с помощью программного обеспечения, такого как Statgraphics Centurion и Microsoft Excel. В процессе исследования использовались методы компаративного анализа, систематизации, логического обобщения, библиометрического анализа (с использованием инструментария ScientoPy), кластерного и дискриминального анализа (с использованием инструментария Statgraphics Centurion). Результаты. Выявлено с помощью формулы Стерджеса необходимое количество кластеров распределения данных, также подтверждено оптимальное количество кластеров с помощью промежутков агломерации. Созданы списки стран, входящих в каждый кластер. Разработана регрессионная модель инструментарием дискриминантного анализа, посредством которой определено влияние каждого индикатора в процедуре кластеризации данных. Значимость дискриминантных функций обусловлена статистикой Лямбда Уилкса и уровнем значимости P-value, рассчитанными с помощью инструментария Statgraphics Centurion. Data clustering is one of the most popular methods of search based on machine learning in the blind, the similarity of statistics in one data cluster and at the same time the differences in data in other data clusters. The use of this method is due to the amount of statistics used in the research process and the high speed of such analysis. Finding similar countries by type of development will make it possible to identify those statistics that give intra-cluster similarity of data, the difference between the data between clusters. The aim of the study is to find similar groups of countries that can be attributed to each other and determine the strength of the impact of each statistical indicator on the creation of a group of countries. The research methodology is based on the use of open source data analysis techniques using software such as Statgraphics Centurion and Microsoft Excel. The research used methods of comparative analysis, systematization, logical generalization, bibliometric analysis (using ScientoPy tools), cluster and discriminant analysis (using Statgraphics Centurion tools). Results. Work on the analysis of recent publications on cluster analysis methods according to the Scopus scientometric database has generated a cloud of keywords that help to see the scope of cluster analysis methods in the scientific world. Analyzed the data of Human Development Index (HDI) statistical databases and took the 10 most relevant indicators in the opinion of the authors. The required number of clusters for the data was identified using the Sturgess formula. Lists of countries included in each cluster have been created. The determined regression formula of the discriminant analysis function with its help is determined in the influence of each indicator on the created data cluster. The significance of discriminant functions is substantiated by Lambd Wilks and the significance level of P-value calculated using the Statgraphics Centurion toolkit. The results of cluster distribution can be used in the process of state development to find the optimal static values to which the development of the state should be directed. To make the transition of underdeveloped countries to more developed groups. The obtained data will be used for further in-depth analysis of data and finding new patterns in the development of the world.
Appears in Collections:	Наукові видання (ННІ БіЕМ)