Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

연속형과 범주형 변수가 혼합된 데이터의 군집분석 연구A Study on Cluster Analysis of Mixed Data with Continuous and Categorical Variables

Other Titles
A Study on Cluster Analysis of Mixed Data with Continuous and Categorical Variables
Authors
한지수조형준
Issue Date
2018
Publisher
한국자료분석학회
Keywords
명목형 변수; 혼합형 자료; 거리 측정; 계층적 군집분석.; nominal variable; mixed data; distance measure; hierarchical clustering.
Citation
Journal of The Korean Data Analysis Society, v.20, no.4, pp.1769 - 1780
Indexed
KCI
Journal Title
Journal of The Korean Data Analysis Society
Volume
20
Number
4
Start Page
1769
End Page
1780
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/80324
DOI
10.37727/jkdas.2018.20.4.1769
ISSN
1229-2354
Abstract
연속형 변수와 범주형 변수가 함께 존재하는 혼합형 데이터의 군집분석에서 연속형 변수의 경우에 유클리디안 거리처럼 자연스럽게 거리를 정의할 수 있지만, 범주형 변수, 특히 순서가 없는 명목형 변수의 경우에 개체 간 거리 측정이 모호하여 종종 배제되었다. 개체 간 거리를 기반으로 하는 군집분석 방법에서 개체 간 거리의 정의는 매우 핵심적인 문제이므로 명목형 변수의 합리적 정의는 신뢰할 수 있는 군집분석 위해서는 중요한 요소이다. 따라서 두 가지 형태의 변수가 함께 존재하는 경우에 범주형 변수의 거리 측정을 위해 모형화를 위해 종종 이용되는 가변수 변환 방법, 범주의 일치 여부에 따라 0-1로 거리를 부여하는 Gower의 방법, 그리고 변수의 수준 개수 정보를 활용하는 Eskin의 방법 도입하여 혼합형 데이터에 거리를 측정할 수 있도록 군집 분석 결과를 비교하였다. 거리 정의 방법에 의존하지 않는 공정한 비교를 위해 세 가지 평가 측도를 이용하였다. 그 결과, 군집의 퍼짐 정도 및 군집 별 개체의 불균형한 상황에서 Eskin의 방법의 성능이 우수하였다. 또한, 군집의 응집성, 재현성, 군집의 개수 정확도 측면에서 Eskin의 방법이 더 나은 성능을 보였다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
College of Political Science & Economics > Department of Statistics > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher CHO, HYUNG JUN photo

CHO, HYUNG JUN
정경대학 (통계학과)
Read more

Altmetrics

Total Views & Downloads

BROWSE