연속형과 범주형 변수가 혼합된 데이터의 군집분석 연구A Study on Cluster Analysis of Mixed Data with Continuous and Categorical Variables
- Other Titles
- A Study on Cluster Analysis of Mixed Data with Continuous and Categorical Variables
- Authors
- 한지수; 조형준
- Issue Date
- 2018
- Publisher
- 한국자료분석학회
- Keywords
- 명목형 변수; 혼합형 자료; 거리 측정; 계층적 군집분석.; nominal variable; mixed data; distance measure; hierarchical clustering.
- Citation
- Journal of The Korean Data Analysis Society, v.20, no.4, pp.1769 - 1780
- Indexed
- KCI
- Journal Title
- Journal of The Korean Data Analysis Society
- Volume
- 20
- Number
- 4
- Start Page
- 1769
- End Page
- 1780
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/80324
- DOI
- 10.37727/jkdas.2018.20.4.1769
- ISSN
- 1229-2354
- Abstract
- 연속형 변수와 범주형 변수가 함께 존재하는 혼합형 데이터의 군집분석에서 연속형 변수의 경우에 유클리디안 거리처럼 자연스럽게 거리를 정의할 수 있지만, 범주형 변수, 특히 순서가 없는 명목형 변수의 경우에 개체 간 거리 측정이 모호하여 종종 배제되었다. 개체 간 거리를 기반으로 하는 군집분석 방법에서 개체 간 거리의 정의는 매우 핵심적인 문제이므로 명목형 변수의 합리적 정의는 신뢰할 수 있는 군집분석 위해서는 중요한 요소이다. 따라서 두 가지 형태의 변수가 함께 존재하는 경우에 범주형 변수의 거리 측정을 위해 모형화를 위해 종종 이용되는 가변수 변환 방법, 범주의 일치 여부에 따라 0-1로 거리를 부여하는 Gower의 방법, 그리고 변수의 수준 개수 정보를 활용하는 Eskin의 방법 도입하여 혼합형 데이터에 거리를 측정할 수 있도록 군집 분석 결과를 비교하였다. 거리 정의 방법에 의존하지 않는 공정한 비교를 위해 세 가지 평가 측도를 이용하였다. 그 결과, 군집의 퍼짐 정도 및 군집 별 개체의 불균형한 상황에서 Eskin의 방법의 성능이 우수하였다. 또한, 군집의 응집성, 재현성, 군집의 개수 정확도 측면에서 Eskin의 방법이 더 나은 성능을 보였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - College of Political Science & Economics > Department of Statistics > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.