Research Article

Fuzzy K-means 군집분석을 위한 다양한 유효성 지수 개발

이수현¹ · 김재윤¹ · 정영선¹

¹ 전남대학교

발행: 2017년 8월 · 46권 4호 · pp. 1201-1226

DOI: https://doi.org/10.17287/kmr.2017.46.4.1201

본문 보기

초록

경영학 분야에서는 군집분석을 이용하여 동질적인 특성을 지닌 집단을 도출하고 이를 재무, 마케팅, 생산관리 분야 등에서 다양하게 활용하고 있다. 따라서 군집분석에 의한 군집화 결과는 기업의 가치를 극대화 시킬 수 있는 핵심자원의 역할을 하고 있다. 본 연구에서는 군집분석에서 필요한 군집화 결과의 유효성을 검증하는 군집화 유효성 지수(clustering validity index)의 개발에 관한 이론적 연구를 다루고자 한다. 구체적으로, 다양한 형태의 데이터에서 군집화의 유효성 검증 성능이 우수하다고 알려진 Dunn(DU) 지수, Calinski and Harabasz(CH) 지수, 그리고 Davies-Bouldin(DB) 지수들을 응집도와 분리도의 개념으로 분해하고, 각 CVI의 응집도 계산에 서포트 벡터 데이터 표현(support vector data description) 개념을 반영하여 새로운 CVI들을 제안하였다. 그리고 Fuzzy K-means 알고리즘으로 다양한 속성을 갖는 벤치마크 문제를 군집분석한 결과의 유효성을 검증하였다. 새로운 CVI들은 CH와 DB 지수의 약점을 개선하였음을 확인하였다. CH 지수는 노이즈와 비대칭 데이터에서 약점을 가지고 있었고, DB 지수는 부분군집과 임의형상 데이터에서 약점을 가지고 있었다. 본 연구를 통해 SVDD 개념을 CVI의 응집도에 반영할 수 있으며, 이를 반영한 새로운 CVI들은 군집화 유효성 검증에 효과적임을 확인할 수 있었다. 본 연구에서 제안한 CVI의 응집도 계산방법은 기존에 알려진 다양한 CVI의 응집도에 적용이 가능할 것으로 기대된다. 이는 군집분석 대상이 확대되고 연구가 다양해지고 있는 상황에서 군집분석 및 CVI의 이론 확장, 그리고 SVDD 적용범위 확장에 공헌할 것으로 기대된다.

키워드: 군집분석유효성 지수서포트 벡터 데이터 표현응집도퍼지 K-평균