August 2, 2019 Comments(0) Uncategorized

    군집분석 예제

    클러스터 분석(Tryon, 1939년 처음 사용)이라는 용어는 유사한 종류의 객체를 각각의 범주로 그룹화하기 위한 다양한 알고리즘 및 방법을 포함합니다. 많은 조사 분야의 연구자들이 직면한 일반적인 질문은 관찰된 데이터를 의미 있는 구조, 즉 분류를 개발하는 방법으로 구성하는 방법입니다. 즉, 클러스터 분석은 동일한 그룹에 속하고 최소한의 경우 두 개체 간의 연결 정도가 최대인 방식으로 서로 다른 개체를 그룹으로 정렬하는 것을 목표로 하는 탐색적 데이터 분석 도구입니다. 위의 점을 감안할 때 클러스터 분석은 설명/해석을 제공하지 않고 데이터에서 구조를 검색하는 데 사용할 수 있습니다. 즉, 클러스터 분석은 단순히 존재하는 이유를 설명하지 않고 데이터의 구조를 검색합니다. 클러스터 분석은 자율 학습 기법이며 데이터의 실제 클러스터 수를 관찰할 수 없습니다. 그러나 “정확성”의 일반적인 개념 (감독 학습에 적용 가능)을 “거리”로 대체하는 것이 합리적입니다. 일반적으로 v-fold 교차 유효성 검사 메서드를 k-means 또는 EM 클러스터링의 범위에 적용하고 클러스터 센터에서 관측값의 결과 평균 거리(교차 유효성 검사 또는 테스트 샘플)를 관찰할 수 있습니다( k-평균 클러스터링); EM 클러스터링의 경우 적절한 동등한 측정값은 테스트 샘플의 관측값에 대해 계산된 평균 음수(log-) 우도입니다. 일반적으로 k-means 클러스터링 분석의 결과로 각 차원의 각 클러스터에 대한 수단을 검사하여 k 클러스터가 얼마나 구별되는지 평가합니다. 이상적으로, 우리는 분석에 사용되는 대부분의 경우, 모든 치수, 매우 다른 수단을 얻을 것이다.

    각 차원에서 수행된 분산 분석에서 F 값의 크기는 각 차원이 클러스터 간에 얼마나 잘 구별되는지를 나타내는 또 다른 지표입니다. 다음으로 클러스터 메서드를 선택해야 합니다. 일반적으로 선택 사항은 그룹 간 연결(클러스터 간 거리는 이러한 클러스터 내의 모든 데이터 포인트의 평균 거리), 가장 가까운 이웃(단일 연결: 클러스터 간의 거리는 두 데이터 포인트 사이의 가장 작은 거리) 이웃(전체 연결: 거리는 두 데이터 점 사이의 가장 큰 거리임) 및 와드 의 방법(거리는 모든 클러스터에서 샘플의 총평균까지의 거리)입니다. 단일 연결은 긴 클러스터 체인에서 가장 잘 작동하지만 전체 연결은 클러스터의 조밀한 Blob에서 가장 잘 작동합니다. 그룹 간 링크는 두 클러스터 유형모두에서 작동합니다. 먼저 단일 연결을 사용하는 것이 좋습니다. 단일 연결은 클러스터 체인을 만드는 경향이 있지만 이상값을 식별하는 데 도움이 됩니다. 이러한 이상값을 제외하면 와드의 방법으로 이동할 수 있습니다. 와드의 방법은 F 값(예: ANOVA)을 사용하여 클러스터 간의 차이의 중요성을 최대화합니다. 대화 상자 통계에서…

    근접 행렬(분석의 첫 번째 단계에서 계산된 거리)과 관찰에서 사례의 예측된 클러스터 멤버 자격을 출력할지 여부를 지정할 수 있습니다. 다시 말하지만, 우리는 기본값에 모든 설정을 둡니다. 예를 들어, 위의 예로 돌아가면, 의학 연구원은 체력의 유사한 측정의 특정 군집과 관련하여 유사한 환자의 클러스터를 식별할 수 있다.