spss 군집분석 예제

이것은 가장 간단한 방법이므로 클러스터가 형성되는 방식(및 프로세스의 계층적 특성)의 기본 원칙을 이해하는 데 좋은 출발점입니다. 기본 개념은 다음과 같습니다: 1. 각 사례는 클러스터로 시작됩니다. 2. 케이스 쌍 간의 유사성 계수(예: 상관 관계 또는 유클리드 거리)를 살펴보면서 가장 유사한 두 사례/클러스터(예: A 및 B)를 찾습니다. 유사성이 가장 높은 케이스/클러스터는 병합되어 더 큰 클러스터의 핵을 형성합니다. 3. 이 큰 클러스터와 병합할 다음 사례/클러스터 © A 또는 B. 4와 가장 높은 유사성 계수를 가진 클러스터입니다. 병합된 다음 사례는 A, B 또는 C와 가장 높은 유사성을 가진 케이스입니다. 그림 2는 SAQ의 요인에 대한 응답의 두 가지 예를 보여줍니다.

두 다이어그램에서 두 사람 (Zippy 및 George)은 비슷한 프로파일을 가지고 있습니다 (선은 평행합니다). 따라서 두 그래프의 결과 상관 계수는 동일합니다(실제로 1의 완벽한 상관 관계를 얻을 수 있음). 그러나 두 프로파일 사이의 거리는 두 번째 그래프에서 훨씬 더 큽니다(입면이 더 높음). 따라서 첫 번째 그래프의 사람들이 두 번째 그래프의 두 사람보다 더 유사하다고 결론을 내리는 것이 합리적일 수 있지만 상관 계수는 동일합니다. 따라서 상관 계수는 중요한 정보를 놓칩니다. 계층 적 클러스터는 가장 일반적인 방법입니다. 클러스터 솔루션이 1개(한 클러스터의 모든 경우)에서 n(각 사례는 개별 클러스터)까지 일련의 모델을 생성합니다. 계층적 클러스터는 대/소풍이 아닌 변수에서도 작동합니다. 요인 분석과 다소 유사한 방식으로 변수를 클러스터링할 수 있습니다.

또한 계층적 클러스터 분석은 공칭, 서수 및 배율 데이터를 처리할 수 있습니다. 그러나 다른 수준의 측정을 혼합하는 것은 권장되지 않습니다. 일단 다시 기본 대화 상자에, 저장 을 클릭하여 저장 대화 상자를 선택할 수 있습니다 …. 이 대화 상자를 사용하면 클러스터에 대한 멤버 자격을 나타내는 코딩 값이 포함된 새 변수를 데이터 편집기로 저장할 수 있습니다. 따라서 이 변수를 사용하여 동일한 클러스터에 속하는 사례를 알 수 있습니다. 기본적으로 SPSS는 이 변수를 만들지 않습니다. 이 예제에서는 DSM-IV 분류(GAD, 우울증 및 강박 장애)를 기반으로 하는 세 개의 사용자 클러스터를 예상하므로 단일 솔루션을 선택한 다음 빈 공간에 3을 입력할 수 있습니다(그림 8 참조). 실제로 일반적으로 이 옵션을 선택하지 않고 클러스터 분석을 실행한 다음 결과 덴드로그램을 검사하여 데이터 내에 있는 실질적인 클러스터 수를 설정하는 것이 일반적으로 수행됩니다.