Analyse hiérarchique en grappes
L'analyse en cluster hiérarchique est une méthode de regroupement qui crée un arbre hiérarchique ou un dendrogramme des objets à regrouper.
L'arbre représente les relations entre les objets et montre comment les objets sont regroupés à différents niveaux.
Exemple d'analyse en cluster hiérarchique
Exemple: Nous avons demandé aux gens combien d'heures par semaine ils passaient sur les plateformes de médias sociaux et à la salle de sport.
Nous voulons maintenant savoir s'il existe des clusters dans cet ensemble de données et effectuer une analyse de cluster hiérarchique.
Comment calcule-t-on une analyse en grappes hiérarchiques?
Tout d'abord, nous représentons les points dans un nuage de points.
Avec cela, nous pouvons maintenant commencer à créer les clusters. Dans la première étape, nous attribuons un cluster à chaque point. Nous avons donc autant de clusters que de personnes.
Le but est maintenant de fusionner petit à petit de plus en plus de clusters, jusqu'à ce que finalement tous les points soient dans un seul cluster.
À chaque étape, les clusters les plus proches sont toujours fusionnés. Que signifie "les plus proches"?
Pour cela, nous devons déterminer deux choses:
- Comment la distance entre deux points est mesurée.
- Comment les points d'un cluster sont connectés.
Distance entre deux points
Commençons par la question suivante: comment calculer la distance entre deux points? Voici les distances les plus connues:
- la distance euclidienne,
- la distance de Manhattan
- et la distance maximale.
Prenons la distance entre Max et Caro. La différence sur l'axe des y est de 1 et la différence sur l'axe des x est de 4.
Distance euclidienne
La distance euclidienne est la racine carrée de la somme des différences au carré.
Distance de Manhattan
La distance de Manhattan utilise la somme des différences absolues. Nous calculons donc simplement 4 plus 1 et gardons une distance de 5
Distance maximale
La distance maximale est simplement la valeur maximale des différences absolues. Dans ce cas, elle est de 4.
Méthode de liaison
Maintenant que nous connaissons les différentes manières de calculer les distances entre les points, nous devons déterminer comment relier les points au sein d'un cluster.
Disons que nous avons un cluster avec les points Joe et Lisa et un cluster avec Max et Caro. Maintenant, comment déterminer la distance entre ces deux clusters? Voici les méthodes les plus populaires:
- Single-linkage,
- Liaison complète
- et Average-linkage.
Single-linkage
Le Single-linkage utilise la distance entre les éléments les plus proches dans le cluster. Il s'agit de la distance entre Caro et Joe.
Liaison complète
Le lien complet utilise la distance entre les éléments les plus éloignés de la grappe. Donc entre Max et Joe.
Liaison moyenne
Le couplage moyen utilise la moyenne de toutes les distances par paire. La distance est calculée à partir de chaque combinaison et la moyenne à partir de celle-ci.
Exemple d'analyse de clusters hiérarchiques
Pour notre exemple, nous utilisons la distance euclidienne et la méthode du lien simple. Nous avons donc besoin de la distance entre chaque cluster et les autres clusters.
Pour cela, nous devons d'abord calculer la matrice de distance. Dans la matrice de distance, nous entrons les clusters sur les deux dimensions, puis nous calculons les distances de chaque cluster à chaque autre cluster.
La distance entre Alan et Lisa est donnée par:
Nous pouvons maintenant faire de même pour toutes les autres combinaisons jusqu'à ce que nous ayons calculé la matrice de distance totale. Nous pouvons maintenant fusionner les premiers clusters. Pour cela, nous regardons entre quels deux clusters nous avons la plus petite distance. C'est le cas entre Joe et Lisa.
Avec cela, nous combinons maintenant Joe et Lisa en un seul cluster. Dans notre diagramme en arbre ou dendrogramme, nous pouvons dessiner la première connexion.
Nous devons maintenant mettre à jour notre matrice de distance. Nous avons décidé d'utiliser la méthode du lien unique. Ainsi, la distance entre deux clusters est donnée par les éléments qui sont les plus proches les uns des autres. Pour les clusters Alan, Max et Caro, du cluster Lisa et Joe respectivement, Joe est toujours la personne la plus proche.
Nous calculons donc la distance entre Alan et Joe, la distance entre Max et Joe, et la distance entre Caro et Joe.
Maintenant, nous fusionnons à nouveau les clusters qui sont les plus proches. Ce sont Max et Alan.
Dans notre diagramme d'arbre ou dendrogramme, nous pouvons dessiner la deuxième connexion.
Maintenant, nous mettons à nouveau à jour la matrice de distance. Nous calculons la distance entre Alan et Joe, Caro et Joe et entre Caro et Alan. Nous obtenons la plus petite distance entre le cluster Caro et le cluster Lisa et Joe.
Nous connectons donc ces deux clusters et dessinons la troisième connexion dans le diagramme en arbre.
Il ne reste plus que deux clusters, et nous les fusionnons dans la dernière étape. Et nous obtenons notre dendrogramme terminé.
Calculer l'analyse de cluster hiérarchique avec DATAtab
Pour calculer une analyse en cluster hiérarchique en ligne, il suffit de visiter le calculateur de statistiques et de copier vos propres données dans le tableau ou d'utiliser le lien pour charger le jeu de données. Maintenant nous cliquons sur cluster et sélectionnons cluster hiérarchique.
Si nous cliquons maintenant sur Social Media et Gym, une analyse en cluster hiérarchique sera calculée pour nous. De plus, nous pouvons spécifier l'étiquette, dans notre cas les noms des personnes.
Nous pouvons maintenant spécifier quelle méthode de connexion doit être utilisée et comment la distance doit être calculée. Nous prenons simplement le Single linakge et la distance euclidienne à nouveau.
Maintenant, nous obtenons les résultats en bas. Nous voyons le diagramme en arbre, un diagramme de dispersion et le diagramme en coude. Dans le graphique du coude, nous pouvons maintenant lire combien de clusters nous prenons. Nous pouvons voir un nœud ici, donc nous allons prendre 4 comme nombre de clusters. Nous pouvons toujours les sélectionner ici et ensuite, dans le diagramme en arbre, nous avons les 4 clusters mis en évidence par des couleurs différentes. Nous voyons le premier cluster, le deuxième cluster, le troisième cluster et le quatrième cluster.