Differenza tra clustering gerarchico e partizionale

Clustering gerarchico vs partizionale

Il clustering è una tecnica di apprendimento automatico per l'analisi dei dati e la suddivisione in gruppi di dati simili. Questi gruppi o gruppi di dati simili sono noti come cluster. L'analisi del cluster esamina gli algoritmi di clustering in grado di identificare automaticamente i cluster. Gerarchico e Partizionato sono due classi di algoritmi di clustering. Gli algoritmi di cluster gerarchici suddividono i dati in una gerarchia di cluster. Gli algoritmi parziali dividono il set di dati in partizioni disgiunte reciprocamente.

Cos'è il Clustering gerarchico?

Gli algoritmi di cluster gerarchici ripetono il ciclo di unire cluster più piccoli in quelli più grandi o di dividere i cluster più grandi in quelli più piccoli. Ad ogni modo, produce una gerarchia di cluster chiamata dendogramma. La strategia di clustering agglomerato utilizza l'approccio dal basso verso l'alto per unire i cluster in quelli più grandi, mentre la strategia di clustering divisivo utilizza l'approccio top-down per suddividere quelli più piccoli. In genere, l'approccio avido viene utilizzato per decidere quali cluster più grandi / più piccoli vengono utilizzati per la fusione / divisione. La distanza euclidea, la distanza di Manhattan e la somiglianza del coseno sono alcune delle metriche di somiglianza più comunemente utilizzate per i dati numerici. Per i dati non numerici, vengono utilizzate metriche come la distanza di Hamming. È importante notare che le osservazioni effettive (istanze) non sono necessarie per il clustering gerarchico, poiché è sufficiente solo la matrice delle distanze. Dendogram è una rappresentazione visiva dei cluster, che mostra la gerarchia molto chiaramente. L'utente può ottenere clustering diversi a seconda del livello di taglio del dendogramma.

Cos'è il Clustering parziale?

Gli algoritmi di clustering parziale generano varie partizioni e quindi li valutano secondo alcuni criteri. Sono anche indicati come non gerarchici poiché ogni istanza è collocata esattamente in uno dei cluster che si escludono a vicenda. Poiché solo un set di cluster è l'output di un tipico algoritmo di clustering partizionale, all'utente viene richiesto di immettere il numero desiderato di cluster (in genere denominato k). Uno degli algoritmi di clustering partizionale più comunemente usati è l'algoritmo di clustering k-means. L'utente è tenuto a fornire il numero di cluster (k) prima di iniziare e l'algoritmo avvia prima i centri (o centroidi) delle partizioni k. In poche parole, k-means algoritmo di clustering quindi assegna i membri in base ai centri attuali e ai centri di ricostituzione in base ai membri correnti. Queste due fasi vengono ripetute fino a quando non viene ottimizzata una determinata funzione obiettivo di similarità intra-cluster e la funzione obiettivo di dissomiglianza tra i cluster. Pertanto, l'inizializzazione sensata dei centri è un fattore molto importante per ottenere risultati di qualità dagli algoritmi di clustering partizionali.

Qual è la differenza tra Clustering gerarchico e partizionale?

Clustering gerarchico e partizionale presentano differenze chiave in termini di tempo di esecuzione, ipotesi, parametri di input e cluster risultanti. In genere, il clustering partizionale è più veloce del clustering gerarchico. Il clustering gerarchico richiede solo una misura di somiglianza, mentre il clustering partizionale richiede presupposti più forti come il numero di cluster e i centri iniziali. Il clustering gerarchico non richiede alcun parametro di input, mentre gli algoritmi di clustering partizionali richiedono l'avvio del numero di cluster. Il clustering gerarchico restituisce una divisione dei cluster molto più significativa e soggettiva, ma il clustering partizionale produce esattamente k cluster. Gli algoritmi di cluster gerarchici sono più adatti per i dati categoriali fintanto che una misura di similarità può essere definita di conseguenza.