Tendenza centrale vs dispersione
Nelle statistiche descrittive e inferenziali, diversi indici sono usati per descrivere un insieme di dati corrispondente alla sua tendenza centrale, dispersione e asimmetria: le tre proprietà più importanti che determinano la forma relativa della distribuzione di un set di dati.
Qual è la tendenza centrale?
La tendenza centrale si riferisce e individua il centro della distribuzione dei valori. Media, modo e mediana sono gli indici più comunemente utilizzati per descrivere la tendenza centrale di un set di dati. Se un set di dati è simmetrico, allora sia la mediana che la media del set di dati coincidono tra loro.
Dato un set di dati, la media viene calcolata prendendo la somma di tutti i valori dei dati e quindi dividendoli per il numero di dati. Ad esempio, i pesi di 10 persone (in chilogrammi) sono misurati in 70, 62, 65, 72, 80, 70, 63, 72, 77 e 79. Quindi il peso medio delle dieci persone (in chilogrammi) può essere calcolato come segue. La somma dei pesi è 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Media = (somma) / (numero di dati) = 710/10 = 71 (in chilogrammi). Resta inteso che i valori anomali (punti di dati che si discostano dalla tendenza normale) tendono ad influenzare la media. Pertanto, in presenza di valori anomali significa da solo non darà un'immagine corretta del centro del set di dati.
La mediana è il punto dati trovato nella metà esatta del set di dati. Un modo per calcolare la mediana è ordinare i punti dati in ordine ascendente, quindi individuare il punto dati nel mezzo. Ad esempio, se una volta ordinato il set di dati precedente assomiglia, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Pertanto, (70 + 72) / 2 = 71 è al centro. Da questo, si vede che la mediana non ha bisogno di essere nel set di dati. La mediana non è influenzata dalla presenza dei valori anomali. Quindi, la mediana servirà come misura migliore della tendenza centrale in presenza di valori anomali.
La modalità è il valore che si verifica più frequentemente nel set di dati. Nell'esempio precedente, entrambi i valori 70 e 72 si verificano entrambi, quindi entrambe sono modalità. Questo dimostra che, in alcune distribuzioni, c'è più di un valore modale. Se c'è una sola modalità, il set di dati è detto non univoco, in questo caso il set di dati è bimodale.
Cos'è la dispersione?
Dispersione è la quantità di diffusione dei dati sul centro della distribuzione. La gamma e la deviazione standard sono le misure di dispersione più comunemente utilizzate.
L'intervallo è semplicemente il valore più alto meno il valore più basso. Nell'esempio precedente, il valore più alto è 80 e il valore più basso è 62, quindi l'intervallo è 80-62 = 18. Ma l'intervallo non fornisce un'immagine sufficiente della dispersione.
Per calcolare la deviazione standard, vengono prima calcolate le deviazioni dei valori dei dati dalla media. La media quadrata delle deviazioni è chiamata deviazione standard. Nell'esempio precedente, le rispettive deviazioni dalla media sono (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 e (79 - 71) = 8. La somma di i quadrati di deviazione sono (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. La deviazione standard è √ (366/10) = 6,05 (in chilogrammi). A meno che il set di dati non sia molto distorto, da questo si può concludere che la maggior parte dei dati è nell'intervallo 71 ± 6,05, ed è proprio così in questo particolare esempio.
Qual è la differenza tra tendenza centrale e dispersione? • La tendenza centrale si riferisce e individua il centro della distribuzione dei valori • Dispersione è la quantità di diffusione dei dati sul centro di un set di dati.
|