Deviazione standard e varianza sono misure statistiche di dispersione di dati, cioè rappresentano quanta variazione ci sia dalla media, o in che misura i valori tipicamente "deviano" dalla media (media). Una varianza o deviazione standard di zero indica che tutti i valori sono identici.
La varianza è la media dei quadrati delle deviazioni (cioè, la differenza di valori dalla media) e la deviazione standard è la radice quadrata di tale varianza. La deviazione standard viene utilizzata per identificare i valori anomali nei dati.
Deviazione standard | Varianza | |
---|---|---|
Formula matematica | Radice quadrata di varianza | Media dei quadrati delle deviazioni di ciascun valore dalla media in un campione. |
Simbolo | Lettera greca sigma - σ | Nessun simbolo dedicato; espresso in termini di deviazione standard o altri valori. |
Valori in relazione al dato set di dati | Stessa scala dei valori nel set di dati specificato; quindi, espresso nelle stesse unità. | Scala più grande dei valori nel data set dato; non espresso nella stessa unità dei valori stessi. |
I valori sono negativi o positivi? | Sempre non negativo | Sempre non negativo |
Applicazione del mondo reale | Campionamento della popolazione; identificare i valori anomali | Formule statistiche, finanza. |
La formula per la deviazione standard e la varianza viene spesso espressa usando:
La varianza di un insieme di n valori ugualmente probabili possono essere scritti come:
La deviazione standard è la radice quadrata della varianza:
Le formule con lettere greche hanno un modo di guardare scoraggiante, ma questo è meno complicato di quanto sembri. Per dirla in semplici passaggi:
Questo dà la varianza. Prendi la radice quadrata della varianza per trovare la deviazione standard.
Questo eccellente video della Khan Academy spiega i concetti di varianza e deviazione standard:
Diciamo che un set di dati include l'altezza di sei denti di leone: 3 pollici, 4 pollici, 5 pollici, 4 pollici, 11 pollici e 6 pollici.
Per prima cosa, trova la media dei punti dati: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5
Quindi l'altezza media è di 5,5 pollici. Ora abbiamo bisogno delle deviazioni, quindi troviamo la differenza di ogni pianta dalla media: -2.5, -1.5, -.5, -1.5, 5.5, 1.5
Ora piazza ogni deviazione e trova la somma: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Ora dividere la somma dei quadrati per il numero di punti dati, in questo caso piante: 43,5 / 6 = 7,25
Quindi la varianza di questo set di dati è 7.25, che è un numero abbastanza arbitrario. Per convertirlo in una misurazione del mondo reale, prendi la radice quadrata di 7.25 per trovare la deviazione standard in pollici.
La deviazione standard è di circa 2,69 pollici. Ciò significa che per il campione, qualsiasi dente di leone entro i 2,69 pollici della media (5,5 pollici) è "normale".
Le deviazioni sono al quadrato per evitare che i valori negativi (deviazioni al di sotto della media) annullino i valori positivi. Funziona perché un numero negativo al quadrato diventa un valore positivo. Se si dispone di un semplice set di dati con deviazioni dalla media di +5, +2, -1 e -6, la somma delle deviazioni verrà azzerata se i valori non sono al quadrato (cioè 5 + 2 - 1 - 6 = 0).
La varianza è espressa come dispersione matematica. Dato che si tratta di un numero arbitrario rispetto alle misure originali dell'insieme di dati, è difficile da visualizzare e applicare in senso reale. Trovare la varianza di solito è solo il passo finale prima di trovare la deviazione standard. I valori di varianza sono talvolta utilizzati in finanza e formule statistiche.
La deviazione standard, espressa nelle unità originali dell'insieme di dati, è molto più intuitiva e più vicina ai valori del set di dati originale. È più spesso utilizzato per analizzare dati demografici o campioni di popolazione per ottenere un senso di ciò che è normale nella popolazione.
In una distribuzione normale, circa il 68% della popolazione (o valori) rientra in una deviazione standard (1σ) della media e circa il 94% si trova entro 2σ. I valori che differiscono dalla media di 1,7σ o più sono generalmente considerati valori anomali.
In pratica, i sistemi di qualità come Six Sigma tentano di ridurre il tasso di errori in modo che gli errori diventino anomali. Il termine "processo six sigma" deriva dal concetto che se si hanno sei deviazioni standard tra la media del processo e il limite delle specifiche più vicine, praticamente nessun articolo non riuscirà a soddisfare le specifiche.[1]
Nelle applicazioni del mondo reale, i set di dati utilizzati di solito rappresentano campioni di popolazione, piuttosto che intere popolazioni. Una formula leggermente modificata viene utilizzata se le conclusioni a livello di popolazione devono essere tratte da un campione parziale.
Viene utilizzata una "deviazione standard del campione" se tutto ciò che si ha è un campione, ma si desidera fare una dichiarazione sulla deviazione standard della popolazione da cui viene estratto il campione
L'unico modo in cui la formula di deviazione standard del campione differisce dalla formula della deviazione standard è il "-1" nel denominatore.
Usando l'esempio di tarassaco, questa formula sarebbe necessaria se campionassimo solo 6 denti di leone, ma volevamo usare quel campione per indicare la deviazione standard per l'intero campo con centinaia di denti di leone.
La somma dei quadrati sarebbe ora divisa per 5 anziché 6 (n - 1), il che dà una varianza di 8.7 (anziché di 7.25), e una deviazione standard campione di 2.95 pollici, invece di 2.69 pollici per la deviazione standard originale. Questo cambiamento viene utilizzato per trovare un margine di errore in un campione (9% in questo caso).