Deviazione standard vs. varianza

Deviazione standard e varianza sono misure statistiche di dispersione di dati, cioè rappresentano quanta variazione ci sia dalla media, o in che misura i valori tipicamente "deviano" dalla media (media). Una varianza o deviazione standard di zero indica che tutti i valori sono identici.

La varianza è la media dei quadrati delle deviazioni (cioè, la differenza di valori dalla media) e la deviazione standard è la radice quadrata di tale varianza. La deviazione standard viene utilizzata per identificare i valori anomali nei dati.

Grafico comparativo

Tabella di confronto tra deviazione standard e varianza
Deviazione standardVarianza
Formula matematica Radice quadrata di varianza Media dei quadrati delle deviazioni di ciascun valore dalla media in un campione.
Simbolo Lettera greca sigma - σ Nessun simbolo dedicato; espresso in termini di deviazione standard o altri valori.
Valori in relazione al dato set di dati Stessa scala dei valori nel set di dati specificato; quindi, espresso nelle stesse unità. Scala più grande dei valori nel data set dato; non espresso nella stessa unità dei valori stessi.
I valori sono negativi o positivi? Sempre non negativo Sempre non negativo
Applicazione del mondo reale Campionamento della popolazione; identificare i valori anomali Formule statistiche, finanza.

Contenuto: Deviazione standard vs Varianza

  • 1 concetti importanti
  • 2 simboli
  • 3 formule
  • 4 Esempio
    • 4.1 Perché quadrare le deviazioni?
  • 5 applicazioni del mondo reale
    • 5.1 Ricerca di valori anomali
  • 6 Deviazione standard del campione
  • 7 riferimenti

Concetti importanti

  • Significare: la media di tutti i valori in un set di dati (aggiungi tutti i valori e dividi la loro somma per il numero di valori).
  • Deviazione: la distanza di ogni valore dalla media. Se la media è 3, un valore di 5 ha una deviazione di 2 (sottrarre la media dal valore). La deviazione può essere positiva o negativa.

simboli

La formula per la deviazione standard e la varianza viene spesso espressa usando:

  • x̅ = media o media di tutti i punti di dati nel problema
  • X = un singolo punto dati
  • N = il numero di punti nel set di dati
  • Σ = la somma di [i quadrati delle deviazioni]

formule

La varianza di un insieme di n valori ugualmente probabili possono essere scritti come:

La deviazione standard è la radice quadrata della varianza:

Le formule con lettere greche hanno un modo di guardare scoraggiante, ma questo è meno complicato di quanto sembri. Per dirla in semplici passaggi:

  1. trova la media di tutti i punti dati
  2. scoprire fino a che punto ogni punto è lontano dalla media (questa è la deviazione)
  3. quadrare ogni deviazione (cioè la differenza di ogni valore dalla media)
  4. dividere la somma dei quadrati per il numero di punti.

Questo dà la varianza. Prendi la radice quadrata della varianza per trovare la deviazione standard.

Questo eccellente video della Khan Academy spiega i concetti di varianza e deviazione standard:

Esempio

Diciamo che un set di dati include l'altezza di sei denti di leone: 3 pollici, 4 pollici, 5 pollici, 4 pollici, 11 pollici e 6 pollici.

Per prima cosa, trova la media dei punti dati: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5

Quindi l'altezza media è di 5,5 pollici. Ora abbiamo bisogno delle deviazioni, quindi troviamo la differenza di ogni pianta dalla media: -2.5, -1.5, -.5, -1.5, 5.5, 1.5

Ora piazza ogni deviazione e trova la somma: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5

Ora dividere la somma dei quadrati per il numero di punti dati, in questo caso piante: 43,5 / 6 = 7,25

Quindi la varianza di questo set di dati è 7.25, che è un numero abbastanza arbitrario. Per convertirlo in una misurazione del mondo reale, prendi la radice quadrata di 7.25 per trovare la deviazione standard in pollici.

La deviazione standard è di circa 2,69 pollici. Ciò significa che per il campione, qualsiasi dente di leone entro i 2,69 pollici della media (5,5 pollici) è "normale".

Perché piazza le deviazioni?

Le deviazioni sono al quadrato per evitare che i valori negativi (deviazioni al di sotto della media) annullino i valori positivi. Funziona perché un numero negativo al quadrato diventa un valore positivo. Se si dispone di un semplice set di dati con deviazioni dalla media di +5, +2, -1 e -6, la somma delle deviazioni verrà azzerata se i valori non sono al quadrato (cioè 5 + 2 - 1 - 6 = 0).

Applicazioni del mondo reale

La varianza è espressa come dispersione matematica. Dato che si tratta di un numero arbitrario rispetto alle misure originali dell'insieme di dati, è difficile da visualizzare e applicare in senso reale. Trovare la varianza di solito è solo il passo finale prima di trovare la deviazione standard. I valori di varianza sono talvolta utilizzati in finanza e formule statistiche.

La deviazione standard, espressa nelle unità originali dell'insieme di dati, è molto più intuitiva e più vicina ai valori del set di dati originale. È più spesso utilizzato per analizzare dati demografici o campioni di popolazione per ottenere un senso di ciò che è normale nella popolazione.

Trovare valori anomali

Una distribuzione normale (curva a campana) con bande corrispondenti a 1σ

In una distribuzione normale, circa il 68% della popolazione (o valori) rientra in una deviazione standard (1σ) della media e circa il 94% si trova entro 2σ. I valori che differiscono dalla media di 1,7σ o più sono generalmente considerati valori anomali.

In pratica, i sistemi di qualità come Six Sigma tentano di ridurre il tasso di errori in modo che gli errori diventino anomali. Il termine "processo six sigma" deriva dal concetto che se si hanno sei deviazioni standard tra la media del processo e il limite delle specifiche più vicine, praticamente nessun articolo non riuscirà a soddisfare le specifiche.[1]

Deviazione standard del campione

Nelle applicazioni del mondo reale, i set di dati utilizzati di solito rappresentano campioni di popolazione, piuttosto che intere popolazioni. Una formula leggermente modificata viene utilizzata se le conclusioni a livello di popolazione devono essere tratte da un campione parziale.

Viene utilizzata una "deviazione standard del campione" se tutto ciò che si ha è un campione, ma si desidera fare una dichiarazione sulla deviazione standard della popolazione da cui viene estratto il campione

L'unico modo in cui la formula di deviazione standard del campione differisce dalla formula della deviazione standard è il "-1" nel denominatore.

Usando l'esempio di tarassaco, questa formula sarebbe necessaria se campionassimo solo 6 denti di leone, ma volevamo usare quel campione per indicare la deviazione standard per l'intero campo con centinaia di denti di leone.

La somma dei quadrati sarebbe ora divisa per 5 anziché 6 (n - 1), il che dà una varianza di 8.7 (anziché di 7.25), e una deviazione standard campione di 2.95 pollici, invece di 2.69 pollici per la deviazione standard originale. Questo cambiamento viene utilizzato per trovare un margine di errore in un campione (9% in questo caso).

Riferimenti

  • Semplice esempio di calcolo della deviazione standard - AppSpot
  • Formule di deviazione standard - La matematica è divertente
  • Deviazione assoluta e scostamento - Statistiche di Laerd
  • Deviazione standard e scostamento - La matematica è divertente
  • Wikipedia: deviazione standard
  • Wikipedia: Varianza # Proprietà
  • Range, varianza e deviazione standard come misure di dispersione - Khan Academy
  • Modalità, media e mezzi: una prospettiva unitaria