Differenza tra regressione lineare e regressione logistica

Il differenza principale tra regressione lineare e regressione logistica è che il la regressione lineare viene utilizzata per prevedere un valore continuo mentre la regressione logistica viene utilizzata per prevedere un valore discreto.

I sistemi di apprendimento automatico possono prevedere risultati futuri basati sulla formazione di input passati. Esistono due tipi principali di apprendimento automatico chiamati apprendimento supervisionato e apprendimento non supervisionato. La regressione e la classificazione rientrano nell'apprendimento supervisionato mentre il clustering rientra nell'apprendimento non supervisionato. Gli algoritmi di apprendimento supervisionati utilizzano dati etichettati per addestrare il set di dati. La regressione lineare e la regressione logistica sono due tipi di algoritmi di apprendimento supervisionato. La regressione lineare viene utilizzata quando la variabile dipendente è continua e il modello è lineare. La regressione logistica viene utilizzata quando la variabile dipendente è discreta e il modello non lineare.

Aree chiave coperte

1. Cos'è la regressione lineare
     - Definizione, Funzionalità
2. Cos'è la regressione logistica
     - Definizione, Funzionalità
3. Differenza tra regressione lineare e regressione logistica
     - Confronto tra le principali differenze

Parole chiave

Regressione lineare, regressione logistica, apprendimento automatico

Cos'è la regressione lineare

La regressione lineare trova la relazione tra variabili indipendenti e dipendenti. Entrambi sono contigui. La variabile indipendente è la variabile che non viene modificata dalle altre variabili. È denotato da x. Possono anche esserci più variabili indipendenti come x1, x2, x3, ecc. Variabili dipendenti variano in base alla variabile indipendente ed è denotato da y.

Quando c'è una variabile indipendente, l'equazione di regressione è la seguente.

y = b0 + b1x

Ad esempio, supponiamo che x rappresenti la pioggia e y rappresenti la resa del raccolto.

Figura 1: regressione lineare

Il set di dati sarà come sopra. Quindi, viene selezionata una linea che copre la maggior parte dei punti dati. Questa linea rappresenta i valori previsti.

Figura 2: distanza tra i punti dati effettivi e i valori previsti

Quindi, la distanza da ciascun punto dati alla linea viene trovata come mostrato nel grafico sopra. Questa è la distanza tra il valore attuale e il valore previsto. Questa distanza è anche nota come errore o residui. La linea migliore dovrebbe avere la minima somma di quadrati di errori. Quando viene dato un nuovo valore di pioggia (x), è possibile trovare la resa di raccolto corrispondente (y) usando questa linea.  

Nel mondo reale, ci possono essere più variabili indipendenti (x1, x2, x3 ...). Questo è chiamato regressione lineare multipla. L'equazione di regressione lineare multipla è la seguente.

Cos'è la regressione logistica

La regressione logistica può essere utilizzata per classificare due classi. È anche conosciuto come classificazione binaria.  Controllare se un'e-mail è spam o non prevedere se un cliente acquisterà o meno un prodotto, prevedendo se è possibile ottenere o meno una promozione sono alcuni altri esempi di regressione logistica.

Figura 3: regressione logistica

Supponiamo che il numero di ore che uno studente ha studiato al giorno sia la variabile indipendente. A seconda di ciò, viene calcolata la probabilità di superare un esame. Il valore 0,5 considerato come soglia. Quando viene dato il nuovo numero di ore, è possibile trovare la probabilità corrispondente di superare l'esame usando questo grafico. Se la probabilità è superiore a 0,5, viene considerata come 1 o passata. Se la probabilità è inferiore a 0,5, viene considerata come 0 o fallita.

L'applicazione dell'equazione di regressione lineare alla funzione sigmoide darà l'equazione di regressione logistica.

La funzione sigmoide è    

Un altro punto importante da notare è che la regressione logistica è applicabile solo per classificare 2 classi. Non è usato per la classificazione multiclasse.

Differenza tra regressione lineare e regressione logistica

Definizione

La regressione lineare è un approccio lineare che modella la relazione tra una variabile dipendente e una o più variabili indipendenti. Al contrario, la regressione logistica è un modello statistico che predice la probabilità di un risultato che può avere solo due valori.

uso

Mentre la regressione lineare viene utilizzata per risolvere i problemi di regressione, la regressione logistica viene utilizzata per risolvere i problemi di classificazione (classificazione binaria).

Metodologia

La regressione lineare stima la variabile dipendente quando c'è una variazione nella variabile indipendente. La regressione logistica calcola la possibilità che si verifichi un evento. Questa è un'importante differenza tra regressione lineare e regressione logistica.

Valore di uscita

Inoltre, nella regressione lineare, il valore di uscita è continuo. Nella regressione logistica, il valore di uscita è discreto.

Modello

Sebbene la regressione lineare utilizzi una linea retta, la regressione logistica utilizza una curva S o una funzione sigmoide. Si tratta di un'altra importante differenza tra regressione lineare e regressione logistica.

Esempi

Prevedere il PIL di un paese, prevedere il prezzo del prodotto, prevedere il prezzo di vendita della casa, la previsione del punteggio sono alcuni esempi di regressione lineare. Prevedere se un'e-mail è spam o no, prevedere se la transazione con carta di credito è fraudolenta o meno, prevedere se un cliente prenderà un prestito o no sono alcuni esempi di regressione logistica.

Conclusione

La differenza tra regressione lineare e regressione logistica è che la regressione lineare viene utilizzata per prevedere un valore continuo mentre la regressione logistica viene utilizzata per prevedere un valore discreto. In breve, la regressione lineare viene utilizzata per la regressione mentre la regressione logistica viene utilizzata per la classificazione.

Riferimento:

1. Analisi di regressione lineare | Regressione lineare in Python | Algoritmi di apprendimento automatico | Simplilearn, 26 marzo 2018, disponibile qui.
2. Regressione logistica | Regressione logistica in Python | Algoritmi di apprendimento automatico | Simplilearn, 22 marzo 2018, disponibile qui.

Cortesia dell'immagine:

1. "Regressione lineare" di Sewaqu - Opera privata, dominio pubblico) tramite Commons Wikimedia
2. "Residui per regressione lineare in forma" Di Thomas.haslwanter - Opera propria (CC BY-SA 3.0) via Commons Wikimedia
3. "Logistic-curve" di Qef (talk) - Creato da zero con gnuplot (dominio pubblico) tramite Commons Wikimedia