Differenza tra albero delle decisioni e foresta casuale

Il differenza principale tra l'albero decisionale e la foresta casuale è quello un albero decisionale è un grafico che utilizza un metodo di ramificazione per illustrare ogni possibile risultato di una decisione mentre una foresta casuale è un insieme di alberi decisionali che fornisce il risultato finale in base ai risultati di tutti i suoi alberi decisionali.

L'apprendimento automatico è un'applicazione di Intelligenza Artificiale, che dà a un sistema la capacità di apprendere e migliorare in base all'esperienza passata. Albero decisionale e foresta casuale sono due tecniche di apprendimento automatico. Un albero decisionale mappa i possibili esiti di una serie di scelte correlate. È popolare perché è semplice e più facile da capire. Quando il set di dati diventa molto più grande, un singolo albero decisionale non è sufficiente per trovare la previsione. Una foresta casuale, che è una raccolta di alberi decisionali, è un'alternativa a questo problema. L'output della foresta casuale si basa sui risultati di tutti i suoi alberi decisionali.

Aree chiave coperte

1. Cos'è un Albero delle Decisioni
     - Definizione, Funzionalità, Esempi
2. Cos'è una foresta casuale
     - Definizione, Funzionalità, Esempi
3. Differenza tra albero delle decisioni e foresta casuale
     - Confronto tra le principali differenze

Parole chiave

Albero decisionale, apprendimento automatico, foresta casuale

Cos'è l'Albero delle Decisioni

Un albero decisionale è un diagramma a forma di albero che viene utilizzato per determinare una linea d'azione. Ogni ramo dell'albero rappresenta una possibile decisione, evento o reazione. 

Esistono diversi termini associati a un albero decisionale. L'entropia è la misura dell'imprevedibilità nel set di dati. Dopo aver diviso il set di dati, il livello di entropia diminuisce man mano che l'imprevedibilità diminuisce. Il guadagno di informazioni è la diminuzione dell'entropia dopo aver sputato il set di dati. È importante dividere i dati in modo tale che il guadagno di informazioni diventi più alto. Le decisioni finali o le classificazioni sono chiamate nodi foglia. Il nodo più in alto o il nodo principale è chiamato il nodo radice. Il set di dati deve essere diviso fino a quando l'entropia finale diventa zero.

Un semplice albero decisionale è il seguente.

Figura 1: Albero decisionale

Sopra l'albero decisionale classifica un insieme di frutti. Ci sono 4 chicchi d'uva, 2 mele e 2 arance. Quando si considera il diametro inferiore a 5, le uve vengono classificate in un lato mentre le arance e le mele si trovano nell'altro lato. L'uva non può essere classificata ulteriormente poiché ha zero entropia. Quando si categorizza in base al colore, cioè se il frutto è rosso o meno, le mele sono classificate in un lato mentre le arance sono classificate nell'altro lato. Pertanto, questo albero decisionale classifica una mela, un'uva o un'arancia con una precisione del 100%.

Nel complesso, un albero decisionale è semplice da capire, più facile da interpretare e visualizzare. Non richiede molta preparazione dei dati. Può gestire sia dati numerici che categoriali. D'altro canto, il rumore nei dati può causare un overfitting. Inoltre, il modello può anche diventare instabile a causa di piccole variazioni.

Cos'è la foresta casuale

La foresta casuale è un metodo che opera costruendo più alberi decisionali durante la fase di addestramento. Le decisioni della maggior parte degli alberi sono la decisione finale della foresta casuale. Un semplice esempio è il seguente.

Supponiamo che ci sia un insieme di frutti (ciliegie, mele e arance). Di seguito sono riportati i tre alberi decisionali che classificano questi tre tipi di frutta.

Figura 2: Albero decisionale 1

Figura 3: Albero decisionale 2

Figura 4: Albero decisionale 3

Un nuovo frutto il cui diametro è 3 è dato al modello. Questo frutto è di colore arancione e cresce in estate. Il primo albero decisionale lo classificherà come un'arancia. Il secondo albero decisionale lo classificherà come una ciliegia mentre il terzo albero decisionale lo classificherà come un'arancia. Quando si considerano tutti e tre gli alberi, ci sono due uscite per l'arancione. Pertanto, l'output finale della foresta casuale è un'arancia.

Nel complesso, la foresta casuale fornisce risultati accurati su un set di dati più grande. Riduce anche il rischio di sovralimentazione.

Differenza tra albero delle decisioni e foresta casuale

Definizione

Un albero decisionale è uno strumento di supporto alle decisioni che utilizza un grafico ad albero o un modello di decisioni e le loro possibili conseguenze, inclusi risultati di eventi casuali, costi delle risorse e utilità. Le foreste casuali sono un metodo di apprendimento dell'insieme che opera costruendo una moltitudine di alberi decisionali al momento dell'allenamento ed emettendo la classe in base ai singoli alberi.

sovradattamento

Esiste la possibilità di sovralimentazione in un albero decisionale. L'uso di più alberi nella foresta casuale riduce il rischio di sovralimentazione.

Precisione

Una foresta casuale fornisce risultati più precisi di un albero decisionale.

Complessità

Un albero decisionale è più semplice e più facile da capire, interpretare e visualizzare di una foresta casuale, che è relativamente più complessa.

Conclusione

La differenza tra albero decisionale e foresta casuale è che un albero decisionale è un grafico che utilizza un metodo di ramificazione per illustrare ogni possibile risultato di una decisione mentre una foresta casuale è un insieme di alberi decisionali che fornisce il risultato finale in base agli output di tutti i suoi alberi decisionali.

Riferimento:

1. Algoritmo della foresta casuale - La foresta casuale è stata spiegata | Foresta casuale nell'apprendimento automatico , Simplilearn, 12 marzo 2018, disponibile qui.