Qual è la differenza tra Data Mining e Data Warehousing

La principale differenza tra data mining e data warehousing è questa il data mining è il processo di identificazione dei pattern da un'enorme quantità di dati mentre il data warehousing è il processo di integrazione dei dati da più fonti di dati in una posizione centrale.

Il data mining è il processo di scoperta di modelli in grandi serie di dati. Utilizza varie tecniche come la classificazione, la regressione, ecc. Per prendere decisioni aziendali. D'altro canto, il data warehousing è il processo di estrazione, trasformazione e caricamento dei dati da più origini dati nel data warehouse. Le tecniche di data mining possono essere applicate a un data warehouse per scoprire schemi utili.

Aree chiave coperte

1. Che cos'è il data mining
     - Definizione, Funzionalità
2. Cos'è il Data Warehousing
     - Definizione, Funzionalità
3. Differenza tra data mining e data warehouse
    - Confronto tra le principali differenze

Parole chiave

Data Mining, Data Warehousing, Dati

Che cos'è il data mining

Il data mining è il processo di scoperta dei pattern in un set di dati di grandi dimensioni. In altre parole, il data mining estrae nuovi schemi, relazioni tra entità di dati. I dati estratti dovrebbero essere nuovi, corretti e dovrebbero avere un potenziale utilizzo.

Il processo di estrazione di informazioni utili dai dati comprende diversi passaggi. Il primo passo è la selezione dei dati. I dati provengono da più fonti e hanno più formati. Pertanto, tutti i dati sono integrati e memorizzati in un'unica posizione denominata data warehouse. Il secondo passo è la pre-elaborazione. Si tratta di riassumere, normalizzare e aggregare. Queste trasformazioni aiutano a rendere i dati adatti per il data mining. Il terzo passo è il data mining. Utilizza tecniche o algoritmi come clustering, regressione, classificazione per estrarre pattern dei dati. Il quarto passo è la valutazione del modello. Controlla la precisione dell'output ottenuto. Il passo finale è rappresentare i risultati utilizzando i grafici.

Figura 1: data mining

Le principali tecniche per eseguire il data mining sono il rilevamento delle anomalie, il mining delle regole di associazione, il clustering, la classificazione e la regressione. In primo luogo, il rilevamento delle anomalie aiuta a identificare modelli insoliti per comprendere la variazione dei dati. In secondo luogo, il mining delle regole di associazione aiuta a trovare modelli di associazione interessanti tra le variabili. In terzo luogo, il clustering identifica classi di dati che sono simili tra loro. In quarto luogo, la classificazione identifica le classi a cui appartiene un'osservazione. Infine, le regressioni aiutano a trovare la relazione tra le variabili. Queste sono le principali tecniche utilizzate nel data mining.

Cos'è il Data Warehousing

In un'organizzazione aziendale, i dati sono in vari database. Innanzitutto, i dati provenienti da più fonti vengono estratti e trasformati. Quindi, vengono caricati in una posizione centrale chiamata data warehouse. Il data warehousing è il processo di caricamento dei dati da varie fonti di dati in un data warehouse. Quindi possono essere applicate varie strategie per analizzare i dati per supportare gli utenti finali a prendere decisioni di business. Inoltre, i dati nel data warehouse possono essere suddivisi in data mart. Questi data mart contengono dati per un particolare gruppo di utenti. Ad esempio, il dipartimento delle risorse umane può utilizzare il proprio data mart. Il reparto vendite può utilizzare il punto vendita e così via.  

Figura 2: Data Warehouse

I data warehouse sono orientati al soggetto, integrati, varianti temporali e non volatili. Un data warehouse è orientato al soggetto. Fornisce conoscenze su un argomento rispetto alle operazioni in corso. È integrato perché consolida i dati da varie fonti di dati. I dati del magazzino forniscono informazioni relative a un periodo di tempo specifico. Quindi, è la variante del tempo. Infine, fornisce non volatilità perché, dopo aver caricato i dati nel magazzino, i dati non devono essere cancellati o aggiornati. In breve, il data warehousing è utile per prendere decisioni per l'organizzazione.

Differenza tra data mining e data warehouse

Definizione

Il data mining è il processo di scoperta di modelli in grandi serie di dati che coinvolgono metodi all'intersezione di apprendimento automatico, statistiche e sistemi di database. Il data warehousing è il processo di estrazione, trasformazione e caricamento dei dati da più origini dati in una posizione centrale denominata data warehouse.  

Processi

Nel data mining, i dati vengono analizzati regolarmente. I dati vengono memorizzati periodicamente nel data warehousing.

Dati

Il data mining analizza un campione di dati mentre il data warehousing memorizza un'enorme quantità di dati.

uso

Il data mining scopre modelli nei dati per un migliore processo decisionale. D'altra parte, il data warehousing fornisce un meccanismo per un'organizzazione per memorizzare una quantità enorme di dati.

Conclusione

La differenza tra data mining e data warehousing è che il data mining è il processo di identificazione dei pattern da un'enorme quantità di dati mentre il data warehousing è il processo di integrazione dei dati da più fonti di dati in una posizione centrale. Di solito, gli ingegneri eseguono il data warehousing e gli utenti aziendali eseguono il data mining con l'aiuto di ingegneri.

Riferimento:

1. Data mining usando R | Esercitazione sul data mining per principianti | R Tutorial per principianti | Edureka, Edureka !, 8 novembre 2017, disponibile qui.
2. Tutorial del data warehouse per principianti | Concetti del data warehouse Data Warehousing | Edureka, Edureka !, 22 giugno 2017, disponibile qui.

Cortesia dell'immagine:

1. "Data mining" di Arbeck - Opera propria (CC BY 3.0) via Commons Wikimedia
2. "Panoramica del data warehouse" di Hhultgren - Opera propria (dominio pubblico) tramite Commons Wikimedia