Il differenza principale tra ETL e Data Warehouse è quello ETL è il processo di estrazione, trasformazione e caricamento dei dati per archiviarli in un data warehouse mentre il data warehouse è una posizione centrale che viene utilizzata per archiviare i dati consolidati da più origini dati.
Un data warehouse è un sistema che consente di analizzare i dati, riportarli e visualizzarli per prendere decisioni aziendali. È orientato al soggetto, integrato, a tempo variante e non volatile. Tuttavia, ci sono diversi passaggi da seguire prima di archiviare i dati in un data warehouse. Questo processo è chiamato ETL. Implica l'estrazione dei dati, la trasformazione e infine il loro caricamento in un data warehouse. Pertanto, la differenza tra ETL e Data Warehouse deriva da questi concetti di base.
1. Cos'è ETL
- Definizione, Funzionalità
2. Che cos'è un data warehouse
- Definizione, Funzionalità
3. Qual è la differenza tra ETL e Data Warehouse
- Confronto tra le principali differenze
Data Warehouse, ETL
ETL sta per Estrai, Trasforma e Carica. In questo processo, in primo luogo, i dati vengono estratti da più origini dati. Quindi, viene trasformato e caricato nel data warehouse. ETL indica questo intero processo. I servizi IBM Data stage, Informatica e, Microsoft Integration sono alcuni strumenti ETL di livello aziendale. Diamo ora un'occhiata ad ogni passo di ETL in modo più dettagliato.
L'estrazione è il primo passo. Comporta l'estrazione di dati da varie fonti di dati come i database. Un fatto importante da notare durante l'esecuzione dell'estrazione è che non dovrebbe influire sulle prestazioni o sul tempo di risposta dell'origine dati originale. Pertanto, ci sono varie strategie di estrazione dei dati.
Estrazione completa - Ciò comporta l'estrazione di tutti i dati da tutte le origini dati. L'uso principale di questa strategia è caricare il data warehouse nella fase iniziale o caricarlo quando è difficile identificare i dati modificati.
Estrazione parziale (con notifica di aggiornamento) - Questa strategia è più facile e più veloce dell'estrazione completa. Implica solo l'estrazione dei dati modificati.
Estrazione parziale (senza notifica di aggiornamento) - Implica l'estrazione dei dati in base a determinate caratteristiche chiave. Ad esempio, se sono già estratti i dati fino a ieri, è possibile estrarre i dati di oggi e identificare le modifiche in essi.
I dati estratti sono dati grezzi, quindi non è molto utile. Pertanto, la trasformazione dei dati avviene nel passaggio successivo. Comprende la pulizia, la mappatura e la conversione dei dati. Le attività di trasformazione di base sono le seguenti:
Selezione - Selezione dei dati richiesti
Mappatura - Ricerca dei dati da vari file di ricerca e corrispondenza dei dati che necessitano di trasformazione
Pulizia dei dati -Pulizia dei dati per standardizzarli
Summarization - Aggregazione e consolidamento dei dati
Le principali attività di trasformazione dei dati sono le seguenti.
standardizzazione - Poiché i dati provengono da varie fonti, richiede la standardizzazione
Conversione del set di caratteri e gestione della codifica - Convertire i dati in una codifica definita
Calcolo dei valori - Calcolo e derivazione di nuove colonne dalle colonne esistenti.
Versato e unisci i campi - Divisione di un campo in più campi o combinazione di più campi in un singolo campo in base ai requisiti.
Conversione di unità di misura - Coinvolgimento di conversioni temporali dei dati, ecc.
Summarization - Aggregazione e consolidamento dei dati.
Eliminazione della duplicazione - Eliminazione dei dati duplicati ricevuti da più fonti.
Questo è il processo di recupero dei dati preparati e di archiviazione nel data warehouse. Esistono varie tecniche di caricamento.
Carico iniziale - Caricamento del data warehouse per la prima volta.
Carico incrementale - Applicare le modifiche in corso secondo necessità in modo periodico.
Aggiornamento completo - Cancellazione completa dei contenuti di una o più tabelle e ricaricamento con nuovi dati.
Il data warehouse è un sistema che supporta il processo di business intelligence. Converte i dati in informazioni significative per l'analisi del business. Pertanto, è una risorsa preziosa per la gestione di un'organizzazione nel prendere decisioni.
Inoltre, un'organizzazione ha vari database come MySQL e MSSQL. Tutti questi dati vengono estratti, trasformati e caricati nel data warehouse. Quindi, i dati sono integrati ed elaborati. Infine, analisti di dati, esperti di dati e manager utilizzano questi dati per approfondire le proprie conoscenze aziendali.
Inoltre, i dati in un data warehouse sono suddivisi in data mart. Ciascuno di essi contiene dati per utenti specifici. Migliorano la sicurezza e l'integrità dei dati. Solitamente, un data warehouse si trova in una posizione separata rispetto ai normali database operativi.
ETL è il processo di estrazione, trasformazione e caricamento dei dati in un ambiente di data warehousing. Al contrario, un data warehouse è un repository federato per tutti i dati raccolti dai vari sistemi operativi di un'azienda. Quindi, questa è la differenza fondamentale tra ETL e data warehouse.
ETL è un processo che viene utilizzato per modificare i dati prima di memorizzarli nel data warehouse. Un data warehouse viene utilizzato per prendere decisioni aziendali. Inoltre, migliora la qualità e l'uniformità dei dati e migliora la business intelligence. Quindi, esiste una differenza tra ETL e data warehouse in base all'utilizzo individuale.
In breif, la differenza fondamentale tra ETL e data warehouse è che ETL è il processo di estrazione, trasformazione e caricamento dei dati per archiviarli in un data warehouse mentre un data warehouse è una posizione centrale che viene utilizzata per archiviare i dati consolidati da più Origine dei dati.
1. "3 - ETL Tutorial | Estrai Trasforma e carica ", Vikram Takkar, 8 settembre 2015, disponibile qui.
2. "Che cos'è il data warehouse? - Definizione da WhatIs.com. "SearchDataManagement, disponibile qui.
1. "KrisangelChap2-ETL" di Kkristangel - Opera propria (CC BY-SA 4.0) via Commons Wikimedia
2. "Panoramica del data warehouse" di Hhultgren - Opera propria (dominio pubblico) tramite Commons Wikimedia