Qual è la differenza tra ETL e Data Warehouse

Il differenza principale tra ETL e Data Warehouse è quello ETL è il processo di estrazione, trasformazione e caricamento dei dati per archiviarli in un data warehouse mentre il data warehouse è una posizione centrale che viene utilizzata per archiviare i dati consolidati da più origini dati.

Un data warehouse è un sistema che consente di analizzare i dati, riportarli e visualizzarli per prendere decisioni aziendali. È orientato al soggetto, integrato, a tempo variante e non volatile. Tuttavia, ci sono diversi passaggi da seguire prima di archiviare i dati in un data warehouse. Questo processo è chiamato ETL. Implica l'estrazione dei dati, la trasformazione e infine il loro caricamento in un data warehouse. Pertanto, la differenza tra ETL e Data Warehouse deriva da questi concetti di base.

Aree chiave coperte

1. Cos'è ETL
      - Definizione, Funzionalità
2. Che cos'è un data warehouse
     - Definizione, Funzionalità
3. Qual è la differenza tra ETL e Data Warehouse
     - Confronto tra le principali differenze

Parole chiave

Data Warehouse, ETL

Cos'è ETL

ETL sta per Estrai, Trasforma e Carica. In questo processo, in primo luogo, i dati vengono estratti da più origini dati. Quindi, viene trasformato e caricato nel data warehouse. ETL indica questo intero processo. I servizi IBM Data stage, Informatica e, Microsoft Integration sono alcuni strumenti ETL di livello aziendale. Diamo ora un'occhiata ad ogni passo di ETL in modo più dettagliato.

Estrazione

L'estrazione è il primo passo. Comporta l'estrazione di dati da varie fonti di dati come i database. Un fatto importante da notare durante l'esecuzione dell'estrazione è che non dovrebbe influire sulle prestazioni o sul tempo di risposta dell'origine dati originale. Pertanto, ci sono varie strategie di estrazione dei dati.

Estrazione completa - Ciò comporta l'estrazione di tutti i dati da tutte le origini dati. L'uso principale di questa strategia è caricare il data warehouse nella fase iniziale o caricarlo quando è difficile identificare i dati modificati.

Estrazione parziale (con notifica di aggiornamento) - Questa strategia è più facile e più veloce dell'estrazione completa. Implica solo l'estrazione dei dati modificati.

Estrazione parziale (senza notifica di aggiornamento) - Implica l'estrazione dei dati in base a determinate caratteristiche chiave. Ad esempio, se sono già estratti i dati fino a ieri, è possibile estrarre i dati di oggi e identificare le modifiche in essi.

Trasformazione

I dati estratti sono dati grezzi, quindi non è molto utile. Pertanto, la trasformazione dei dati avviene nel passaggio successivo. Comprende la pulizia, la mappatura e la conversione dei dati. Le attività di trasformazione di base sono le seguenti:

Selezione - Selezione dei dati richiesti

Mappatura - Ricerca dei dati da vari file di ricerca e corrispondenza dei dati che necessitano di trasformazione

Pulizia dei dati -Pulizia dei dati per standardizzarli

Summarization - Aggregazione e consolidamento dei dati

Le principali attività di trasformazione dei dati sono le seguenti.

standardizzazione - Poiché i dati provengono da varie fonti, richiede la standardizzazione

Conversione del set di caratteri e gestione della codifica - Convertire i dati in una codifica definita

Calcolo dei valori - Calcolo e derivazione di nuove colonne dalle colonne esistenti.

Versato e unisci i campi - Divisione di un campo in più campi o combinazione di più campi in un singolo campo in base ai requisiti.

Conversione di unità di misura - Coinvolgimento di conversioni temporali dei dati, ecc.

Summarization - Aggregazione e consolidamento dei dati.

Eliminazione della duplicazione - Eliminazione dei dati duplicati ricevuti da più fonti.

Caricamento in corso

Questo è il processo di recupero dei dati preparati e di archiviazione nel data warehouse. Esistono varie tecniche di caricamento.

Carico iniziale - Caricamento del data warehouse per la prima volta.

Carico incrementale - Applicare le modifiche in corso secondo necessità in modo periodico.

Aggiornamento completo - Cancellazione completa dei contenuti di una o più tabelle e ricaricamento con nuovi dati.

Che cos'è un data warehouse

Il data warehouse è un sistema che supporta il processo di business intelligence. Converte i dati in informazioni significative per l'analisi del business. Pertanto, è una risorsa preziosa per la gestione di un'organizzazione nel prendere decisioni.

Inoltre, un'organizzazione ha vari database come MySQL e MSSQL. Tutti questi dati vengono estratti, trasformati e caricati nel data warehouse. Quindi, i dati sono integrati ed elaborati. Infine, analisti di dati, esperti di dati e manager utilizzano questi dati per approfondire le proprie conoscenze aziendali.

Inoltre, i dati in un data warehouse sono suddivisi in data mart. Ciascuno di essi contiene dati per utenti specifici. Migliorano la sicurezza e l'integrità dei dati. Solitamente, un data warehouse si trova in una posizione separata rispetto ai normali database operativi.

Differenza tra ETL e Data Warehouse

Definizione

ETL è il processo di estrazione, trasformazione e caricamento dei dati in un ambiente di data warehousing. Al contrario, un data warehouse è un repository federato per tutti i dati raccolti dai vari sistemi operativi di un'azienda. Quindi, questa è la differenza fondamentale tra ETL e data warehouse.

uso

ETL è un processo che viene utilizzato per modificare i dati prima di memorizzarli nel data warehouse. Un data warehouse viene utilizzato per prendere decisioni aziendali. Inoltre, migliora la qualità e l'uniformità dei dati e migliora la business intelligence. Quindi, esiste una differenza tra ETL e data warehouse in base all'utilizzo individuale.

Conclusione

In breif, la differenza fondamentale tra ETL e data warehouse è che ETL è il processo di estrazione, trasformazione e caricamento dei dati per archiviarli in un data warehouse mentre un data warehouse è una posizione centrale che viene utilizzata per archiviare i dati consolidati da più Origine dei dati.

Riferimento:

1. "3 - ETL Tutorial | Estrai Trasforma e carica ", Vikram Takkar, 8 settembre 2015, disponibile qui.
2. "Che cos'è il data warehouse? - Definizione da WhatIs.com. "SearchDataManagement, disponibile qui.

Cortesia dell'immagine:

1. "KrisangelChap2-ETL" di Kkristangel - Opera propria (CC BY-SA 4.0) via Commons Wikimedia
2. "Panoramica del data warehouse" di Hhultgren - Opera propria (dominio pubblico) tramite Commons Wikimedia