Data mining vs OLAP
Sia il data mining che l'OLAP sono due delle tecnologie di Business Intelligence (BI) comuni. La business intelligence si riferisce a metodi basati su computer per l'identificazione e l'estrazione di informazioni utili dai dati aziendali. Il data mining è il campo dell'informatica che si occupa di estrarre modelli interessanti da grandi serie di dati. Combina molti metodi dell'intelligenza artificiale, delle statistiche e della gestione dei database. OLAP (elaborazione analitica online) come suggerisce il nome è una raccolta di modi per interrogare i database multidimensionali.
Il data mining è anche noto come Knowledge Discovery in data (KDD). Come accennato in precedenza, si tratta di un settore dell'informatica, che si occupa dell'estrazione di informazioni precedentemente sconosciute e interessanti dai dati grezzi. A causa della crescita esponenziale dei dati, specialmente in aree come il business, il data mining è diventato uno strumento molto importante per convertire questa grande ricchezza di dati in business intelligence, in quanto l'estrazione manuale di modelli è diventata apparentemente impossibile negli ultimi decenni. Ad esempio, è attualmente utilizzato per varie applicazioni come l'analisi dei social network, il rilevamento di frodi e il marketing. Il data mining di solito tratta i seguenti quattro compiti: clustering, classificazione, regressione e associazione. Il clustering identifica gruppi simili da dati non strutturati. La classificazione è regole di apprendimento che possono essere applicate ai nuovi dati e in genere include i seguenti passaggi: preelaborazione dei dati, progettazione della modellazione, apprendimento / selezione delle caratteristiche e valutazione / convalida. La regressione sta trovando le funzioni con un errore minimo per modellare i dati. E l'associazione sta cercando relazioni tra variabili. Il data mining viene solitamente utilizzato per rispondere a domande quali quali sono i principali prodotti che potrebbero aiutare ad ottenere alti profitti l'anno prossimo in Wal-Mart.
OLAP è una classe di sistemi che fornisce risposte a query multidimensionali. In genere OLAP viene utilizzato per marketing, budgeting, previsioni e applicazioni simili. Inutile dire che i database utilizzati per OLAP sono configurati per query complesse e ad-hoc con una prestazione rapida in mente. Tipicamente una matrice viene utilizzata per visualizzare l'output di un OLAP. Le righe e le colonne sono formate dalle dimensioni della query. Spesso utilizzano metodi di aggregazione su più tabelle per ottenere sommari. Ad esempio, può essere usato per scoprire le vendite di quest'anno a Wal-Mart rispetto all'anno scorso? Qual è la previsione sulle vendite nel prossimo trimestre? Cosa si può dire della tendenza osservando la variazione percentuale?
Sebbene sia ovvio che Data mining e OLAP sono simili perché operano su dati per acquisire informazioni, la principale differenza deriva dal modo in cui operano sui dati. Gli strumenti OLAP forniscono analisi di dati multidimensionali e forniscono riepiloghi dei dati ma, contrariamente, il data mining si concentra su rapporti, modelli e influenze nel set di dati. Questo è un accordo OLAP con l'aggregazione, che si riduce al funzionamento dei dati tramite "aggiunta" ma il data mining corrisponde alla "divisione". Un'altra differenza degna di nota è che mentre gli strumenti di data mining modellano i dati e restituiscono regole attuabili, OLAP condurrà tecniche di confronto e contrasto lungo la dimensione aziendale in tempo reale.