KDD vs Data mining
KDD (Knowledge Discovery in Databases) è un campo di informatica, che include gli strumenti e le teorie per aiutare gli esseri umani ad estrarre informazioni utili e precedentemente sconosciute (cioè conoscenze) da grandi raccolte di dati digitalizzati. KDD comprende diversi passaggi e Data Mining è uno di questi. Data Mining è l'applicazione di un algoritmo specifico per estrarre modelli dai dati. Tuttavia, KDD e Data Mining sono utilizzati in modo intercambiabile.
Cos'è il KDD?
Come accennato in precedenza, KDD è un campo dell'informatica, che si occupa dell'estrazione di informazioni precedentemente sconosciute e interessanti dai dati grezzi. KDD è l'intero processo di cercare di dare un senso ai dati sviluppando metodi o tecniche appropriati. Questo processo riguarda la mappatura dei dati di basso livello in altre forme che sono più compatti, astratti e utili. Ciò si ottiene creando brevi report, modellando il processo di generazione dei dati e sviluppando modelli predittivi in grado di prevedere casi futuri. A causa della crescita esponenziale dei dati, specialmente in settori come il business, la KDD è diventata un processo molto importante per convertire questa grande ricchezza di dati in business intelligence, poiché l'estrazione manuale dei modelli è diventata apparentemente impossibile negli ultimi decenni. Ad esempio, è attualmente utilizzato per varie applicazioni quali analisi dei social network, rilevamento di frodi, scienza, investimenti, produzione, telecomunicazioni, pulizia dei dati, sport, recupero di informazioni e in gran parte per il marketing. KDD viene solitamente utilizzato per rispondere a domande come quali sono i principali prodotti che potrebbero aiutare ad ottenere alti profitti l'anno prossimo in Wal-Mart ?. Questo processo ha diversi passaggi. Inizia con lo sviluppo di una comprensione del dominio dell'applicazione e dell'obiettivo e quindi la creazione di un set di dati di destinazione. Questo è seguito da pulizia, preelaborazione, riduzione e proiezione dei dati. Il passaggio successivo consiste nell'utilizzare il data mining (spiegato di seguito) per identificare il modello. Infine, la conoscenza scoperta viene consolidata visualizzando e / o interpretando.
Che cos'è il data mining?
Come accennato in precedenza, il data mining è solo un passaggio all'interno del processo complessivo di KDD. Esistono due principali obiettivi di Data Mining definiti dall'obiettivo dell'applicazione, ovvero la verifica o la scoperta. La verifica sta verificando l'ipotesi dell'utente sui dati, mentre la scoperta trova automaticamente modelli interessanti. Esistono quattro principali attività di data mining: clustering, classificazione, regressione e associazione (riepilogo). Il clustering identifica gruppi simili da dati non strutturati. La classificazione è l'apprendimento delle regole che possono essere applicate ai nuovi dati. La regressione sta trovando le funzioni con un errore minimo per modellare i dati. E l'associazione sta cercando relazioni tra variabili. Quindi, è necessario selezionare l'algoritmo di data mining specifico. A seconda dell'obiettivo, possono essere selezionati diversi algoritmi come regressione lineare, regressione logistica, alberi decisionali e Naïve Bayes. Quindi vengono cercati i modelli di interesse in una o più forme di rappresentazione. Infine, i modelli vengono valutati usando accuratezza predittiva o comprensibilità.
Qual è la differenza tra KDD e Data mining?
Sebbene i due termini KDD e Data Mining siano pesantemente usati in modo intercambiabile, si riferiscono a due concetti correlati ma leggermente diversi. KDD è il processo globale di estrazione di conoscenza dai dati mentre Data Mining è un passaggio all'interno del processo KDD, che si occupa dell'identificazione dei modelli nei dati. In altre parole, Data Mining è solo l'applicazione di un algoritmo specifico basato sull'obiettivo generale del processo KDD.