KDD vs Data mining
KDD (Knowledge Discovery in Databases) je oblasť počítačovej vedy, ktorá obsahuje nástroje a teórie, ktoré majú pomôcť ľuďom pri získavaní užitočných a predtým neznámych informácií (tj vedomostí) z veľkých zbierok digitalizovaných údajov. KDD pozostáva z niekoľkých krokov a Data Mining je jedným z nich. Data Mining je aplikácia špecifického algoritmu na extrahovanie vzorov z dát. KDD a dolovanie dát sa napriek tomu používajú vzájomne zameniteľné.
Čo je KDD?
Ako už bolo spomenuté vyššie, KDD je oblasť informatiky, ktorá sa zaoberá extrakciou predtým neznámych a zaujímavých informácií zo surových údajov. KDD je celý proces pokusu o pochopenie údajov vyvinutím vhodných metód alebo techník. Tento proces sa zaoberá mapovaním údajov na nízkej úrovni do iných foriem, ktoré sú kompaktnejšie, abstraktnejšie a užitočnejšie. To sa dosiahne vytváraním krátkych správ, modelovaním procesu generovania údajov a vývojom prediktívnych modelov, ktoré dokážu predpovedať budúce prípady. Kvôli exponenciálnemu rastu dát, najmä v oblastiach ako je podnikanie, sa KDD stalo veľmi dôležitým procesom na konverziu tohto veľkého množstva dát na business intelligence, pretože manuálna extrakcia vzorcov je v posledných niekoľkých desaťročiach zdanlivo nemožná. Napríklad,v súčasnosti sa používa na rôzne aplikácie, ako je analýza sociálnych sietí, detekcia podvodov, veda, investície, výroba, telekomunikácie, čistenie dát, šport, vyhľadávanie informácií a predovšetkým na marketing. KDD sa zvyčajne používa na zodpovedanie otázok, aké sú hlavné produkty, ktoré by mohli pomôcť dosiahnuť budúci rok vo Wal-Marte vysoký zisk ?. Tento proces má niekoľko krokov. Začína sa to tým, že sa pochopí doména aplikácie a cieľ a potom sa vytvorí cieľová množina údajov. Nasleduje čistenie, predspracovanie, redukcia a projekcia údajov. Ďalším krokom je použitie dolovania dát (vysvetlené nižšie) na identifikáciu vzoru. Nakoniec sa zistené poznatky konsolidujú vizualizáciou a / alebo tlmočením.šport, vyhľadávanie informácií a predovšetkým pre marketing. KDD sa zvyčajne používa na zodpovedanie otázok, aké sú hlavné produkty, ktoré by mohli pomôcť v budúcom roku vo Wal-Marte dosiahnuť vysoký zisk ?. Tento proces má niekoľko krokov. Začína sa to tým, že sa pochopí doména aplikácie a cieľ a potom sa vytvorí cieľová množina údajov. Nasleduje čistenie, predspracovanie, redukcia a projekcia údajov. Ďalším krokom je použitie dolovania dát (vysvetlené nižšie) na identifikáciu vzoru. Nakoniec sa zistené poznatky konsolidujú vizualizáciou a / alebo tlmočením.šport, vyhľadávanie informácií a predovšetkým pre marketing. KDD sa zvyčajne používa na zodpovedanie otázok, aké sú hlavné produkty, ktoré by mohli pomôcť dosiahnuť budúci rok vo Wal-Marte vysoký zisk ?. Tento proces má niekoľko krokov. Začína sa to tým, že sa pochopí doména aplikácie a cieľ a potom sa vytvorí cieľová množina údajov. Nasleduje čistenie, predspracovanie, redukcia a projekcia údajov. Ďalším krokom je použitie dolovania dát (vysvetlené nižšie) na identifikáciu vzoru. Nakoniec sa objavené vedomosti konsolidujú vizualizáciou a / alebo tlmočením. Začína sa to tým, že sa pochopí doména aplikácie a cieľ a potom sa vytvorí cieľová množina údajov. Nasleduje čistenie, predspracovanie, redukcia a projekcia údajov. Ďalším krokom je použitie dolovania dát (vysvetlené nižšie) na identifikáciu vzoru. Nakoniec sa zistené poznatky konsolidujú vizualizáciou a / alebo tlmočením. Začína sa to tým, že sa pochopí doména aplikácie a cieľ a potom sa vytvorí cieľová množina údajov. Nasleduje čistenie, predspracovanie, redukcia a projekcia údajov. Ďalším krokom je použitie dolovania dát (vysvetlené nižšie) na identifikáciu vzoru. Nakoniec sa objavené vedomosti konsolidujú vizualizáciou a / alebo tlmočením.
Čo je dolovanie dát?
Ako už bolo spomenuté vyššie, dolovanie dát je iba krokom v rámci celkového procesu KDD. Existujú dva hlavné ciele v oblasti dolovania dát, ako ich definuje cieľ aplikácie, a to sú overenie alebo zistenie. Overovanie overuje hypotézu používateľa o údajoch, zatiaľ čo objav automaticky vyhľadáva zaujímavé vzory. Existujú štyri hlavné úlohy ťažby dát: zhlukovanie, klasifikácia, regresia a asociácia (sumarizácia). Klastrovanie identifikuje podobné skupiny z neštruktúrovaných údajov. Klasifikácia je učebné pravidlá, ktoré sa dajú použiť na nové údaje. Regresiou je hľadanie funkcií s minimálnou chybou v údajoch modelu. Asociácia hľadá vzťahy medzi premennými. Potom je potrebné zvoliť konkrétny algoritmus ťažby dát. V závislosti od cieľa rôzne algoritmy ako lineárna regresia, logistická regresia,možno zvoliť rozhodovacie stromy a Naïve Bayes. Potom sa hľadajú vzory záujmu v jednej alebo viacerých reprezentatívnych formách. Nakoniec sa modely hodnotia buď pomocou prediktívnej presnosti alebo zrozumiteľnosti.
Aký je rozdiel medzi KDD a Data miningom?
Aj keď sú dva pojmy KDD a Data Mining vzájomne zameniteľné, odkazujú na dva súvisiace, ale trochu odlišné pojmy. KDD je celkový proces získavania znalostí z údajov, zatiaľ čo dolovanie dát je krokom v procese KDD, ktorý sa zaoberá identifikáciou vzorcov v dátach. Inými slovami, dolovanie dát predstavuje iba aplikáciu konkrétneho algoritmu založeného na celkovom cieli procesu KDD.