Kľúčovým rozdielom medzi klastrovaním a klasifikáciou je, že klastrovanie je nekontrolovaná učebná technika, ktorá zoskupuje podobné inštancie na základe funkcií, zatiaľ čo klasifikácia je kontrolovaná učebná technika, ktorá priraďuje preddefinované značky inštanciám na základe funkcií.
Aj keď sa zhlukovanie a klasifikácia javia ako podobné procesy, je medzi nimi rozdiel podľa ich významu. Vo svete ťažby dát sú zhlukovanie a klasifikácia dva typy učebných metód. Obe tieto metódy charakterizujú objekty do skupín podľa jednej alebo viacerých funkcií.
OBSAH
1. Prehľad a hlavný rozdiel
2. Čo je zhlukovanie
3. Čo je klasifikácia
4. Porovnanie vedľa seba - zhlukovanie vs. klasifikácia v tabuľkovej podobe
5. Zhrnutie
Čo je klastrovanie?
Klastrovanie je metóda zoskupovania objektov takým spôsobom, že sa objekty s podobnými znakmi spájajú a objekty s odlišnými znakmi sa rozpadajú. Je to bežná technika štatistickej analýzy údajov pre strojové učenie a dolovanie údajov. Analýza a zovšeobecnenie prieskumných údajov je tiež oblasťou, ktorá využíva klastrovanie.
Obrázok 01: Zhlukovanie
Klastrovanie patrí do nekontrolovanej ťažby dát. Nejde o jediný konkrétny algoritmus, ale ide o všeobecnú metódu riešenia úlohy. Preto je možné dosiahnuť zhlukovanie pomocou rôznych algoritmov. Príslušný klastrový algoritmus a nastavenie parametrov závisí od jednotlivých množín údajov. Nie je to automatická úloha, ale je to iteračný proces objavovania. Preto je potrebné upravovať spracovanie údajov a modelovanie parametrov, kým výsledok nedosiahne požadované vlastnosti. K-means clustering a Hierarchical clustering are two common clustering algorithms in data mining.
Čo je klasifikácia?
Klasifikácia je proces kategorizácie, ktorý využíva tréningovú sadu údajov na rozpoznávanie, rozlišovanie a porozumenie objektov. Klasifikácia je technika učenia pod dohľadom, kde je k dispozícii tréningová sada a správne definované pozorovania.
Obrázok 02: Klasifikácia
Algoritmus, ktorý implementuje klasifikáciu, je klasifikátor, zatiaľ čo pozorovania sú inštancie. Algoritmus K-Nearest Neighbor a algoritmy rozhodovacieho stromu sú najznámejšie klasifikačné algoritmy v dolovaní dát.
Aký je rozdiel medzi zhlukovaním a klasifikáciou?
Zhlukovanie je učenie bez dozoru, zatiaľ čo klasifikácia je technika učenia pod dohľadom. Zoskupuje podobné inštancie na základe funkcií, zatiaľ čo klasifikácia priraďuje preddefinované značky inštanciám na základe funkcií. Klastrovanie rozdeľuje množinu údajov na podmnožiny, aby zoskupil inštancie s podobnými funkciami. Nepoužíva označené údaje ani tréningovú sadu. Na druhej strane kategorizujte nové údaje podľa pozorovaní tréningovej sady. Cvičná súprava je označená.
Cieľom klastrovania je zoskupiť množinu objektov, aby sa zistilo, či medzi nimi existuje nejaký vzťah, zatiaľ čo klasifikácia má za cieľ zistiť, do ktorej triedy patrí nový objekt zo sady preddefinovaných tried.
Zhrnutie - zhlukovanie vs. klasifikácia
Klastrovanie a klasifikácia sa môžu javiť podobné, pretože obidva algoritmy na dolovanie údajov delia množinu údajov na podmnožiny, ale ide o dve rôzne techniky výučby, pomocou ktorých sa v dolovaní údajov získavajú spoľahlivé informácie zo zbierky nespracovaných údajov. Rozdiel medzi klastrovaním a klasifikáciou je v tom, že klastrovanie je technika učenia bez dozoru, ktorá zoskupuje podobné inštancie na základe funkcií, zatiaľ čo klasifikácia je technika učenia pod dohľadom, ktorá inštanciám priraďuje preddefinované značky na základe funkcií.
Obrázok so súhlasom:
1. „Cluster-2“od spoločnosti Cluster-2.gif: dielo odvodené od pekla: (Public Domain) cez Wikimedia Commons 2. „Magnetism“od Johna Aplessed - vlastná práca. (Public Domain) cez Wikimedia Commons