Diferența dintre clasificare și regresie

2019

Clasificarea și regresia sunt două probleme majore de predicție care sunt de obicei abordate în Data mining. Modelarea predictivă este tehnica de a dezvolta un model sau o funcție folosind datele istorice pentru a prezice noile date. Diferența semnificativă dintre clasificare și regresie este că clasificarea hărții obiectul de date de intrare la unele etichete discrete. Pe de altă parte, regresia hartă obiectul de date de intrare la valorile reale continue.

Diagramă de comparație

Bazele de comparație	Clasificare	regresiune
De bază	Descoperirea unui model sau a unor funcții în care cartografierea obiectelor se face în clase predefinite.	Un model conceput în care cartografierea obiectelor se face în valori.
Implică prezicerea	Valori discrete	Valori continue
algoritmi	Arborele de decizie, regresia logistică etc.	Arbore de regresie (pădure aleatoare), regresie liniară etc.
Natura datelor previzionate	neordonată	Ordonat
Metoda de calcul	Precizia măsurării	Măsurarea erorii medii pătrată a rădăcinii

Definiția Classification

Clasificarea este procesul de identificare sau descoperire a unui model (funcție) care ajută la separarea datelor în mai multe clase categorice. În clasificare, se identifică apartenența la grup a problemei, ceea ce înseamnă că datele sunt clasificate sub etichete diferite în funcție de anumiți parametri și apoi etichetele sunt prezise pentru date.

Modelele derivate ar putea fi demonstrate sub formă de reguli "IF-THEN", arbori de decizie sau rețele neuronale etc. Un arbore de decizie este fundamental o schemă de flux care seamănă cu o structură arborescentă în care fiecare nod intern descrie un test pe un atribut, și ramurile sale arată rezultatul testului. Procesul de clasificare tratează problemele în care datele pot fi împărțite în două sau mai multe etichete discrete, cu alte cuvinte, două sau mai multe seturi disjuncte.

Să luăm un exemplu, să presupunem că vrem să previzionăm posibilitatea ploii în unele regiuni pe baza unor parametri. Apoi vor exista două etichete de ploaie și nici ploaie sub care se pot clasifica diferite regiuni.

Definiția Regression

Regresia este procesul de găsire a unui model sau a unei funcții pentru a distinge datele în valori reale continue în loc să utilizeze clase. Matematic, cu o problemă de regresie, se încearcă să se găsească aproximarea funcției cu deviația minimă de eroare. În regresie, se presupune că dependența numerică a datelor o deosebește.

Analiza de regresie este modelul statistic care este utilizat pentru a prezice datele numerice în loc de etichete. De asemenea, poate identifica mișcarea de distribuție în funcție de datele disponibile sau de datele istorice.

Să luăm exemplul similar și în regresie, unde găsim posibilitatea ploii în anumite regiuni, cu ajutorul unor parametri. În acest caz, există o probabilitate asociată cu ploaia. Aici nu clasificăm regiunile în ploaie și nici etichetele de ploaie în loc să le clasificăm cu probabilitatea lor asociată.

Diferențele cheie între clasificare și regresie

Procesul de clasificare modelează o funcție prin care datele sunt prezise în etichete de clasă discrete. Pe de altă parte, regresia este procesul de creare a unui model care prezice o cantitate continuă.
Algoritmii de clasificare implică arborele de decizie, regresia logistică etc. În schimb, arborele de regresie (de exemplu, pădurea aleatoare) și regresia liniară sunt exemplele algoritmilor de regresie.
Clasificarea prezice date neordonate în timp ce regresia prezice datele ordonate.
Regresia poate fi evaluată folosind eroarea medie pătrată a rădăcinii. Dimpotrivă, clasificarea este evaluată prin măsurarea preciziei.

Concluzie

Tehnica de clasificare oferă modelul predictiv sau funcția care prezice noile date în categorii sau etichete distincte cu ajutorul datelor istorice. În schimb, metoda de regresie modelează funcții cu valoare continuă, ceea ce înseamnă că prezice datele în date numerice continue.