Lukasz Stafiniak pages | DataMining / Zadanie 5

(Dopasowanie i przetrenowanie) Zbadaj błąd klasyfikacji na zbiorze uczącym i testowym dla kilku zbiorów danych dla metod: estymatora na bazie regresji liniowej, k najbliższych sąsiadów dla k=1 i 10, (może też: naiwnego klasyfikatora bayesowskiego). Opisz wnioski dotyczące trudności danego zadania klasyfikacji i “zdolności uogólnienia” danej metody klasyfikacji.
Przeprowadź klasyfikację zgodnie z wytycznymi A Practical Guide to Support Vector Classification [1]. Wykorzystaj interfejs do biblioteki LIBSVM z pakietu “e1071″.
Eksperymenty z pakietami “rpart” i “randomForest”:
1. Porównaj techniki podziału węzłów “information” (negentropia - p * log p) oraz “gini” (indeks Gini p (1 - p)) przy wykorzystaniu “rpart”.
2. Porównaj jakość klasyfikatora “randomForest” z jakością klasyfikatorów jakie uzyskałeś metodą “svm” lub “nnet” (sieć neuronowa) lub “knn” (najbliższych sąsiadów) dla różnych parametrów (np. dla różnych wartości C przy SVM lub dla różnych k przy KNN).
Wizualizacja i manipulacja drzewami w KLIMT. (nieobowiązkowe — temat wolny)

Dokonaj wizualizacji obszarów decyzyjnych dla kilku klasyfikatorów, które uznasz za ciekawe, np. porównując klasyfikator idealnie dopasowany do danych uczących z najlepszym według walidacji krzyżowej.

W wersji podstawowej zadania obowiązuje punkt 1. oraz: punkt 2. lub podpunkt 3.2.

Data Mining: Zadanie 5

Links