- (Dopasowanie i przetrenowanie) Zbadaj błąd klasyfikacji na zbiorze uczącym i testowym dla kilku zbiorów danych dla metod: estymatora na bazie regresji liniowej, k najbliższych sąsiadów dla k=1 i 10, (może też: naiwnego klasyfikatora bayesowskiego). Opisz wnioski dotyczące trudności danego zadania klasyfikacji i “zdolności uogólnienia” danej metody klasyfikacji.
- Przeprowadź klasyfikację zgodnie z wytycznymi A Practical Guide to Support Vector Classification. Wykorzystaj interfejs do biblioteki LIBSVM z pakietu “e1071″.
- Eksperymenty z pakietami “rpart” i “randomForest”:
- Porównaj techniki podziału węzłów “information” (negentropia - p * log p) oraz “gini” (indeks Gini p (1 - p)) przy wykorzystaniu “rpart”.
- Porównaj jakość klasyfikatora “randomForest” z jakością klasyfikatorów jakie uzyskałeś metodą “svm” lub “nnet” (sieć neuronowa) lub “knn” (najbliższych sąsiadów) dla różnych parametrów (np. dla różnych wartości C przy SVM lub dla różnych k przy KNN).
- Wizualizacja i manipulacja drzewami w KLIMT. (nieobowiązkowe — temat wolny)
Dokonaj wizualizacji obszarów decyzyjnych dla kilku klasyfikatorów, które uznasz za ciekawe, np. porównując klasyfikator idealnie dopasowany do danych uczących z najlepszym według walidacji krzyżowej.
W wersji podstawowej zadania obowiązuje punkt 1. oraz: punkt 2. lub podpunkt 3.2.