From the Lukasz Stafiniak pages

Data Mining: Zadanie 5

  1. (Dopasowanie i przetrenowanie) Zbadaj błąd klasyfikacji na zbiorze uczącym i testowym dla kilku zbiorów danych dla metod: estymatora na bazie regresji liniowej, k najbliższych sąsiadów dla k=1 i 10, (może też: naiwnego klasyfikatora bayesowskiego). Opisz wnioski dotyczące trudności danego zadania klasyfikacji i “zdolności uogólnienia” danej metody klasyfikacji.
  2. Przeprowadź klasyfikację zgodnie z wytycznymi A Practical Guide to Support Vector Classification [1]. Wykorzystaj interfejs do biblioteki LIBSVM z pakietu “e1071″.
  3. Eksperymenty z pakietami “rpart” i “randomForest”:
    1. Porównaj techniki podziału węzłów “information” (negentropia - p * log p) oraz “gini” (indeks Gini p (1 - p)) przy wykorzystaniu “rpart”.
    2. Porównaj jakość klasyfikatora “randomForest” z jakością klasyfikatorów jakie uzyskałeś metodą “svm” lub “nnet” (sieć neuronowa) lub “knn” (najbliższych sąsiadów) dla różnych parametrów (np. dla różnych wartości C przy SVM lub dla różnych k przy KNN).
  4. Wizualizacja i manipulacja drzewami w KLIMT. (nieobowiązkowe — temat wolny)

Dokonaj wizualizacji obszarów decyzyjnych dla kilku klasyfikatorów, które uznasz za ciekawe, np. porównując klasyfikator idealnie dopasowany do danych uczących z najlepszym według walidacji krzyżowej.

W wersji podstawowej zadania obowiązuje punkt 1. oraz: punkt 2. lub podpunkt 3.2.

Copyright © 2005–2006 the Main wiki and its authors

Links

  1. www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

Retrieved from http://ii.uni.wroc.pl/~lukstafi/pmwiki/index.php?n=DataMining.Zadanie5

Page last modified on June 20, 2008, at 01:32 PM