- Ocenimy jakość grupowania przez analizę skupień w danych z usuniętą zmienną kategorialną a następnie sprawdzenie, czy znalezione skupiska odpowiadają klasom opisanym przez (usuniętą) zmienną. Dla wybranej metody grupowania zależnej od metryki porównaj jakość metody (na jednym lub kilku zbiorach danych) dla różnych metryk (w tym przynajmniej euklidesowej, taksówkowej i Mahalanobisa) oraz dla różnych standaryzacji danych: dane nieznormalizowane, dane znormalizowane (przeskalowane przez odwrotność odchylenia standardowego), dane znormalizowane odporną na obserwacje odstające miarą rozrzutu (np. przeskalowane przez odwrotność “mean absolute deviation”). W razie potrzeby wykorzystaj wiedzę o ilości klas.
- Oceniając jakość grupowania j.w. porównaj dla kilku metod grupowania kilka technik wyboru optymalnej liczby skupisk: np. minimalizując ślad macierzy rozrzutu wewnątrz skupień, iloraz śladów macierzy rozrzutu wewnątrz skupień i między skupieniami lub rozrzutu całkowitego, iloraz wyznaczników tych macierzy, albo stosując kryterium Krzanowskiego i Lai.
- Wiele metod jako parametr ma bezpośrednio liczbę skupisk, ale w niektórych metodach jest to parametr pośredni. Jako jednej z porównywanych metod użyj “metody gęstościowej”, w której parametrem jest próg gęstości separujący obszary różnych klastrów.
- Porównaj symboliczne metody analizy skupień (wybraną metodę) z metodami konstrukcji metryki / funkcji podobieństwa dla danych ze zmiennymi kategorialnymi (i następnie grupowania wybraną metodą bazującą na metryce / mierze podobieństwa).
- Porównaj metodę aglomeracyjną i metodę podziałów w hierarchicznym grupowaniu danych o naturalnej strukturze hierarchicznej, np. danych “animals”.
(Zadania, poza punktem 3, zasugerowane wykładami Adama Zagdańskiego i Artura Suchwałko, z roku 2004.)
(W wersji podstawowej zadania: wybierz dwa punkty, możesz ograniczyć ilość porównań: przeprowadź te które uważasz za istotne.)