Wykład z eksploracji danych
Aktualności:
NEW USOS:
Według oficjalnych informacji, 30 czerwca nastąpi zablokowanie możliwości wpisywania ocen za semestr letni w USOSie. Proszę wziąć to pod uwagę przy planowaniu ewentualnych opóźnień w oddawaniu projektów i zadań.
Egzamin:
Egzamin będzie miał formę ustną i odbędzie się w dwóch terminach 17 i 27 czerwca (każdy student może wybrać jeden z tych dwóch terminów). Na egzamin proszę umawiać się emailem, najpóźniej dzień przed terminem egzaminu.
Informacja:
Wyniki sprawdzianu z 17 kwietnia TXT
Informacja:
Aktualna punktacja z ćwiczeń/pracowni TXT
Listy zadań:
Lista zadań nr 1 PDF (zadania z listy należy oddać na zajęciach 13 marca)
Lista zadań nr 2 PDF (zadania z listy należy oddać na zajęciach 20 marca)
Lista zadań nr 3 PDF (zadania z listy należy oddać na zajęciach 27 marca)
Lista zadań nr 4 PDF (zadania z listy należy oddać na zajęciach 10 kwietnia - lista na dwa tygodnie)
Lista zadań nr 5 PDF (zadania z listy należy oddać na zajęciach 15 maja - lista na dwa i pół tygodnia)
Skrypt Matlaba do LLE można znaleźć tutaj. Skrypt Matlaba do KPCA można znaleźć tutaj. Dane do listy zadań nr 5 można znaleźć tutaj (hasłem do archiwum jest tytuł naszego wykładu pisany małymi literami i bez spacji). W razie problemów proszę o kontakt emailem. Więcej informacji o danych będzie na najbliższych zajęciach.
Lista zadań nr 6 PDF (zadania z listy należy oddać na zajęciach 22 maja)
Zestawy danych do listy zadań nr 6: Zestaw1 Zestaw2 Zestaw3 (hasłem do archiwów jest tytuł naszego wykładu pisany małymi literami i bez spacji). W razie problemów proszę o kontakt emailem. Więcej informacji o danych będzie na najbliższych zajęciach.
NEW Lista zadań nr 7 PDF (lista bezterminowa - zadania z listy można oddać w dowolnym terminie, na zajęciach bądź w innym terminie ustalonym indywidualnie emailem)
Projekty końcowe:
Prezentacja dot. projektów z 22 maja 2014 PDF
NEW Prezentacja dot. projektów z 29 maja 2014 PDF
Prezentacje z wykładów:
Wprowadzenie do eksploracji danych PDF
Redukcja wymiarowości - PCA PDF
Redukcja wymiarowości - LLE PDF
Redukcja wymiarowości - KPCA PDF
Klasyfikacja danych (wersja robocza) PDF
Reguły asocjacyjne (wersja robocza) PDF
Prognozowanie szeregów czasowych PDF
Inne materiały:
Zapis minikursu Matlaba z pracowni 6 marca TXT
Zapis minikursu Matlaba z pracowni 13 marca ZIP
Propozycje minireferatów:
Za przygotowanie minireferatu (wystąpienie na ok. 15 minut) można dostać od 0 do 5 punktów bonusowych. Zainteresowane osoby proszę o kontakt emailem (decyduje kolejność zgłoszeń).
Algorytmy generowania danych losowych z rozkładem normalnym (G. Łoś, 27.03.2014)
Algorytm Partitioning Around Medoids (PAM) (T. Zawartko, 10.04.2014)
Algorytm Clustering Large Applications (CLARA) i jego rozszerzenie CLARANS
Algorytm Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH)
Opis wykładu:
Systemy informatyczne stosowane są do przetwarzania coraz większej ilości danych dostarczanych codziennie przez przemysł, handel, urzędy statystyczne czy administrację państwową. W związku z tym coraz częściej dostrzegalna jest różnica między daną a informacją - mimo dużej ilości dostępnych danych, nierzadko pojawiają się problemy z uzyskaniem konkretnych informacji w nich zawartych.
Eksploracja danych (ang. data mining) jest nowoczesną dziedziną informatyki, rozwijaną dynamicznie w ostatnich latach w ośrodkach naukowych na całym świecie, której celem jest dostarczanie algorytmów i technik przetwarzania danych umożliwiających pozyskiwanie nietrywialnej wiedzy ze zgromadzonych dużych ilości danych. Metody eksploracji danych opierają się głównie na sztucznej inteligencji i statystyce obliczeniowej.
Wykład będzie dotyczyć popularnych algorytmów eksploracji danych, zarówno dla klasycznych zagadnień, takich jak klasyfikacja przy użyciu drzew decyzyjnych lub konstrukcja reguł asocjacyjnych, jak i nowoczesnych związanych z systemami rekomendującymi czy systemami wspomagania decyzji.
Program wykładu:
- niepewność danych
- grupowanie danych
- redukcja wymiarowości danych
- klasyfikacja danych
- reguły asocjacyjne
- prognozowanie szeregów czasowych
- systemy rekomendujące
- systemy wspomagania decyzji
- przetwarzanie dużych danych i danych multimedialnych
- statystyka obliczeniowa