Lukasz Stafiniak pages | DataMining / Zadanie 3

June 20, 2008, at 01:51 PM by lukstafi - rozszerzone

Changed line 8 from:

to:

Zadanie nie ma wersji podstawowej (należy do kategorii "rozszerzone").

May 02, 2008, at 10:44 PM by lukstafi - nico

Changed lines 3-4 from:

~~Ja r~~&#~~243~~;~~wnie~~&#~~380~~; ~~planuj~~&#~~281~~; ~~zrobić to zadanie i udost~~&#~~281~~;~~pnić wam nabyte do~~&#~~347~~;~~wiadczenie, ale zaczn~~&#~~281~~; ~~prac~~&#~~281~~; ~~dopiero 21 kwietnia. (P~~&#~~243~~;~~ki co: SHOGUN kompiluje si~~&#~~281~~; &#~~322~~;~~adnie pod Linuksem, ale jego wsparcie dla R jest troch~~ę ~~biedne: po prostu~~ &#~~322~~;~~aduje si~~&#~~281~~; ~~go jako bibliotekę dynamiczn~~ą ~~i wywo~~&#~~322~~;~~uje funkcje biblioteczne odpowiednią komendą R-a. Skompilowanie go pod Windowsem bez Cygwina może być trudne~~.) Zadanie nie jest tak trudne jak może się wydawać, bo nie musisz rozumieć "jak to działa" (w razie braku wystarczającej motywacji by przemóc brak czasu, możesz zignorować część zadania "zapoznaj się z".)

to:

Zadanie nie jest tak trudne jak może się wydawać, bo nie musisz rozumieć "jak to działa" (w razie braku wystarczającej motywacji by przemóc brak czasu, możesz zignorować część zadania "zapoznaj się z".) Trudną częścią jest znalezienie/skonstruowanie ciekawego zbioru danych zawierających zarówno tekst / dane typu "string" ale nie typowo kategorialne, oraz dane numeryczne.

April 11, 2008, at 09:54 PM by lukstafi - nie trudne

Changed lines 3-4 from:

Ja również planuję zrobić to zadanie i udostępnić wam nabyte doświadczenie, ale zacznę pracę dopiero 21 kwietnia. (Póki co: SHOGUN kompiluje się ładnie pod Linuksem, ale jego wsparcie dla R jest trochę biedne: po prostu ładuje się go jako bibliotekę dynamiczną i wywołuje funkcje biblioteczne odpowiednią komendą R-a. Skompilowanie go pod Windowsem bez Cygwina może być trudne.)

to:

Ja również planuję zrobić to zadanie i udostępnić wam nabyte doświadczenie, ale zacznę pracę dopiero 21 kwietnia. (Póki co: SHOGUN kompiluje się ładnie pod Linuksem, ale jego wsparcie dla R jest trochę biedne: po prostu ładuje się go jako bibliotekę dynamiczną i wywołuje funkcje biblioteczne odpowiednią komendą R-a. Skompilowanie go pod Windowsem bez Cygwina może być trudne.) Zadanie nie jest tak trudne jak może się wydawać, bo nie musisz rozumieć "jak to działa" (w razie braku wystarczającej motywacji by przemóc brak czasu, możesz zignorować część zadania "zapoznaj się z".)

April 11, 2008, at 09:39 PM by lukstafi - SVM, multiple kernel methods, SHOGUN

Added lines 1-8:

Zapoznaj się z SVM ([[http://www.autonlab.org/tutorials/svm15.pdf | Support Vector Machines, Tutorial Slides by Andrew Moore]], [[http://www.support-vector.net/icml-tutorial.pdf | Support Vector and Kernel Machines]]). Możesz przetestować działanie SVM wykorzystuąc pakiet e1071, patrz [[http://www.potschi.de/svmtut/svmtut.html | SVM-Tutorial using R (e1071-package)]] oraz [[http://cran.r-project.org/doc/Rnews/Rnews_2001-3.pdf | R News 1/3 2001]] s. 23-27. Obejrzyj wykład dotyczący klasyfikacji wykorzystującej informację pochodzącą z wielu źródeł (jakościowo różną), za pomocą kombinacji macierzy podobieństwa: Gert Lanckriet [[http://video.google.pl/videoplay?docid=4867582015325197740 | Sparse and large-scale learning with heterogeneous data]]. W zadaniu wykorzystamy toolbox SHOGUN ([[http://www.shogun-toolbox.org/ | Shogun - A Large Scale Machine Learning Toolbox]]), wykorzystujący trochę inną technikę od zaproponowanej przez Lanckrieta, patrz [[Large Scale Multiple Kernel Learning -> http://jmlr.csail.mit.edu/papers/volume7/sonnenburg06a/sonnenburg06a.pdf]]. Zadanie polega na zgromadzeniu zbioru danych ze zmiennymi o różnym charakterze, w tym przynajmniej liczbowymi, napisowymi i kategorialną, może też z szeregiem czasowym, i wykorzystaniu toolboxa SHOGUN do wyuczenia klasyfikatora wykorzystującego kilka jąder (odpowiednio dobranych dla zmiennych). Przygotuj raport przedstawiający wyniki eksperymentów z klasyfikatorem, dołącz też istotne skrypty wykorzystane w eksperymentach. (Wykorzystanie pakietu R nie jest wymagane, można działać w Pythonie albo w Matlabie/Octavie.)

Ja również planuję zrobić to zadanie i udostępnić wam nabyte doświadczenie, ale zacznę pracę dopiero 21 kwietnia. (Póki co: SHOGUN kompiluje się ładnie pod Linuksem, ale jego wsparcie dla R jest trochę biedne: po prostu ładuje się go jako bibliotekę dynamiczną i wywołuje funkcje biblioteczne odpowiednią komendą R-a. Skompilowanie go pod Windowsem bez Cygwina może być trudne.)

Na stronie SHOGUNa można znaleźć linki do analiz danych udostępniających również pokaźne zbiory danych (ale raczej nie typu "hurtownia danych"), np.:
* [[http://www.fml.tuebingen.mpg.de/raetsch/projects/protsubloc | An Automated Combination of Kernels for Predicting Protein Subcellular Localization]]

Zadanie 3

DataMining.Zadanie3 History