Emacs Artificial General Intelligence Algorithmic Game Theory: Prediction Markets (po polsku) Systemy Inteligentnych Agentów
|
DataMining.Zadanie4 HistoryHide minor edits - Show changes to output June 20, 2008, at 01:48 PM
by - wskazowki
Added lines 24-46:
W wariancie podstawowym robimy tylko punkty 1 i 3, w całości w R. Punkt 1 wzorujemy na rozdziale 7 artykułu http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/BottcherDethlefsen.pdf, ale dobieramy inne dane (np. z innego pakietu do R). Punkt 3 robimy w pakietach "deal" lub "bnlearn" ("bnlearn" może lepiej radzić sobie z dużą ilością zmiennych), oraz w pakiecie "arules". W części dotyczącej reguł asocjacyjnych można wzorować się na przykładach do pakietu "arules" (rozdział 5 winiety "arules.pdf"), można nawet użyć jednego z przeanalizowanych tam zbiorów danych. Podstawową treścią punktu 3 jest oczywiście porównanie wyników sieci bayesowskiej i reguł asocjacyjnych. Znalezienie sieci bayesowskiej jest kosztowne dla dużej ilości zmiennych, można ograniczyć ilość zmiennych do rozsądnej wybierając zmienne o dużym "supporcie". Wariant rozszerzony polega na zrobieniu dodatkowo punktu 2 w pakiecie BNT do Matlaba, oraz zrobieniu sieci z punktu 1 w BNT w celu policzenia przykładowych prawdopodobieństw warunkowych, tzn. np. wyznaczyć "wiem X i Y, policz prawdopodobieństwo Z", jeśli jest wiele zmiennych i Z zależy bezpośrednio np. od A,B,C, A zależy X, etc. Można użyć innego narzędzia niż BNT, ale nie znalazłem takiegoż pod R... May 22, 2008, at 12:04 PM
by - BNT skrypty
Changed lines 17-18 from:
* Bayes Net Toolbox dla Matlaba. to:
* Bayes Net Toolbox dla Matlaba. ** [[Attach:BayesNets.zip]]: skrypty do BNT dla Matlaba (pasek postępu dla uczenia sieci z możliwością zakończenia na bieżącej konfiguracji), dane "spam" May 20, 2008, at 12:27 PM
by - przywrocilem pierwszy punkt -- dane dyskretne i ciagle
Changed lines 7-8 from:
# to:
# Wydobądź z danych strukturę sieci Bayesowskiej z węzłami dyskretnymi (kategorialnymi) i ciągłymi (liczbowymi) # Skonstruuj model graficzny z ukrytym węzłem dyskretnym, tzn. ze nieobserwowalną zmienną kategorialną, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.) May 20, 2008, at 11:57 AM
by - arules & deal
Changed lines 15-21 from:
Sugerowane narzę to:
Sugerowane narzędzia: * Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.) * R: arules -- Mining Association Rules [[http://r-forge.r-project.org/R/?group_id=36]] ** Zapoznaj się z dokumentacją "arules.pdf" zawierającą dobre wprowadzenie teoretyczne oraz przykłady przygotowywania i analizy danych ** Najnowsza wersja arules wymaga R 2.7.0... * Deal: Learning Bayesian Networks in R [[http://www.math.aau.dk/~dethlef/novo/deal/]] ** Zapoznaj się z [[http://citeseer.ist.psu.edu/548107.html]] lub [[http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/BottcherDethlefsen.pdf]] May 20, 2008, at 10:13 AM
by - wyrzucam zbedny podpunkt
Deleted line 6:
April 25, 2008, at 11:46 AM
by - blad byl
Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P( to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat. Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \ to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat. Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \ to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Arrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat. April 25, 2008, at 07:58 AM
by - not
Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P( to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat. April 25, 2008, at 07:57 AM
by - bayes nets and association rules
Added lines 1-16:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(~B)}{P(A \cap ~B)}$}, test chi-kwadrat. Zapoznaj się z modelami graficznymi na podstawie np. * [[http://www.autonlab.org/tutorials/shortbayes.html | Short Overview of Bayes Nets]], [[Inference in Bayesian Networks -> http://www.autonlab.org/tutorials/bayesinf.html]] [[http://www.autonlab.org/tutorials/bayesstruct.html | Learning Bayesian Networks]]: Tutorial Slides by Andrew Moore * [[http://www.cs.ubc.ca/~murphyk/Software/BNT/bnt.html | Bayes Net Toolbox for Matlab]] Written by Kevin Murphy, 1997--2002: [[http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html | A Brief Introduction to Graphical Models and Bayesian Networks]], [[http://www.cs.ubc.ca/~murphyk/Software/BNT/usage.html | How to use the toolbox]] # Automatycznie odkryj strukturę sieci Bayesowskiej z węzłami różnych typów, dla danych posiadających zmienne ciągłe i dyskretne. # Skonstruuj model graficzny z węzłem ukrytym, tzn. ze zmienną nieobserwowalną, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.) # Porównaj zależności odkryte przez indukcję sieci Bayesowskiej z tymi odkrytymi przez reguły asocjacyjne. ## Znajdź zbiór danych odpowiadający modelowi koszyka rynkowego. ## Zbuduj dla niego sieć bayesowską. *** Jeśli danych jest dużo, do budowy sieci Bayesowskiej wylosuj odpowiednio mniejszy podzbiór krotek - próbkę; eksperyment przeprowadź na dwóch różnych próbkach żeby sprawdzić zależność struktury od przypadkowości zbioru uczącego. ## Odkryj reguły asocjacyjne obowiązujące w danych. ## Opisz, jak rozlokowane względem siebie w sieci Bayesowskiej są przedmioty, które zostały wybrane do reguł asocjacyjnych. Sugerowane narzędzie: Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.) |