Lukasz Stafiniak pages | DataMining / Zadanie 4

June 20, 2008, at 01:48 PM by lukstafi - wskazowki

Added lines 24-46:

W wariancie
podstawowym robimy tylko punkty 1 i 3, w całości w R. Punkt 1
wzorujemy na rozdziale 7 artykułu
http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/BottcherDethlefsen.pdf,
ale dobieramy inne dane (np. z innego pakietu do R). Punkt 3 robimy w
pakietach "deal" lub "bnlearn" ("bnlearn" może lepiej radzić sobie z
dużą ilością zmiennych), oraz w pakiecie "arules". W części dotyczącej
reguł asocjacyjnych można wzorować się na przykładach do pakietu
"arules" (rozdział 5 winiety "arules.pdf"), można nawet użyć jednego z
przeanalizowanych tam zbiorów danych. Podstawową treścią punktu 3 jest
oczywiście porównanie wyników sieci bayesowskiej i reguł
asocjacyjnych. Znalezienie sieci bayesowskiej jest kosztowne dla dużej
ilości zmiennych, można ograniczyć ilość zmiennych do rozsądnej
wybierając zmienne o dużym "supporcie".

Wariant rozszerzony polega na zrobieniu dodatkowo punktu 2 w pakiecie
BNT do Matlaba, oraz zrobieniu sieci z punktu 1 w BNT w celu
policzenia przykładowych prawdopodobieństw warunkowych, tzn. np.
wyznaczyć "wiem X i Y, policz prawdopodobieństwo Z", jeśli jest wiele
zmiennych i Z zależy bezpośrednio np. od A,B,C, A zależy X, etc.
Można użyć innego narzędzia niż BNT, ale nie znalazłem takiegoż pod
R...

May 22, 2008, at 12:04 PM by lukstafi - BNT skrypty

Changed lines 17-18 from:

* Bayes Net Toolbox dla Matlaba. ~~(Spróbuję go odpalić pod Octavą.)~~

to:

* Bayes Net Toolbox dla Matlaba.
** [[Attach:BayesNets.zip]]: skrypty do BNT dla Matlaba (pasek postępu dla uczenia sieci z możliwością zakończenia na bieżącej konfiguracji), dane "spam"

May 20, 2008, at 12:27 PM by lukstafi - przywrocilem pierwszy punkt -- dane dyskretne i ciagle

Changed lines 7-8 from:

# ~~Skonstruuj model graficzny z w~~&#~~281~~;z&#~~322~~;~~em ukrytym, tzn. ze zmienn~~&#~~261~~; ~~nieobserwowaln~~ą, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.)

to:

# Wydobądź z danych strukturę sieci Bayesowskiej z węzłami dyskretnymi (kategorialnymi) i ciągłymi (liczbowymi)
# Skonstruuj model graficzny z ukrytym węzłem dyskretnym, tzn. ze nieobserwowalną zmienną kategorialną, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.)

May 20, 2008, at 11:57 AM by lukstafi - arules & deal

Changed lines 15-21 from:

Sugerowane narzę~~dzie~~: Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.)

to:

Sugerowane narzędzia:
* Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.)
* R: arules -- Mining Association Rules [[http://r-forge.r-project.org/R/?group_id=36]]
** Zapoznaj się z dokumentacją "arules.pdf" zawierającą dobre wprowadzenie teoretyczne oraz przykłady przygotowywania i analizy danych
** Najnowsza wersja arules wymaga R 2.7.0...
* Deal: Learning Bayesian Networks in R [[http://www.math.aau.dk/~dethlef/novo/deal/]]
** Zapoznaj się z [[http://citeseer.ist.psu.edu/548107.html]] lub [[http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/BottcherDethlefsen.pdf]]

May 20, 2008, at 10:13 AM by lukstafi - wyrzucam zbedny podpunkt

Deleted line 6:

~~# Automatycznie odkryj strukturę sieci Bayesowskiej z węzłami różnych typów, dla danych posiadających zmienne ciągłe i dyskretne.~~

April 25, 2008, at 11:46 AM by lukstafi - blad byl

Changed lines 1-2 from:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)~~=\frac~~{P(A ~~\cap B~~)}{P(A)*P(B)}$}, "conviction" {$~~P(B|A)=~~\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat.

to:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat.

April 25, 2008, at 07:59 AM by lukstafi -

Changed lines 1-2 from:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \~~Arrow~~ B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\~~not~~ B)}{P(A \cap \~~not~~ B)}$}, test chi-kwadrat.

to:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat.

April 25, 2008, at 07:58 AM by lukstafi -

Changed lines 1-2 from:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \~~implies~~ B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat.

to:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Arrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat.

April 25, 2008, at 07:58 AM by lukstafi - not

Changed lines 1-2 from:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(~B)}{P(A \cap ~B)}$}, test chi-kwadrat.

to:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat.

April 25, 2008, at 07:57 AM by lukstafi - bayes nets and association rules

Added lines 1-16:

Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(~B)}{P(A \cap ~B)}$}, test chi-kwadrat.

Zapoznaj się z modelami graficznymi na podstawie np.
* [[http://www.autonlab.org/tutorials/shortbayes.html | Short Overview of Bayes Nets]], [[Inference in Bayesian Networks -> http://www.autonlab.org/tutorials/bayesinf.html]] [[http://www.autonlab.org/tutorials/bayesstruct.html | Learning Bayesian Networks]]: Tutorial Slides by Andrew Moore
* [[http://www.cs.ubc.ca/~murphyk/Software/BNT/bnt.html | Bayes Net Toolbox for Matlab]] Written by Kevin Murphy, 1997--2002: [[http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html | A Brief Introduction to Graphical Models and Bayesian Networks]], [[http://www.cs.ubc.ca/~murphyk/Software/BNT/usage.html | How to use the toolbox]]

# Automatycznie odkryj strukturę sieci Bayesowskiej z węzłami różnych typów, dla danych posiadających zmienne ciągłe i dyskretne.
# Skonstruuj model graficzny z węzłem ukrytym, tzn. ze zmienną nieobserwowalną, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.)
# Porównaj zależności odkryte przez indukcję sieci Bayesowskiej z tymi odkrytymi przez reguły asocjacyjne.
## Znajdź zbiór danych odpowiadający modelowi koszyka rynkowego.
## Zbuduj dla niego sieć bayesowską.
*** Jeśli danych jest dużo, do budowy sieci Bayesowskiej wylosuj odpowiednio mniejszy podzbiór krotek - próbkę; eksperyment przeprowadź na dwóch różnych próbkach żeby sprawdzić zależność struktury od przypadkowości zbioru uczącego.
## Odkryj reguły asocjacyjne obowiązujące w danych.
## Opisz, jak rozlokowane względem siebie w sieci Bayesowskiej są przedmioty, które zostały wybrane do reguł asocjacyjnych.

Sugerowane narzędzie: Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.)

Zadanie 4

DataMining.Zadanie4 History