Recent Changes · Search:

Functional Programming

Type Inference

Toss

  • (incorporates former Speagram)

Emacs

Kurs Pascala

Artificial General Intelligence

AI:

Algorithmic Game Theory: Prediction Markets (po polsku)

Programming in Java

kurs pracy w systemie Linux

Evolutionary Algorithms

Animation

Data Stores and Data Mining

Language Understanding

Systemy Inteligentnych Agentów

Przetwarzanie Języka Naturalnego

Programowanie Funkcjonalne

PmWiki

pmwiki.org

add user

edit SideBar

DataMining.Zadanie4 History

Hide minor edits - Show changes to output

June 20, 2008, at 01:48 PM by lukstafi - wskazowki
Added lines 24-46:

W wariancie
podstawowym robimy tylko punkty 1 i 3, w całości w R. Punkt 1
wzorujemy na rozdziale 7 artykułu
http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/BottcherDethlefsen.pdf,
ale dobieramy inne dane (np. z innego pakietu do R). Punkt 3 robimy w
pakietach "deal" lub "bnlearn" ("bnlearn" może lepiej radzić sobie z
dużą ilością zmiennych), oraz w pakiecie "arules". W części dotyczącej
reguł asocjacyjnych można wzorować się na przykładach do pakietu
"arules" (rozdział 5 winiety "arules.pdf"), można nawet użyć jednego z
przeanalizowanych tam zbiorów danych. Podstawową treścią punktu 3 jest
oczywiście porównanie wyników sieci bayesowskiej i reguł
asocjacyjnych. Znalezienie sieci bayesowskiej jest kosztowne dla dużej
ilości zmiennych, można ograniczyć ilość zmiennych do rozsądnej
wybierając zmienne o dużym "supporcie".

Wariant rozszerzony polega na zrobieniu dodatkowo punktu 2 w pakiecie
BNT do Matlaba, oraz zrobieniu sieci z punktu 1 w BNT w celu
policzenia przykładowych prawdopodobieństw warunkowych, tzn. np.
wyznaczyć "wiem X i Y, policz prawdopodobieństwo Z", jeśli jest wiele
zmiennych i Z zależy bezpośrednio np. od A,B,C, A zależy X, etc.
Można użyć innego narzędzia niż BNT, ale nie znalazłem takiegoż pod
R...
May 22, 2008, at 12:04 PM by lukstafi - BNT skrypty
Changed lines 17-18 from:
* Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.)
to:
* Bayes Net Toolbox dla Matlaba.
** [[Attach:BayesNets.zip]]: skrypty do BNT dla Matlaba (pasek postępu dla uczenia sieci z możliwością zakończenia na bieżącej konfiguracji), dane "spam"
May 20, 2008, at 12:27 PM by lukstafi - przywrocilem pierwszy punkt -- dane dyskretne i ciagle
Changed lines 7-8 from:
# Skonstruuj model graficzny z węzłem ukrytym, tzn. ze zmienną nieobserwowalną, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.)
to:
# Wydobądź z danych strukturę sieci Bayesowskiej z węzłami dyskretnymi (kategorialnymi) i ciągłymi (liczbowymi)
# Skonstruuj model graficzny z ukrytym węzłem dyskretnym, tzn. ze nieobserwowalną zmienną kategorialn
ą, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.)
May 20, 2008, at 11:57 AM by lukstafi - arules & deal
Changed lines 15-21 from:
Sugerowane narzędzie: Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.)
to:
Sugerowane narzędzia:
* Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.) 
* R: arules -- Mining Association Rules [[http://r-forge.r-project.org/R/?group_id=36]]
** Zapoznaj się z dokumentacją "arules.pdf" zawierającą dobre wprowadzenie teoretyczne oraz przykłady przygotowywania i analizy danych
** Najnowsza wersja arules wymaga R 2.7.0...
*  Deal: Learning Bayesian Networks in R [[http://www.math.aau.dk/~dethlef/novo/deal/]]
** Zapoznaj się z [[http://citeseer.ist.psu.edu/548107.html]] lub [[http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/BottcherDethlefsen.pdf]]
May 20, 2008, at 10:13 AM by lukstafi - wyrzucam zbedny podpunkt
Deleted line 6:
# Automatycznie odkryj strukturę sieci Bayesowskiej z węzłami różnych typów, dla danych posiadających zmienne ciągłe i dyskretne.
April 25, 2008, at 11:46 AM by lukstafi - blad byl
Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat.
to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat.
Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Arrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat.
to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Rightarrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\neg B)}{P(A \cap \neg B)}$}, test chi-kwadrat.
Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat.
to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \Arrow B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat.
April 25, 2008, at 07:58 AM by lukstafi - not
Changed lines 1-2 from:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(~B)}{P(A \cap ~B)}$}, test chi-kwadrat.
to:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(\not B)}{P(A \cap \not B)}$}, test chi-kwadrat.
April 25, 2008, at 07:57 AM by lukstafi - bayes nets and association rules
Added lines 1-16:
Potężnym narzędziem znajdowania i wykorzystywania struktury zależności w danych są tzw. modele graficzne, albo sieci Bayesowskie (w szerokim sensie). Jest to niestety podejście bardzo kosztowne obliczeniowo. Proste i nadające się do ogromnych zbiorów danych podejście to reguły asocjacyjne. Modelują one zależności współwystępowania w danych szczególnej postaci: krotek binarych, czyli (w zwartej reprezentacji) zbiorów. (Zagadnienie tego rodzaju nazywa się "koszykiem rynkowym" -- "market basket".) Klasyczne ujęcie "koszyka rynkowego" musi brać każdy przedmiot jako osobną zmienną binarną; zbiory-krotki w terminologii "koszyka rynkowego" nazywane są tranzakcjami. Uczenie reguł asocjacyjnych działa poprzez najpierw wybranie podzbiorów przedmiotów o dużym nośniku (ang. "support"), tzn. podzbiorów zawartych w wielu tranzakcjach, następnie utworzeniu wśród nich reguł postaci {$A \implies B$} o dużej pewności (ang. "confidence"), tzn. jeśli tranzakcja zawiera podzbiór {$A$}, to bardzo często zawiera też podzbiór {$B$}, czyli {$P(B|A)=\frac{P(A \cap B)}{P(A)}$} jest duże. Bardziej zaawansowane techniki selekcji reguł wykorzystują zależności statystyczne, uwzględniające też "przykłady negatywne" i częstości obu podzbiorów przedmiotów, np. "lift" {$P(B|A)=\frac{P(A \cap B)}{P(A)*P(B)}$}, "conviction" {$P(B|A)=\frac{P(A)*P(~B)}{P(A \cap ~B)}$}, test chi-kwadrat.

Zapoznaj się z modelami graficznymi na podstawie np.
* [[http://www.autonlab.org/tutorials/shortbayes.html | Short Overview of Bayes Nets]], [[Inference in Bayesian Networks -> http://www.autonlab.org/tutorials/bayesinf.html]] [[http://www.autonlab.org/tutorials/bayesstruct.html | Learning Bayesian Networks]]: Tutorial Slides by Andrew Moore
* [[http://www.cs.ubc.ca/~murphyk/Software/BNT/bnt.html | Bayes Net Toolbox for Matlab]] Written by Kevin Murphy, 1997--2002: [[http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html | A Brief Introduction to Graphical Models and Bayesian Networks]], [[http://www.cs.ubc.ca/~murphyk/Software/BNT/usage.html | How to use the toolbox]]

# Automatycznie odkryj strukturę sieci Bayesowskiej z węzłami różnych typów, dla danych posiadających zmienne ciągłe i dyskretne.
# Skonstruuj model graficzny z węzłem ukrytym, tzn. ze zmienną nieobserwowalną, i wykorzystaj go do przeprowadzenia grupowania danych. (Jeśli zmienne są ciągłe i modelowane węzłami gaussowskimi, podejście to przypomina tzw. mikstury gaussowskie.)
# Porównaj zależności odkryte przez indukcję sieci Bayesowskiej z tymi odkrytymi przez reguły asocjacyjne.
## Znajdź zbiór danych odpowiadający modelowi koszyka rynkowego.
## Zbuduj dla niego sieć bayesowską.
*** Jeśli danych jest dużo, do budowy sieci Bayesowskiej wylosuj odpowiednio mniejszy podzbiór krotek - próbkę; eksperyment przeprowadź na dwóch różnych próbkach żeby sprawdzić zależność struktury od przypadkowości zbioru uczącego.
## Odkryj reguły asocjacyjne obowiązujące w danych.
## Opisz, jak rozlokowane względem siebie w sieci Bayesowskiej są przedmioty, które zostały wybrane do reguł asocjacyjnych.

Sugerowane narzędzie: Bayes Net Toolbox dla Matlaba. (Spróbuję go odpalić pod Octavą.)
Edit · History · Print · Recent Changes · Search · Links
Page last modified on June 20, 2008, at 01:48 PM