Lukasz Stafiniak pages | DataMining / Zadanie 2

June 20, 2008, at 01:51 PM by lukstafi - podstawowe

Changed lines 8-10 from:

Dla zainteresowanych, "Using R for Introductory Statistics" ma dwa rozdziały związane z tym zadaniem: [[http://www.math.csi.cuny.edu/Statistics/R/simpleR/stat007.html | Random Data]] i [[http://www.math.csi.cuny.edu/Statistics/R/simpleR/stat008.html | Simulations]].

to:

Dla zainteresowanych, "Using R for Introductory Statistics" ma dwa rozdziały związane z tym zadaniem: [[http://www.math.csi.cuny.edu/Statistics/R/simpleR/stat007.html | Random Data]] i [[http://www.math.csi.cuny.edu/Statistics/R/simpleR/stat008.html | Simulations]].

(Zadanie nie ma wersji rozszerzonej.)

April 25, 2008, at 01:09 PM by lukstafi - mvrnorm

Changed lines 4-5 from:

# Wygeneruj próbki (dane symulowane) z rozkładu normalnego dwóch zmiennych o zadanej średniej i macierzy kowariancji. (Patrz [[http://pl.wikipedia.org/wiki/Wielowymiarowy_rozk%C5%82ad_normalny#Symulacja]].) Zilustruj dane na wykresie (rozproszenia) dla kilku zestawów parametrów. Poeksperymentuj z estymacją parametrów rozkładu dla prób z różnych wartości parametrów -- wyciągnij wnioski.

to:

# Wygeneruj próbki (dane symulowane) z rozkładu normalnego dwóch zmiennych o zadanej średniej i macierzy kowariancji. (Patrz [[http://pl.wikipedia.org/wiki/Wielowymiarowy_rozk%C5%82ad_normalny#Symulacja]]; na skróty: funkcja "mvrnorm" biblioteka "MASS".) Zilustruj dane na wykresie (rozproszenia) dla kilku zestawów parametrów. Poeksperymentuj z estymacją parametrów rozkładu dla prób z różnych wartości parametrów -- wyciągnij wnioski.

April 01, 2008, at 10:59 AM by lukstafi - Using R linki

Added lines 7-8:

Dla zainteresowanych, "Using R for Introductory Statistics" ma dwa rozdziały związane z tym zadaniem: [[http://www.math.csi.cuny.edu/Statistics/R/simpleR/stat007.html | Random Data]] i [[http://www.math.csi.cuny.edu/Statistics/R/simpleR/stat008.html | Simulations]].

March 28, 2008, at 01:25 AM by lukstafi -

Changed line 3 from:

# Zakładanie wszędzie normalności zmiennych losowych jest naiwne. Anegdotycznie, spotyka się artykuły przeprowadzające analizy parametrów {$A$} i {$B$} zakładające ich normalność, pomimo, że wiadomo, że {$A=f(B)$} dla nieliniowej funkcji {$f$}. W szczególności, czynniki kształtujące parametr mogą mieć wkłady proporcjonalne, a nie bezwzględne. Wtedy mamy do czynienia z rozkładem log-normalnym ({$Y$} ma rozkład log-normalny, gdy {$\log(Y)$} ma rozkład normalny; logarytm zamienia iloczyny na sumy). Sprawdź dla wybranych zmiennych z wybranych zbiorów danych dostępnych w pakiecie R, czy mają rozkład (empiryczny) bliższy rozkładowi normalnemu czy log-normalnemu. Możesz użyć qq-plotów, a możesz się wykazać używając odpowiedniego testu statystycznego. (Wybierz ~~zbi~~&#~~243~~;~~r o danych~~ dodatnich!)

to:

# Zakładanie wszędzie normalności zmiennych losowych jest naiwne. Anegdotycznie, spotyka się artykuły przeprowadzające analizy parametrów {$A$} i {$B$} zakładające ich normalność, pomimo, że wiadomo, że {$A=f(B)$} dla nieliniowej funkcji {$f$}. W szczególności, czynniki kształtujące parametr mogą mieć wkłady proporcjonalne, a nie bezwzględne. Wtedy mamy do czynienia z rozkładem log-normalnym ({$Y$} ma rozkład log-normalny, gdy {$\log(Y)$} ma rozkład normalny; logarytm zamienia iloczyny na sumy). Sprawdź dla wybranych zmiennych z wybranych zbiorów danych dostępnych w pakiecie R, czy mają rozkład (empiryczny) bliższy rozkładowi normalnemu czy log-normalnemu. Możesz użyć qq-plotów, a możesz się wykazać używając odpowiedniego testu statystycznego. (Wybierz parametry o wartościach dodatnich!)

March 28, 2008, at 01:19 AM by lukstafi - dane z rozkladu normalnego

Added lines 1-6:

Często obserwowanym w przyrodzie rozkładem jest rozkład normalny. Wynika to z centralnego twierdzenia granicznego, które mówi, że jest on rozkładem granicznym dla sumy wielu niezależnych składników o skończonych wariancjach. (Jednak częste są również zjawiska, w których założenie istnienia warjancji składników nie zachodzi, np. loty Leviego [[Wikipedia:Levy flight]].)
# Przetestuj centralne twierdzenie graniczne dla małej (np. 5 elementowej) i większej (np. 30 elementowej) próbki sum niezależnych zmiennych branych z rozkładu jednostajnego, lub binarnego (tzn. próba z rozkładu dwumianowego).
# Zakładanie wszędzie normalności zmiennych losowych jest naiwne. Anegdotycznie, spotyka się artykuły przeprowadzające analizy parametrów {$A$} i {$B$} zakładające ich normalność, pomimo, że wiadomo, że {$A=f(B)$} dla nieliniowej funkcji {$f$}. W szczególności, czynniki kształtujące parametr mogą mieć wkłady proporcjonalne, a nie bezwzględne. Wtedy mamy do czynienia z rozkładem log-normalnym ({$Y$} ma rozkład log-normalny, gdy {$\log(Y)$} ma rozkład normalny; logarytm zamienia iloczyny na sumy). Sprawdź dla wybranych zmiennych z wybranych zbiorów danych dostępnych w pakiecie R, czy mają rozkład (empiryczny) bliższy rozkładowi normalnemu czy log-normalnemu. Możesz użyć qq-plotów, a możesz się wykazać używając odpowiedniego testu statystycznego. (Wybierz zbiór o danych dodatnich!)
# Wygeneruj próbki (dane symulowane) z rozkładu normalnego dwóch zmiennych o zadanej średniej i macierzy kowariancji. (Patrz [[http://pl.wikipedia.org/wiki/Wielowymiarowy_rozk%C5%82ad_normalny#Symulacja]].) Zilustruj dane na wykresie (rozproszenia) dla kilku zestawów parametrów. Poeksperymentuj z estymacją parametrów rozkładu dla prób z różnych wartości parametrów -- wyciągnij wnioski.

Rozwiązania przedstaw w postaci raportu w pdf i wyślij mi e-mailem.

Zadanie 2

DataMining.Zadanie2 History